Tässä on yleinen väärinkäsitys RAG:sta! Useimmat ihmiset ajattelevat, että RAG toimii näin: indeksoi asiakirja → hae sama asiakirja. Mutta indeksointi ≠ haku. Indeksoimasi ei tarvitse olla sitä, mitä syötät LLM:lle. Kun ymmärrät tämän, voit rakentaa RAG-järjestelmiä, jotka todella toimivat. Tässä on 4 indeksointistrategiaa, jotka erottavat hyvän RAG:n hyvästä RAG:sta: 1) Lohkojen indeksointi ↳ Tämä on vakiolähestymistapa. Jaa dokumentit osiin, upota ne, tallenna vektoritietokantaan ja hae lähimmät vastaavuudet. ↳ Yksinkertainen ja tehokas, mutta suuret tai meluisat palat vahingoittavat tarkkuuttasi. 2) Osalohkojen indeksointi ↳ Jaa palat pienempiin osapaloihin indeksointia varten, mutta hae koko pala kontekstia varten. ↳ Tämä on tehokasta, kun yksi osio kattaa useita käsitteitä. Saat paremman kyselyiden vastaavuuden menettämättä LLM:n tarvitsemaa ympäröivää kontekstia. 3) Kyselyn indeksointi ↳ Raakatekstin indeksoinnin sijaan luo hypoteettisia kysymyksiä, joihin pala voisi vastata. Indeksoi sen sijaan nämä kysymykset. ↳ Käyttäjien kyselyt vastaavat luonnollisesti paremmin kysymyksiä kuin raaka asiakirjateksti. Tämä sulkee semanttisen kuilun sen välillä, mitä käyttäjät pyytävät ja mitä olet tallentanut. ...