RAG és vektoros keresés
A Retrieval-Augmented Generation pontos, forrásalapú válaszokat biztosít.
A Retrieval-Augmented Generation (RAG) az a technika, amely lehetővé teszi, hogy a chatbot ne általános tudásból, hanem a te saját tartalmaidból válaszoljon. A Lexo ezt a módszert alkalmazza minden chatbot válasz generálásánál.
Mi az a RAG?
A hagyományos AI-modellek csak a tanításuk során elsajátított tudást tudják felhasználni. A RAG módszer ezt kiegészíti egy keresési lépéssel: a kérdés feltevése előtt a rendszer megkeresi a releváns tartalmakat a vektoros adatbázisban, és ezeket átadja az AI-nak kontextusként. Az AI ezek alapján generál választ, nem pedig a modell általános tudásából.
Az embedding pipeline
Amikor egy forrást indexelsz, a következő folyamat zajlik le:
- A szöveg szemantikus egységekre (chunk-okra) van felosztva — tipikusan 200-500 token méretű részekre, amelyek logikailag összetartozó gondolatokat tartalmaznak.
- Minden chunkot az embedding modell vektorrá alakít — egy többszáz dimenziós számsorozattá, amely a szöveg jelentését kódolja.
- A vektorok a Qdrant vektoros adatbázisba kerülnek, ahol az összes chatbot saját kollekcióját tartja.
| AI szolgáltató | Embedding modell | Dimenzió |
|---|---|---|
| OpenAI | text-embedding-3-small | 1536 |
| Gemini | gemini-embedding-001 | 3072 |
| Ollama | nomic-embed-text | 768 |
Szemantikus keresés
Amikor a látogató kérdést tesz fel, a rendszer ugyanazzal az embedding modellel vektorrá alakítja a kérdést, majd koszinusz hasonlóság alapján keresi meg a legközelebb álló chunkokat a Qdrantban. A legmegfelelőbb 5-7 chunk kerül az AI rendszerpromptjába kontextusként.
A keresés forrásdiverzitást is alkalmaz: az eredmények között legfeljebb 2 chunk származhat ugyanarról az oldalról, hogy az AI változatos perspektívából kapjon információt.
Tartalom minőség és szűrés
Nem minden tartalom egyforma értékű. A rendszer az alábbi minőségi szűrőket alkalmazza:
- Szósűrűség: Rövid vagy kevés szöveget tartalmazó oldalak kizárhatók.
- Boilerplate arány: A navigáció, a lábléc és az egyéb ismétlődő elemek (boilerplate) deduplikálásra kerülnek az oldalak között.
- Fallback küszöb: Ha az egyetlen talált chunk sem éri el a 0.2-es hasonlóság értéket, a chatbot a tartalék üzenetet küldi ahelyett, hogy alacsony relevanciájú tartalomra alapozna.
Hallucináció megelőzés
A chatbot rendszerpromptja szigorúan utasítja az AI-t, hogy csak a kapott kontextusból válaszoljon. Az LLM hőmérséklete (temperature) alacsony értékre (0.3) van állítva, ami csökkenti a kreatív, de pontatlan válaszok esélyét. Ha az AI kételkedik, inkább a tartalék üzenetet küldi.