RAG és vektoros keresés

A Retrieval-Augmented Generation pontos, forrásalapú válaszokat biztosít.

A Retrieval-Augmented Generation (RAG) az a technika, amely lehetővé teszi, hogy a chatbot ne általános tudásból, hanem a te saját tartalmaidból válaszoljon. A Lexo ezt a módszert alkalmazza minden chatbot válasz generálásánál.

Mi az a RAG?

A hagyományos AI-modellek csak a tanításuk során elsajátított tudást tudják felhasználni. A RAG módszer ezt kiegészíti egy keresési lépéssel: a kérdés feltevése előtt a rendszer megkeresi a releváns tartalmakat a vektoros adatbázisban, és ezeket átadja az AI-nak kontextusként. Az AI ezek alapján generál választ, nem pedig a modell általános tudásából.

Az embedding pipeline

Amikor egy forrást indexelsz, a következő folyamat zajlik le:

  1. A szöveg szemantikus egységekre (chunk-okra) van felosztva — tipikusan 200-500 token méretű részekre, amelyek logikailag összetartozó gondolatokat tartalmaznak.
  2. Minden chunkot az embedding modell vektorrá alakít — egy többszáz dimenziós számsorozattá, amely a szöveg jelentését kódolja.
  3. A vektorok a Qdrant vektoros adatbázisba kerülnek, ahol az összes chatbot saját kollekcióját tartja.
AI szolgáltatóEmbedding modellDimenzió
OpenAItext-embedding-3-small1536
Geminigemini-embedding-0013072
Ollamanomic-embed-text768

Szemantikus keresés

Amikor a látogató kérdést tesz fel, a rendszer ugyanazzal az embedding modellel vektorrá alakítja a kérdést, majd koszinusz hasonlóság alapján keresi meg a legközelebb álló chunkokat a Qdrantban. A legmegfelelőbb 5-7 chunk kerül az AI rendszerpromptjába kontextusként.

A keresés forrásdiverzitást is alkalmaz: az eredmények között legfeljebb 2 chunk származhat ugyanarról az oldalról, hogy az AI változatos perspektívából kapjon információt.

Tartalom minőség és szűrés

Nem minden tartalom egyforma értékű. A rendszer az alábbi minőségi szűrőket alkalmazza:

  • Szósűrűség: Rövid vagy kevés szöveget tartalmazó oldalak kizárhatók.
  • Boilerplate arány: A navigáció, a lábléc és az egyéb ismétlődő elemek (boilerplate) deduplikálásra kerülnek az oldalak között.
  • Fallback küszöb: Ha az egyetlen talált chunk sem éri el a 0.2-es hasonlóság értéket, a chatbot a tartalék üzenetet küldi ahelyett, hogy alacsony relevanciájú tartalomra alapozna.

Hallucináció megelőzés

A chatbot rendszerpromptja szigorúan utasítja az AI-t, hogy csak a kapott kontextusból válaszoljon. Az LLM hőmérséklete (temperature) alacsony értékre (0.3) van állítva, ami csökkenti a kreatív, de pontatlan válaszok esélyét. Ha az AI kételkedik, inkább a tartalék üzenetet küldi.

A prompt injekció elleni védelem is aktív: a rendszer felismeri és semlegesíti azokat az üzeneteket, amelyek megpróbálják felülírni a chatbot rendszer promptját (pl. "felejtsd el az összes utasítást"). Ez magyar és angol nyelven egyaránt működik.