RAG és vektoros keresés

A Retrieval-Augmented Generation pontos, forrásalapú válaszokat biztosít.

A Retrieval-Augmented Generation (RAG) az a technika, amely lehetővé teszi, hogy a chatbot ne általános tudásból, hanem a te saját tartalmaidból válaszoljon. A Lexo ezt a módszert alkalmazza minden chatbot válasz generálásánál.

Mi az a RAG?

A hagyományos AI-modellek csak a tanításuk során elsajátított tudást tudják felhasználni. A RAG módszer ezt kiegészíti egy keresési lépéssel: a kérdés feltevése előtt a rendszer megkeresi a releváns tartalmakat a vektoros adatbázisban, és ezeket átadja az AI-nak kontextusként. Az AI ezek alapján generál választ, nem pedig a modell általános tudásából.

Az embedding pipeline

Amikor egy forrást indexelsz, a következő folyamat zajlik le:

A szöveg szemantikus egységekre (chunk-okra) van felosztva — tipikusan 200-500 token méretű részekre, amelyek logikailag összetartozó gondolatokat tartalmaznak.
Minden chunkot az embedding modell vektorrá alakít — egy többszáz dimenziós számsorozattá, amely a szöveg jelentését kódolja.
A vektorok a Qdrant vektoros adatbázisba kerülnek, ahol az összes chatbot saját kollekcióját tartja.

AI szolgáltató	Embedding modell	Dimenzió
OpenAI	text-embedding-3-small	1536
Gemini	gemini-embedding-001	3072
Ollama	nomic-embed-text	768

Szemantikus keresés

Amikor a látogató kérdést tesz fel, a rendszer ugyanazzal az embedding modellel vektorrá alakítja a kérdést, majd koszinusz hasonlóság alapján keresi meg a legközelebb álló chunkokat a Qdrantban. A legmegfelelőbb 5-7 chunk kerül az AI rendszerpromptjába kontextusként.

A keresés forrásdiverzitást is alkalmaz: az eredmények között legfeljebb 2 chunk származhat ugyanarról az oldalról, hogy az AI változatos perspektívából kapjon információt.

Tartalom minőség és szűrés

Nem minden tartalom egyforma értékű. A rendszer az alábbi minőségi szűrőket alkalmazza:

Szósűrűség: Rövid vagy kevés szöveget tartalmazó oldalak kizárhatók.
Boilerplate arány: A navigáció, a lábléc és az egyéb ismétlődő elemek (boilerplate) deduplikálásra kerülnek az oldalak között.
Fallback küszöb: Ha az egyetlen talált chunk sem éri el a 0.2-es hasonlóság értéket, a chatbot a tartalék üzenetet küldi ahelyett, hogy alacsony relevanciájú tartalomra alapozna.

Hallucináció megelőzés

A chatbot rendszerpromptja szigorúan utasítja az AI-t, hogy csak a kapott kontextusból válaszoljon. Az LLM hőmérséklete (temperature) alacsony értékre (0.3) van állítva, ami csökkenti a kreatív, de pontatlan válaszok esélyét. Ha az AI kételkedik, inkább a tartalék üzenetet küldi.

A prompt injekció elleni védelem is aktív: a rendszer felismeri és semlegesíti azokat az üzeneteket, amelyek megpróbálják felülírni a chatbot rendszer promptját (pl. "felejtsd el az összes utasítást"). Ez magyar és angol nyelven egyaránt működik.

Tudásbázis Widget beágyazása