Tudásbázis

A chatbot tudása innen érkezik — weboldalak, PDF-ek és termék feedek.

A tudásbázis az a tartalom, amelyből a chatbot a válaszait meríti. Minél pontosabb és részletesebb a tudásbázis, annál jobb minőségű válaszokat ad a chatbot. Egy chatbothoz egyszerre több forrás is hozzáadható.

Mi a tudásbázis?

A tudásbázis tartalmakból épül fel – olyan szövegekből, amelyeket a rendszer szemantikusan indexelt. Amikor a látogató kérdést tesz fel, a rendszer megkeresi a leginkább releváns tartalmakat, és ezeket az AI kontextusába adja a válasz generálásához. Az AI soha nem generál választ olyan információ alapján, amely nem szerepel a tudásbázisban.

Weboldal szkennelés

A leggyakoribb forrástípus. Add meg a weboldal alap URL-jét, és a scraper automatikusan végig járja az összes belső oldalt.

Teljes szkennelés: Az alap URL-ből automatikusan bejárja az összes belső linket. Kizárhatsz URL mintákat (pl. /blog/*, /admin/*).
Oldalak kiválasztása: Előbb feltérképezi az elérhető oldalakat, majd kiválaszthatod, melyeket indexeljük. Az oldalak statikus/dinamikus jellegük szerint csoportosítva jelennek meg.
Scraper backend: Alapértelmezetten Jina Reader API-t használ (gyors, REST-alapú). Alternatívaként Playwright headless böngésző is beállítható a SCRAPER_PROVIDER=playwright környezeti változóval — ez JavaScript-renderelt oldalakhoz (React, Vue, Angular) ajánlott.

A webscraper kiszűri a felesleges tartalmakat (pl. navigáció, lábléc, reklámok), és csak a releváns főtartalmat indexeli. Minden oldalhoz minőségi pontszámot rendel – az alacsony pontszámú oldalak automatikusan kizárhatók.

A szkennelés megszakítható a Beolvasás megszakítása gombbal, amely az aktív szkennelés alatt jelenik meg. Megszakítás esetén a már mentett részleges adat is törlésre kerül — az újabb szkennelés az egész folyamatot elölről kezdi.

PDF feltöltés

PDF dokumentumokat (termékkatalógusok, GYIK, kézikönyvek) közvetlenül is feltölthetsz. A rendszer kinyeri a szöveget, chunkokra bontja, és indexeli. Kép-alapú PDF-ek (szkennelt dokumentumok) nem indexelhetők — csak szöveges tartalmú PDF-ek támogatottak.

Termék feed

Webshopok számára a Google Shopping kompatibilis XML/Atom termék feed importálható. A rendszer automatikusan megtalálja a feed URL-jét a weboldal alapján (sitemap.xml, feed.xml, ismert e-commerce útvonalak vizsgálatával), vagy manuálisan is megadható.

A termékadatok (név, leírás, ár, elérhetőség, kategória) chunkokként kerülnek az indexbe, így a chatbot pontos termékleírásokat, árakat és készletinformációkat tud adni.

Token és méret kvóták

Minden felhasználói fiókhoz token kvóta tartozik (a csomagtól függően). A szkennelt oldalak és feltöltött dokumentumok tokenjei beleszámítanak ebbe a kvótába. A dashboard áttekintő oldalán követheted nyomon az aktuális felhasználást.

Forrás állapot

Minden forrás a következő állapotok egyikében lehet:

Feldolgozás alatt: A scraper vagy az embedding folyamat fut.
Kész: Az indexelés sikeresen befejeződött, a chatbot használja.
Hiba: Az indexelés nem sikerült (elérhetetlen URL, hibás PDF, stb.). A hibaleírás látható a részletek nézetben.

Chatbot beállítása RAG és vektoros keresés