- arkhein blogja
- A hozzászóláshoz be kell jelentkezni
- 276 megtekintés
Hozzászólások
Ezeket én is nézegetem, szuper megoldásokat lehet készíteni így. Köszi a leírást, megnézem.
Egy kicsit más, de most erről olvasgattam többet: https://livekit.io/ Ez egy streaming platform, ahol pl a videóhívást, hanghívást össze tudod lőni LLM-mel, Speech to text, és text to speech megoldással. (de ennél többre van lehetőség a livekittel, csak ez az irány érdekelt) Próbáld ki a weboldalon a "Talk to livekit" gombot. Kifaggattam, hogy ebben a beszélgetésben az egyes részfeladatokhoz milyen modell van használatban: LLM, TTS, STT, és el is mondja. Elkezdtem nézegetni az azure és openai árakat is, egy egy órás beszélgetést valamiről (ha jól néztem/számoltam) pár száz forintból ki lehet hozni. De localban is lehet futtatni mindent, csak kérdés, hogy ott kisebb modellek hogy teljesítenek.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Rendben, mi a következtetés?
- A hozzászóláshoz be kell jelentkezni
Nem következtetés, inkább dilemma. Eltekintve a technikai korlátoktól (kontextusablak memóriaigénye*) kontra egyre ügyesebb optimalizáló technikáktól (KV caching, vlllm) van-e a RAG kialakításnak elvi előnye a nagy kontextusablakban explicit megadott, a prompt szerkesztője által relevánsnak tekintett kijelentésekhez képest? Az alapmodell tanítása, finomhangolása, szerintem mindent visz, ha a pontosság a cél. De ez egy olyan irány ami erőforrásigényes (gépkapacitás, idő, emberi szakmunka). Viszonylag gyorsan változó kontextus-tér esetén nem ésszerű. Egyszerűbbnek, vagy legalábbis gyakorlatiasabbnak tűnik ilyenkor vagy egy külső és viszonylag könnyen karbantartható tudásbázis használat, vagy a tudatos prompt szerkesztés - főleg ha nagy kontextusablakok vannak. De melyik a jobb, melyikre érdemes folyamatot alapozni, van-e ilyen rangsor köztük. A rag koncepció talán jobban illik egy ismételhető, karbantartható termelési folyamathoz. Viszont - és ez most csak feltevés lesz részemről, pont ez a dilemma oka - a prompt szerkesztésnél a modelltől elvárt következtetést megalapozó kijelentések (szak)ember általi összeállítása talán pontosabb és így pontosabb választ is eredményez, mint a gépi úton szemantikai hasonlóság alapján összeszedett kontextus.
* = localhost 32 kb-ról 64 kb-ra emelt ablakméret gigabyte-os memóriahasználat növekedéssel járt (qwen coder).
- A hozzászóláshoz be kell jelentkezni
A nagy probléma a prompt szerkesztéssel, hogy csak a modell jelenlegi tudására alapoz. Ha olyan tudásra van szükséged, amit egy általános modell nem ismer akkor valahogy be kell azt emelni a rendszerbe. Ez lehet RAG, finomra hangolt modell vagy egy MI eszköz (pl. kereső).
Szerintem amúgy az esetek többségében nem kell választani. Kombinálod őket inkább. Csinálsz egy MI Ügynököt amiben lesz egy tudástár (RAG) néhány eszköz és több jól megírt prompt.
- A hozzászóláshoz be kell jelentkezni