Miért nem beszélni AI tökéletesen magyart?

Címkék

Sokszor használt frázis, hogy a magyar a világ egyik legnehezebb nyelve. De milyen kihívásokat tartogat egy magyar nyelvi modell, például a PuliGPT fejlesztése?

A legtöbb hangasszisztens, fordító, vagy akár hangfelvételről leiratot készítő AI-szolgáltatás nem tud tökéletes magyarsággal dolgozni - mert sokszor a fejlesztőknek ez egyszerűen nem éri meg. Mi olyan nehéz a magyar nyelvben? Miért fontos, hogy legyen magyar nyelvre specializálódott nagy nyelvi modell, és milyen kihívásokat rejt a megvalósítás? Hazánkban is vannak áttörések, például a PuliGPT, amire sokan hivatkoznak a "magyar GPT-ként".

Ezeket az izgalmas témákat jártuk körbe az adásban Dr. Prószéky Gáborral, a Nyelvtudományi Kutatóközpont főigazgatójával, Széchenyi-díjas magyar programtervező matematikussal, nyelvésszel, aki nem mellesleg az első széles körben használt magyar helyesírás-ellenőrző modult fejlesztő MorphoLogic alapítója is.

Az adásban elhangzott cikkek, videók, tartalmak a Discord csatornánkon érhetők el, ahol még beszélgetni is tudsz velünk, és a többi hallgatóval.

Adásainkat megtaláljátok a SoundCloudon, a Spotify-on, az Apple Podcasten, a Google Podcasten.


Hozzászólások

pedig a Whisper speech2text eleg jol tud/ert magyarul, meg zajos, hadaros, motyogos esetekben is. A chatgpt is eleg jol erti es beszeli a magyart, de a tobbi LLM sjanos nem igazan.

Mert az R&D forrasok 90%+ -ban angol nyelven tortennek, es angol nyelvbe mennek, mert az a legkifizetodobb.

Ugyanaz, hogy miert enekelnek angolul non-native egyuttesek is; egyszeruen amikor vasarlasra kerul a sor, ezt veszik legtobben, ez eri el a legtobb embert, errol cikkeznek legtobbet, es nem utolsosorban ez a legprofitabilisabb.

A folyamat nagyon hasonlo, mint az urbanizacio: a fiatalok perspektivat akarnak, azt a varosban kapjak meg, ha foggal-korommel tiltakozol, ha ontod a milliardokat a faluba, akkor is oda fognak menni, mert ott vannak eselyeik egy jo(bb) eletre. A nyelvtudas pontosan ugyanez: aki jol beszel nyelveket, jobbak a perspektivai, feltarul elotte a karpatokon tuli vilag is.

Ez egy termeszetes folyamat, az emberi viselkedes/gondolkodas folyomanya.

Azon gondolkodok csak, hogy ezek tényleg egy általános természetes emberi dolgok, vagy pedig csak bizonyos, mostanában adott feltételek mellett van így. Ami feltételek mondjuk lehetnek valami értékei a közösségnek. És ha a közösségnek olyan mércéje van, amin veszít egy másikkal szemben, akkor elfognak menni. De nem lehetne olyan mércét csinálni, ami mellett meg maradnának, és a kevésbé számítana, hogy mennyi klikkelés és mennyi cikkezés? És nem lehet, hogy épp ez a gond, hogy nem tudunk olyan mércét kínálni, amin a kárpátokon belüli táj érdemesebb az azon túlinál? Ami talán nem szükségszerű, hogy így legyen.

Ez egy nagyon erdekes kerdes, es itt vetodik fel ismet a konzervativ vs. progressziv vilagnezet temaja.

Nyilvan nem mindenki gondolkozik igy, nem mindenkinek az a perspektiva, hogy CEO lesz, sokat keres es dunaparti loftban lakik (hozzateszem, ezek nekem se).

Nem attol kesz valaki nagy ember, mert ambiciozus, hatalomehes, penzhajhasz. Sajnos pont, hogy sok ilyen emberrol neveznek el koztereket, ezeket allitjak kozeppontba; a csendes tomeg pedig teszi a dolgat, hogy mukodjon a vilag. En a mai napig felnezek az altalanos iskolas technikataromra, aki falurol 'gyutt fel' a varosba, ugyes volt es mindig, de szo szerint minden oran volt egy jo sztorija, amiben jol megszivta es tanult belole.

Ha ugy tetszik, ezek az emberek a tarsadalom/orszag igaslovai.

A fejlesztesek viszont nem itt tortennek, nem is cel ez. Az R&D olyan helyeken megy, ahol ambiciozus es tanult emberek valami nagyot akarnak alkotni. Es igen, nekik a kommunikacio/nyelv eszkoz, nem jatek (ezt a 'jatek'-ot itt teljesen pozitiv ertelemben kell venni, ahogy egy kolto jatszik a szavakkal), igy tipikusan nemigen merul fel, hogy a 'kozos' nyelven kivul barmi mast is kene tamogatni.

Én nagyon szeretem amit a Bing Copilottal lehet csinálni, mert szeretem a Google Tudós oldalt és az érdeklődési köröm vagy bármi amiről szeretnék tájékozódni összefoglaltatom a Copilot-tal és a végletekig tudom részletesen kikérdezni, bármilyen nyelven is legyen megírva.

Amit Dr. Prószéky Gábor mondott a podcastben, azt például én is mondtam már pár embernek, hogy örülnék, ha úgy beszélnék idegen nyelven ahogy a GPT, és csak ennyit tévednék, amit a másik társalgó fél szívélyesen kijavít. 

Abban is biztos vagyok, hogy igaz előfizetéssel és korlátokkal, de előbb utóbb az üzenetküldőkbe beépül az a funkció, ahol az üzenetváltás és hang fordítása igénybevehető lesz. Csak felhívom, és az anyanyelvén hallja, amit mondok.

A készítőknek és Dr. Prószéky Gábornak köszönöm ezt a podcastet.

Szívesen hallgatnék még a mélyen tisztelt és elismert tudósokkal folytatott  társalgást a nagy nyelvi modell témakörben.

Ez bing copilot, hogyan kapcsolódik a Google Tudóshoz? Hogyan használod ezt?

Egyébként ez két irány szerintem, hogy mit vár az ember az AI-tól, annyit mint egy kb tájékozott embertől, vagy pedig mint egy enciklopédiától. Szóval, hogy valami irányzék, vagy pedig megbízható ismeret. Lehet ez a kettő keveredik.

Ez bing copilot, hogyan kapcsolódik a Google Tudóshoz? Hogyan használod ezt?

Ez nagyon egyszerű, a Microsoft Edge böngészőben benne van a Copilot. Amikor böngészek, legyen az html, pdf vagy akármi, és megnyitom a beépített Copilotot, akkor az adott megnyitott oldalról vagy pdfről ki lehet faggatni.