A VLC fejlesztői mesterséges intelligenciával támogatott, valós idejű feliratok megoldáson dolgoznak

Jean-Baptiste Kempf, a VideoLAN (VLC) alapítója és fő fejlesztője a CES2025-ön bemutatta, hogyan képes a VLC offline, helyben futó, nyílt forráskódú AI modellek segítségével videókhoz valós idejű feliratot generálni és azt több nyelvre fordítani. A funkció több mint 100 nyelvet támogat. ☝‍️

Hozzászólások

Szerkesztve: 2025. 01. 13., h – 10:37

RIP feliratok.org, hosszupuska stb.

Még egy állás, amit elvesz lassan az AI ...

trey @ gépház

Nem hiszem.
Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen. Alapokat lefordítják úgy ahogy, de minden esetben utómunkálatok kellenek hozzá, hogy értelmes illetve jó is legyen. 
Ugyan nem offline, hanem online AI alapú feliratoldal : SubtitleCat . A magyar nyelv nem az erőssége, viszont a világnyelvekről angolra nagyon korrektül fordít.

Ne temessük (még) a magyar feliratos oldalakat.

I don't run often, but when I do, I run as administrator.

Azt állítjátok, hogy pl. a következő videónál nem tudjátok bekapcsolni a feliratot? Ráadásul a bekapcsolás után az Opciók > Feliratok > Automatikus fordításra kattintva nem tudjátok kiválasztani a magyar nyelvet? Mert nekem a jó részénél megvan ez a lehetőség (találkoztam már olyannal, ahol ez nem volt meg, de ritkán). Vagy csak lemaradt a smiley a szöveg végéről? :)

https://www.youtube.com/watch?v=aL5a8xalaZw

https://i.imgur.com/tqAhRyn.png

A kürtőskalács egy nagy lyuk, tésztával faszán körbetekerve.

Azt állítjátok, hogy pl. a következő videónál nem tudjátok bekapcsolni a feliratot?

Az altalad linkelt videonal be tudom allitani a nyelvet, en eloszor latok ilyet.

Automatikus fordításra kattintva nem tudjátok kiválasztani a magyar nyelvet?

Ez a resz nekem uj, de ugy mukodik ahogy irtad.

Ajanlott egy linket is a beallitasokhoz: https://www.youtube.com/account_playback

"Már nem csak tehetségekből, de a hülyékből is kifogytunk..."

Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen.

Attól tartok, hogy ez nem feltétlenül lesz akadály, sőt. Nézd meg az átlag magyar hozzászólót/huput/"újságírót"/"tartalomkészítőt", hogy milyen "nem túl fényes" színvonalon használja a magyar nyelvet. És ez még nem fordítás, ez csak a magyar nyelv használata. Ehhez a nyelvi "színvonalhoz" nagyon is megfelelhet a hasonló szintű gagyi fordítás, sőt, talán könnyebben is fogják felismerni és "érteni". És akkor egy újabb szereplő kapcsolódik be az ördögi körbe, aki (/ami...) szintén gyatra szöveget gyárt, amit sokan fognak látni, egy részük helyesnek is tartja, tehát ők is ezt használják és terjesztik, amit megint csak többen fognak látni (az MI pedig ebből is csak azt szűri le, hogy "jó" az, amit csinál stb.) ...

AI-ra cserélték a SwiftKey elnevezését, tehát az MS becsatolta a billentyűzet applikációba az MI "magyarul tudását" is. - Azóta észrevehetően jobban ajánlja fel a "gépelés" közben a használni tervezett kifejezést. - Bonyolult mondatszerkezetek esetén is, a ragozásokra is jobban tippel már, mint régen. (És én rendszerint tudok olyanokat, ezért meg tudom ítélni... :) )

Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen.

Nem biza, és soha nem is fog, mert képtelenek megérteni a kontextust, annélkül meg lehetetlen. Pláne a feliratoknál hatványozottan fontos ez, ahol eleve rövidített mondatok szerepelnek csak rengeteg visszautalással, hogy legyen idő elolvasni.

Pont most futottam bele egy ilyen remek AI fordított feliratba. Az eredetiben "uploaded intelligence"-ről van szó, amire csak "UI"-ként utalnak a szerepelők egy idő után, így az angol feliratban is ez szerepel csak. Na, a remek AI képes volt ezt több helyen "felhasználói felületre" lefordítani... mert hát kontextusértése nincs, és nem is lehet az LLM-eknek, hisz csak a szógyakoriság valószínűsége alapján dolgozik.

> kontextusértése nincs

> csak a szógyakoriság valószínűsége alapján dolgozik

latom halvany lila gozod sincs az llm-ek mukodeserol...  amit irsz az a cnn, esetleg a korai rnn modellekre volt igaz csak. az lstm model is kezelt kontextust.

mar az elso llm-ek is 2048 tokenes context-el dolgoztak, a maiak meg mar nagysagrendekkel nagyobbat is tudnak kezelni.

szogyakorisag? ez nem bayesian vazze...

szo* valoszinusegrol van szo, megpedig a context alapjan legvaloszinubb kovetkezo szo valoszinuseget szamolja ki a model.

*: magyar nyelvnel (foleg tobbnyelvu llm eseten) 1 szo altalaban nem 1 hanem tobb token, altalaban szotagok, neha betuk a tokenek, sot az ekezetes betuket neha tobb tokenbol rakja ossze, igy a 2048-as context valoban nem sok magyar szovegre eleg.

Látom, halvány lila gőzöd sincs arról, hogy az empirikus eredmények nagyon nem támasztják alá, amiket mondasz.

amit irsz az a cnn, esetleg a korai rnn modellekre volt igaz csak

A példám egy konkrét AI által fordított feliratból származik, amit alig egy hónapja követtek el. (Hogy melyikkel, azt nem írták, csak annyit, hogy AI-translated.)

az lstm model is kezelt kontextust.

Nem, nem kezel (semmiképp sem "intelligens" értelemben). Nyilvántartani egy beszélgetés során előforduló szavak gyakoriságát != megérteni a kontextust. Előbbi sima statisztika csak, utóbbi elvont, absztrakt gondolkodást igényel(ne).

Amikor azt mondom, hogy "megérteni a kontextust", akkor a klasszikus intelligencia definíciója szerinti, absztrakt fogalmakra való felbontást értem (ha úgy tetszik, platóni ideákra való leképezés). Na erre nem képes LLM, csak utánozni próbálja ezt azáltal, hogy a betanításra használt adathalmazban előforduló gyakoriságok alapján valószínűséget számol.

szo* valoszinusegrol van szo, megpedig a context alapjan legvaloszinubb kovetkezo szo valoszinuseget szamolja ki a model.

Fejtsd ki egy-két mondatban, hogy miben tér ez el attól, hogy "a szógyakoriság valószínűsége alapján dolgozik"!

(Épp a napokban morgolódtam, hogy milyen sz@r a Rezidens sorozat (Netflix) magyar felirata. Az olyan, mintha valaki kontextus figyelembe vétele nélkül gépiesen lefordította volna az összes kifejezést. "I got you bro" -> "Enyém vagy testvér" - ilyesmi színvonalú.)

Az olyan, mintha valaki kontextus figyelembe vétele nélkül gépiesen lefordította volna az összes kifejezést. "I got you bro" -> "Enyém vagy testvér" - ilyesmi színvonalú.

Pontosan erről beszélek. Ami ahhoz kéne, hogy ezt jól fordítsa, az egyszerűen hiányik az LLM algoritmusából, ezért sosem lesz képes rá.

Csak azért, mert a marketingesek "intelligens" jelzőt aggatak rá, még nem lesz absztrakt gondolkodásra képes, valóban intelligens. Növelhetik a kapacitását a végtelenségig, betaníthatják végtelen mennyiségű adaton, akkor sem fogja tudni. Ehhez minőségbeli változás kéne, a mennyiségbeli önmagában nem elég. Magyarán magát az LLM algoritmust kéne lecserélni egy másik, még fel sem fedezett algoritmusra, hogy tudja.

In reality meg egész jól megy neki, pláne ilyen egyszerű esetekben, ahol akkor is visítana róla, hogy szleng a bro miatt (szóval magában hordozza a kontextus) ha nem lenne egy konkrét kifejezés, amit egyébként is jól ismer.

Én tök egyetértek azzal a saját tapasztalataim alapján, hogy nem "gondolkodik", de a beletáplált adatokból és kontextusból igen ijesztően jól tudja imitálni, és nagyon gyakran olyanok jönnek ki belőle, hogy az ember csak vakargatja a fejét, hogy ez hogy jön ki a valószínűségi statisztikából.

Illetve most pont az látszik, hogy elég erős trend van arra, hogy a végtelenségig etetés helyett kb ugyanazt tudják emberibb léptékű modellekkel. 3-7b paraméterekkel bőven jobban működő modellek vannak, mint a chatgpt, mikor berobbant.

Ezek az oldalak fizettek valaha is valakinek azért, mert feliratot készített?

Az összes hivatalos forgalmazó fizet érte.

https://digitalnomadeurope.com/working-as-a-subtitle-translator-for-net…
https://www.rev.com/freelancers/subtitles
https://www.amberscript.com/en/transcriber-subtitler/
https://www.webemployed.com/get-paid-write-captions-subtitles/
https://www.upwork.com/freelance-jobs/subtitling/
https://www.glassdoor.com/Salaries/subtitle-translator-salary-SRCH_KO0,…

A kalóztékából kikölcsönezhető torrentek feliratáért nyilván nem fizet senki, azt lelkes amatőrök készítik, ingyen.

Nem hinném, hogy elvesz, eddig sem volt a feliratozásban olyan nagy biznisz, megélhetés. Meg sose lesz az AI 100%-os, ebben a tekintetben sem, embernek mindig kell ellenőriznie, de el kell ismernem, hogy ez az a műfaj, amire az AI jó, erre kivételesen megéri valóban használni. Ilyen írásfelismerés/OCR, arcfelismerés, feliratozás, zajszűrés, átméretezés (FSR, XLSS, DLSS, stb.).

The world runs on Excel spreadsheets. (Dylan Beattie)

Imadom amikor mondjuk egy filmebnb leforditjak: "Do you like Red Hot Chilli Peppers?" -> "Szereted a forro voros chilli borsot?" :D es ez meg csak a teteje, a jeghegy alja jo melyen van es hatalmas :D

J< ezt emberek forditjak igy. Lehet az AI nem forditana le :D

Pedig elvileg a port-ot tényleg lehet a magyar hivatalos IT nyelvben kapu-nak fordítani, nem is mondanám se hibásnak, se Hunglish-nak, de tény, hogy gázul, ósdian hangzik. Felesleges erőlködés mindent ilyen szinten lefordítani. Annak ellenére, hogy van, amikor meghonosodott, pl. nyomtató, és nem printer lett, de pl. a honlap, klaviatúra, tükör, terjesztés magyarítás se terjedt el, meg volt még sok ilyen hasonló próbálkozás. Anno a hajlékony lemez elnevezést is nagyon erőltették a könyvek, dokumentációk, pedig sose hívták annak az emberek, mindenki csak „flopi”-ként aposztrofálta, ami pontosabb is, mert a 3,5 colos floppy egyébként sem volt hajlítható az 5,25-8 colossal ellentétben. A modern generáció a floppy-t már csak 3D nyomtatott mentésikonnak nézi. Bár ez a külföldi gyakorlatban is így van, angol nyelvű meg amerikai oldalakon rendszeresen olvasom, hogy az SSD-t is elkezdték újabban hard drive-nak hívni, míg amit régen hívtunk annak, azt meg spinning rust-nak, vagy mechanical hard drive-nak.

Ami engem meglep, az a pendrive, más nyelveken nincs ilyen, angolul flash drive, thumb drive, esetleg még ritkábban USB drive, és úgy magyarosították, hogy ál-átangolosították. Pedig pentesting is van, ami a magyar fogalmak szerint pendrive-ról fut általában, de még se nevezik magát a drive-ot pen-nek. Még olyan ötlet is volt anno, hogy hívjuk tollhajtánynak.

The world runs on Excel spreadsheets. (Dylan Beattie)

" ...  mert a 3,5 colos floppy egyébként sem volt hajlítható az 5,25-8 colossal ellentétben."

Dehogynem. A Hard Drive sem azért hard, mert magát a vinyót* nem hajlítod meg kézzel, hanem mert belül a korongok kemények benne. A 3.5 -ös floppiban a korong mágnesrétege ugyanolyan hajlékony műanyagon van, mint az 5.25 -ös lemez korongja, csak a háza van vastagabb műanyagból a 3.5 -ös floppinak.

* fun fact: a vinyó / vincsi / winchester megnevezés hungarikum, csak nálunk terjedt el.

de pl. a honlap,

Az szerintem elterjedt, az én környezetemben teljesen egyenértékű, és gyakran használt szinonimája a weboldalnak (volt egyszer egy ottlap próbálkozás, az halt el)

klaviatúra

Az meg azért nem (annyira, én hébe-hóba hallom) terjedt el, mert billentyűzetet mondunk helyette

Pedig pentesting is van, ami a magyar fogalmak szerint pendrive-ról fut általában,

Jajj :D Azért, mert a pen drive az a tollra hajaz, a pen testing meg penetration testing, nincs közük egymáshoz. :)

Es ehhez mekkora binaris blobokat kell letolteni localba?

Jó nagy off, de olyat szeretnék, hogy a google translate elmentett szavakat AI megtanítsa :D Nem tud valaki valami ilyet? 

Odaadod neki a szavakat kontextus fájlként (amit minden kéréshez hozzácsap) és írsz egy role promptot (szintén minden kérdéshez hozzácsap), pl. hogy "you are my English tutor, talking about xxx topic. Use at least one word from yyy file in each questions or answers you generate seamlessly integrated into the topic. Your goal is to teach that word to me how to use it in various contexts. Stay in your role. In case my answers contain errors, give hints"

Ahol az "yyy file" helyettesítendő azzal a hivatkozási/feltöltési módszerrel, amit az adott eszköz/modell támogat. Hasból írtam a promptot, de ha rákeresel, vannak profin előkészített strukturált példák 

Köszi! úgy gondoltam, hogy rendes dumálós, hangos párbeszéd legyen. Szerinted az is megy ilyen egyszerű módon már? Este rákeresek én is jobban. Azt látom, amúgy, hogy az Ankiba vitelben az korlát, hogy csak a jelentést exportálja, tehát nincsen a dictionary rész, bővebb dolgokkal, példa mondatokkal, amit én be szoktam tenni az ankiba. Ez a chat gpt-nél pl nem gond.

Módszer ugyanez, csak válassz beszélgetős interfésszel rendelkezőt. Fizetős ChatGPT, Gemini, stb. Így hirtelen nem tudok olcsóbbat/jobbat. Ha nem akarsz közbevágni, akkor bármelyik modell elé beraksz whisper-t (speach to text) utána pedig egy tts-t akkor olcsóbban kijösz, de kell hozzá némi tákolás vagy keresés (sokan foglalkoznak hasonlóval, tuti van már valami wrapper gui)

A 16 éves fiam beletette a GTA5 Fivem-be, hogy lehessen beszélgetni az npc-kkel, az pont így megy. Context leíróban van az npc szerepköre, feladata és hogy véletlenül se lépjen ki a szerepéből. Élő szóban szólsz hozzá (közelség triggereli), ezt Whisper megeszi, annak a szöveges kimenetetét ChatGPT api-ra a context-tel együtt beküldi, onnan ami visszajön, tts felolvassa. Nagyjából folyamatos beszélgetésre egész jó, csak néha gondolkodik pár másodpercet és nem lehet közbevágni. 

Szerkesztve: 2025. 01. 13., h – 15:35

Sajna ez a valosag, a forditasban 70%-os pontossagig real-time el fogunk jutni 3-4 ev mulva. Igy igaz az, aki azt mondja, a tolmacsoknak, a nyelvtanaroknak es a hosszupuskanak meg vannak a napjai szamlalva! Lehet itt kotozkodni, de ez a valosag. Persze nem Goethe muveket fog forditani tokeletesen a cucc, de a tarsalgasi nyelvet tudni fogja. 3 ev mulva jonnek a kutyuk a fuledbe, amik online forditanak!

A 70% pontosság az elég gyatra. Az AI a tolmácspiacot is biztosan át fogja rendezni, de ha 30% esély van arra, hogy baromságot mond, akkor még azt sem bíznám rá, hogy kérjen útbaigazítást a helyi kocsmáig, nemhogy mondjuk rábíznék egy üzleti tárgyalást. :)

Igen, ahol szamit a pontossag illetve a kifejezokeszseg (tolmacsolas, irodalom, muforditas, stb) ott az AI nem fog labdaba rugni meg sokaig lehet (aztan kerdes mennyi az a sok). De a napi kommunikacioban az a -30% nem sok. Az egy atlagos londoni bevandrolo angolja vagy egy magyar mayarja az utcan. :D

Illetve itt is igaz, hogy mi a megterules. A peldadban egy kocsmahoz kersz eligazitast. Lehet masikba kuld, de a megterules az rendben van :D (tolmacsolasban mar nem lenne okes, hogy a "ne nyomd meg a gombot" helyett "ne, nyomd meg a gombot" lenne :D

az emberi tolmacs is mondhat baromsagot. az ember is elkuldhet a buzibarba a kocsma helyett. annyi csak a kulonbseg, hogy az embert meg tudod verni erte :)

uzleti targyalasnal meg ritkan szoktak tolmacsozni, mindig van egy kozos nyelv (pl angol), amit mindket fel beszel... a lenyeg meg ugyis irasba kerul es majd egy sereg ugyved atnezi.

3 ev mulva jonnek a kutyuk a fuledbe, amik online forditanak!

3 év? Nézd meg a Prohardveres Bog szencseni videóját, kínai csajjal tudnak angolul beszélni úgy, hogy mindkettejük fülében van fordító. (Timekettle a márka)

Odatekertem

https://youtu.be/90D9QwRAgN8?si=4xHRZ8dNXy5blCtH&t=981

Meg1x mondom, 3 ev mulva jonnek a kutyuk, amik mar oda-vissza forditanak...amit e videoban latsz, egy sima "google translate" jellegu app, ami egyik nyelvrol fordit (ki tudja mennyi kesessel) es felolvassa a mondato(ka)t a kinai lanynak. Ez meg nem elegendo.

A jovo az, hogy real-time forditas van, olvasd el az elso bejegyzesemet, nem pedig 3-5 mp-t kell varni a mondatokra, illetve automatikusan erzekeli a rendszer a valaszokat - azaz dialogus vagy trialogus van, el tudja donteni, ki beszel -  azaz sokkal intelligensebb, mint ami ma van.

mondjuk a VLC megteheti hogy read-ahead modon a hangot 5-10 seccel elobb tolja be az AI-ba, mint ahogy megszolal, amugy is van jopar masodpernyi buffereles benne

a valosidejut gondolom ugy ertik, hogy nem kell a film inditasa elott varnod 1 orat amig feldolgozza, hanem elinditod es megy.

ebbe a szálba nem a vlc-ről van szó, hanem a fulbedughatós fordító kütyüről, amivel a csávó kínában "real-time" beszélt valakivel. De ilyen még pont, hogy nincs, szinkron tolmács se igy csinalja, mert be kell fejezni az egész mondatot, hogy tud miről van szó.

Itt a problema nem az, hogy meg kell varnia mondat veget (egyebkent ez sem mindegyik nyelvnel igaz), hanem az, ha a mondat vege mar megvan, onnan is 3-5 mp kell a jelenlegi forditoknak mire elkezdik , ugyanis kell netes forgalmi ido, keresesi ido stb. Ez fog javulni drasztikusan par ev mulva.

Illetve egy dialogusnal a mai rendszerek meg benak, nem nagyon tudjak kitalalni, epp ki beszel.

Jelenetben háttérben hallható beszéd, egymással egyszerre beszélő szereplők - kíváncsi vagyok hogyan oldja meg.  

Reméljük, jobban, mint a youtube, ott már elérhető az automatikusan felismert beszéd és vagy fordítás, azért még vannak hibái/félreértései. A semminél azért sokkal jobb, ha szükséged van rá.

A kürtőskalács egy nagy lyuk, tésztával faszán körbetekerve.

Én nagyon szeretem a VLC-t, s nem is ezalapján ítélnék.. de az a stand olyan, hogy a debreceni HajdúComp-on 20+ éve komolyabbakat építettek. Ha valami jópofa gegnek szánták akkor is gyenge, hiányzik a zsibis karácsonyfaizzó-sor és a kézzel / alkoholos filccel rajzolt kartontábla.

Ekkora tech rendezvényre biztosan nem mentem volna így.

Csak mellékesen írom, mert nekem nagyon megcsípte a szemem :)

Vortex Rikers NC114-85EKLS

Szerkesztve: 2025. 01. 14., k – 07:51

Mikor kezd majd szinkronizálni? Alig várom, hogy a színész eredeti hangját használja a magyar szinkronban. :D nem lesz több szinkronhang csere pl. Ami fura szokott lenni.

Színész?

Az nem fog kelleni, generálva lesz, mint ahogy minden a filmen.

De nézők se lesznek, azokat is majd generálja egy AI, mert a hús-vér nézőknek nem lesz munkájuk és ki/éhen halnak.

Utána a filmkészítők fognak a filmjeikkel együtt eltűnni és a kör bezárul.

Erre mondja majd Butuska Pistike, hogy bezzeg az ipari forradalomkor is hasonlóval riogatták a népet..

Arra lennék kíváncsi, mit kezd a tegezéssel/magázással?

A forditas reszeben sem hiszek egyelore igazan, de amit igazan nagy gondnak latok az a szoveg felismerese.
No nem mondom hogy szeleskoru tapasztalatom van benne, csak a youtube beszed felismereset tudom felhozni meg a Microsoft teamsben levo transcription-t.
Mindketto borzasztoan gyatra.

Reméljük, majd a GPU-t is megveszik hozzá, amin elfut a senki által nem kért, csiligány AI megoldásuk.

Lehetne végre valamirevaló Youtube, Soundcloud, egyéb streaming kliens, amivel lehet keresni is, és helyettesít PC-n egy NewPipe-ot.

Nem értem, hogy mit jelent a "valós idejű" a címben. Ha offline fut, localban, miközben egy videófájlt játszik le, akkor abba belenéz előre, elemzi, megjelníti a megfelelő tartalmat.

Mármint szuper meg minden, de szerintem a valós idejű az nem a megfelelő kifejezés ide.

A durva az, hogy ha az AI tudja, hogy ki nézi, akkor az alany profiljának megfelelő szókincset használ, vagy akár bizonyos kor alatt automatikus finomít a káromkodásokon.

Szerkesztve: 2025. 01. 19., v – 19:35

Egy idősebb rokon mesélt egy youtube videóról és szóvá tette, hogy mennyire rossz volt a felirat, nem is érti, hogy ki csinálhatott ilyet, annyira magyartalan volt. Tőlem tudta meg, hogy minden bizonnyal program generálta felirat lehetett :-)