A VLC fejlesztői mesterséges intelligenciával támogatott, valós idejű feliratok megoldáson dolgoznak

Jean-Baptiste Kempf, a VideoLAN (VLC) alapítója és fő fejlesztője a CES2025-ön bemutatta, hogyan képes a VLC offline, helyben futó, nyílt forráskódú AI modellek segítségével videókhoz valós idejű feliratot generálni és azt több nyelvre fordítani. A funkció több mint 100 nyelvet támogat. ☝‍️

Hozzászólások

Szerkesztve: 2025. 01. 13., h – 10:37

RIP feliratok.org, hosszupuska stb.

Még egy állás, amit elvesz lassan az AI ...

trey @ gépház

Nem hiszem.
Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen. Alapokat lefordítják úgy ahogy, de minden esetben utómunkálatok kellenek hozzá, hogy értelmes illetve jó is legyen. 
Ugyan nem offline, hanem online AI alapú feliratoldal : SubtitleCat . A magyar nyelv nem az erőssége, viszont a világnyelvekről angolra nagyon korrektül fordít.

Ne temessük (még) a magyar feliratos oldalakat.

I don't run often, but when I do, I run as administrator.

Azt állítjátok, hogy pl. a következő videónál nem tudjátok bekapcsolni a feliratot? Ráadásul a bekapcsolás után az Opciók > Feliratok > Automatikus fordításra kattintva nem tudjátok kiválasztani a magyar nyelvet? Mert nekem a jó részénél megvan ez a lehetőség (találkoztam már olyannal, ahol ez nem volt meg, de ritkán). Vagy csak lemaradt a smiley a szöveg végéről? :)

https://www.youtube.com/watch?v=aL5a8xalaZw

https://i.imgur.com/tqAhRyn.png

A kürtőskalács egy nagy lyuk, tésztával faszán körbetekerve.

Azt állítjátok, hogy pl. a következő videónál nem tudjátok bekapcsolni a feliratot?

Az altalad linkelt videonal be tudom allitani a nyelvet, en eloszor latok ilyet.

Automatikus fordításra kattintva nem tudjátok kiválasztani a magyar nyelvet?

Ez a resz nekem uj, de ugy mukodik ahogy irtad.

Ajanlott egy linket is a beallitasokhoz: https://www.youtube.com/account_playback

"Már nem csak tehetségekből, de a hülyékből is kifogytunk..."

Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen.

Attól tartok, hogy ez nem feltétlenül lesz akadály, sőt. Nézd meg az átlag magyar hozzászólót/huput/"újságírót"/"tartalomkészítőt", hogy milyen "nem túl fényes" színvonalon használja a magyar nyelvet. És ez még nem fordítás, ez csak a magyar nyelv használata. Ehhez a nyelvi "színvonalhoz" nagyon is megfelelhet a hasonló szintű gagyi fordítás, sőt, talán könnyebben is fogják felismerni és "érteni". És akkor egy újabb szereplő kapcsolódik be az ördögi körbe, aki (/ami...) szintén gyatra szöveget gyárt, amit sokan fognak látni, egy részük helyesnek is tartja, tehát ők is ezt használják és terjesztik, amit megint csak többen fognak látni (az MI pedig ebből is csak azt szűri le, hogy "jó" az, amit csinál stb.) ...

Magyar nyelvre fordítani egyik AI modellnek sem megy túl fényesen.

Nem biza, és soha nem is fog, mert képtelenek megérteni a kontextust, annélkül meg lehetetlen. Pláne a feliratoknál hatványozottan fontos ez, ahol eleve rövidített mondatok szerepelnek csak rengeteg visszautalással, hogy legyen idő elolvasni.

Pont most futottam bele egy ilyen remek AI fordított feliratba. Az eredetiben "uploaded intelligence"-ről van szó, amire csak "UI"-ként utalnak a szerepelők egy idő után, így az angol feliratban is ez szerepel csak. Na, a remek AI képes volt ezt több helyen "felhasználói felületre" lefordítani... mert hát kontextusértése nincs, és nem is lehet az LLM-eknek, hisz csak a szógyakoriság valószínűsége alapján dolgozik.

> kontextusértése nincs

> csak a szógyakoriság valószínűsége alapján dolgozik

latom halvany lila gozod sincs az llm-ek mukodeserol...  amit irsz az a cnn, esetleg a korai rnn modellekre volt igaz csak. az lstm model is kezelt kontextust.

mar az elso llm-ek is 2048 tokenes context-el dolgoztak, a maiak meg mar nagysagrendekkel nagyobbat is tudnak kezelni.

szogyakorisag? ez nem bayesian vazze...

szo* valoszinusegrol van szo, megpedig a context alapjan legvaloszinubb kovetkezo szo valoszinuseget szamolja ki a model.

*: magyar nyelvnel (foleg tobbnyelvu llm eseten) 1 szo altalaban nem 1 hanem tobb token, altalaban szotagok, neha betuk a tokenek, sot az ekezetes betuket neha tobb tokenbol rakja ossze, igy a 2048-as context valoban nem sok magyar szovegre eleg.

Látom, halvány lila gőzöd sincs arról, hogy az empirikus eredmények nagyon nem támasztják alá, amiket mondasz.

amit irsz az a cnn, esetleg a korai rnn modellekre volt igaz csak

A példám egy konkrét AI által fordított feliratból származik, amit alig egy hónapja követtek el. (Hogy melyikkel, azt nem írták, csak annyit, hogy AI-translated.)

az lstm model is kezelt kontextust.

Nem, nem kezel (semmiképp sem "intelligens" értelemben). Nyilvántartani egy beszélgetés során előforduló szavak gyakoriságát != megérteni a kontextust. Előbbi sima statisztika csak, utóbbi elvont, absztrakt gondolkodást igényel(ne).

Amikor azt mondom, hogy "megérteni a kontextust", akkor a klasszikus intelligencia definíciója szerinti, absztrakt fogalmakra való felbontást értem (ha úgy tetszik, platóni ideákra való leképezés). Na erre nem képes LLM, csak utánozni próbálja ezt azáltal, hogy a betanításra használt adathalmazban előforduló gyakoriságok alapján valószínűséget számol.

szo* valoszinusegrol van szo, megpedig a context alapjan legvaloszinubb kovetkezo szo valoszinuseget szamolja ki a model.

Fejtsd ki egy-két mondatban, hogy miben tér ez el attól, hogy "a szógyakoriság valószínűsége alapján dolgozik"!

(Épp a napokban morgolódtam, hogy milyen sz@r a Rezidens sorozat (Netflix) magyar felirata. Az olyan, mintha valaki kontextus figyelembe vétele nélkül gépiesen lefordította volna az összes kifejezést. "I got you bro" -> "Enyém vagy testvér" - ilyesmi színvonalú.)

Az olyan, mintha valaki kontextus figyelembe vétele nélkül gépiesen lefordította volna az összes kifejezést. "I got you bro" -> "Enyém vagy testvér" - ilyesmi színvonalú.

Pontosan erről beszélek. Ami ahhoz kéne, hogy ezt jól fordítsa, az egyszerűen hiányik az LLM algoritmusából, ezért sosem lesz képes rá.

Csak azért, mert a marketingesek "intelligens" jelzőt aggatak rá, még nem lesz absztrakt gondolkodásra képes, valóban intelligens. Növelhetik a kapacitását a végtelenségig, betaníthatják végtelen mennyiségű adaton, akkor sem fogja tudni. Ehhez minőségbeli változás kéne, a mennyiségbeli önmagában nem elég. Magyarán magát az LLM algoritmust kéne lecserélni egy másik, még fel sem fedezett algoritmusra, hogy tudja.

In reality meg egész jól megy neki, pláne ilyen egyszerű esetekben, ahol akkor is visítana róla, hogy szleng a bro miatt (szóval magában hordozza a kontextus) ha nem lenne egy konkrét kifejezés, amit egyébként is jól ismer.

Én tök egyetértek azzal a saját tapasztalataim alapján, hogy nem "gondolkodik", de a beletáplált adatokból és kontextusból igen ijesztően jól tudja imitálni, és nagyon gyakran olyanok jönnek ki belőle, hogy az ember csak vakargatja a fejét, hogy ez hogy jön ki a valószínűségi statisztikából.

Illetve most pont az látszik, hogy elég erős trend van arra, hogy a végtelenségig etetés helyett kb ugyanazt tudják emberibb léptékű modellekkel. 3-7b paraméterekkel bőven jobban működő modellek vannak, mint a chatgpt, mikor berobbant.

Ezek az oldalak fizettek valaha is valakinek azért, mert feliratot készített?

Az összes hivatalos forgalmazó fizet érte.

https://digitalnomadeurope.com/working-as-a-subtitle-translator-for-net…
https://www.rev.com/freelancers/subtitles
https://www.amberscript.com/en/transcriber-subtitler/
https://www.webemployed.com/get-paid-write-captions-subtitles/
https://www.upwork.com/freelance-jobs/subtitling/
https://www.glassdoor.com/Salaries/subtitle-translator-salary-SRCH_KO0,…

A kalóztékából kikölcsönezhető torrentek feliratáért nyilván nem fizet senki, azt lelkes amatőrök készítik, ingyen.

Nem hinném, hogy elvesz, eddig sem volt a feliratozásban olyan nagy biznisz, megélhetés. Meg sose lesz az AI 100%-os, ebben a tekintetben sem, embernek mindig kell ellenőriznie, de el kell ismernem, hogy ez az a műfaj, amire az AI jó, erre kivételesen megéri valóban használni. Ilyen írásfelismerés/OCR, arcfelismerés, feliratozás, zajszűrés, átméretezés (FSR, XLSS, DLSS, stb.).

The world runs on Excel spreadsheets. (Dylan Beattie)

Imadom amikor mondjuk egy filmebnb leforditjak: "Do you like Red Hot Chilli Peppers?" -> "Szereted a forro voros chilli borsot?" :D es ez meg csak a teteje, a jeghegy alja jo melyen van es hatalmas :D

J< ezt emberek forditjak igy. Lehet az AI nem forditana le :D

Es ehhez mekkora binaris blobokat kell letolteni localba?

Jó nagy off, de olyat szeretnék, hogy a google translate elmentett szavakat AI megtanítsa :D Nem tud valaki valami ilyet? 

Odaadod neki a szavakat kontextus fájlként (amit minden kéréshez hozzácsap) és írsz egy role promptot (szintén minden kérdéshez hozzácsap), pl. hogy "you are my English tutor, talking about xxx topic. Use at least one word from yyy file in each questions or answers you generate seamlessly integrated into the topic. Your goal is to teach that word to me how to use it in various contexts. Stay in your role. In case my answers contain errors, give hints"

Ahol az "yyy file" helyettesítendő azzal a hivatkozási/feltöltési módszerrel, amit az adott eszköz/modell támogat. Hasból írtam a promptot, de ha rákeresel, vannak profin előkészített strukturált példák 

Köszi! úgy gondoltam, hogy rendes dumálós, hangos párbeszéd legyen. Szerinted az is megy ilyen egyszerű módon már? Este rákeresek én is jobban. Azt látom, amúgy, hogy az Ankiba vitelben az korlát, hogy csak a jelentést exportálja, tehát nincsen a dictionary rész, bővebb dolgokkal, példa mondatokkal, amit én be szoktam tenni az ankiba. Ez a chat gpt-nél pl nem gond.

Módszer ugyanez, csak válassz beszélgetős interfésszel rendelkezőt. Fizetős ChatGPT, Gemini, stb. Így hirtelen nem tudok olcsóbbat/jobbat. Ha nem akarsz közbevágni, akkor bármelyik modell elé beraksz whisper-t (speach to text) utána pedig egy tts-t akkor olcsóbban kijösz, de kell hozzá némi tákolás vagy keresés (sokan foglalkoznak hasonlóval, tuti van már valami wrapper gui)

Szerkesztve: 2025. 01. 13., h – 15:35

Sajna ez a valosag, a forditasban 70%-os pontossagig real-time el fogunk jutni 3-4 ev mulva. Igy igaz az, aki azt mondja, a tolmacsoknak, a nyelvtanaroknak es a hosszupuskanak meg vannak a napjai szamlalva! Lehet itt kotozkodni, de ez a valosag. Persze nem Goethe muveket fog forditani tokeletesen a cucc, de a tarsalgasi nyelvet tudni fogja. 3 ev mulva jonnek a kutyuk a fuledbe, amik online forditanak!

A 70% pontosság az elég gyatra. Az AI a tolmácspiacot is biztosan át fogja rendezni, de ha 30% esély van arra, hogy baromságot mond, akkor még azt sem bíznám rá, hogy kérjen útbaigazítást a helyi kocsmáig, nemhogy mondjuk rábíznék egy üzleti tárgyalást. :)

Igen, ahol szamit a pontossag illetve a kifejezokeszseg (tolmacsolas, irodalom, muforditas, stb) ott az AI nem fog labdaba rugni meg sokaig lehet (aztan kerdes mennyi az a sok). De a napi kommunikacioban az a -30% nem sok. Az egy atlagos londoni bevandrolo angolja vagy egy magyar mayarja az utcan. :D

Illetve itt is igaz, hogy mi a megterules. A peldadban egy kocsmahoz kersz eligazitast. Lehet masikba kuld, de a megterules az rendben van :D (tolmacsolasban mar nem lenne okes, hogy a "ne nyomd meg a gombot" helyett "ne, nyomd meg a gombot" lenne :D

az emberi tolmacs is mondhat baromsagot. az ember is elkuldhet a buzibarba a kocsma helyett. annyi csak a kulonbseg, hogy az embert meg tudod verni erte :)

uzleti targyalasnal meg ritkan szoktak tolmacsozni, mindig van egy kozos nyelv (pl angol), amit mindket fel beszel... a lenyeg meg ugyis irasba kerul es majd egy sereg ugyved atnezi.

3 ev mulva jonnek a kutyuk a fuledbe, amik online forditanak!

3 év? Nézd meg a Prohardveres Bog szencseni videóját, kínai csajjal tudnak angolul beszélni úgy, hogy mindkettejük fülében van fordító. (Timekettle a márka)

Odatekertem

https://youtu.be/90D9QwRAgN8?si=4xHRZ8dNXy5blCtH&t=981

Jelenetben háttérben hallható beszéd, egymással egyszerre beszélő szereplők - kíváncsi vagyok hogyan oldja meg.  

Reméljük, jobban, mint a youtube, ott már elérhető az automatikusan felismert beszéd és vagy fordítás, azért még vannak hibái/félreértései. A semminél azért sokkal jobb, ha szükséged van rá.

A kürtőskalács egy nagy lyuk, tésztával faszán körbetekerve.

Én nagyon szeretem a VLC-t, s nem is ezalapján ítélnék.. de az a stand olyan, hogy a debreceni HajdúComp-on 20+ éve komolyabbakat építettek. Ha valami jópofa gegnek szánták akkor is gyenge, hiányzik a zsibis karácsonyfaizzó-sor és a kézzel / alkoholos filccel rajzolt kartontábla.

Ekkora tech rendezvényre biztosan nem mentem volna így.

Csak mellékesen írom, mert nekem nagyon megcsípte a szemem :)

Vortex Rikers NC114-85EKLS

Szerkesztve: 2025. 01. 14., k – 07:51

Mikor kezd majd szinkronizálni? Alig várom, hogy a színész eredeti hangját használja a magyar szinkronban. :D nem lesz több szinkronhang csere pl. Ami fura szokott lenni.

Színész?

Az nem fog kelleni, generálva lesz, mint ahogy minden a filmen.

De nézők se lesznek, azokat is majd generálja egy AI, mert a hús-vér nézőknek nem lesz munkájuk és ki/éhen halnak.

Utána a filmkészítők fognak a filmjeikkel együtt eltűnni és a kör bezárul.

Erre mondja majd Butuska Pistike, hogy bezzeg az ipari forradalomkor is hasonlóval riogatták a népet..

Arra lennék kíváncsi, mit kezd a tegezéssel/magázással?

A forditas reszeben sem hiszek egyelore igazan, de amit igazan nagy gondnak latok az a szoveg felismerese.
No nem mondom hogy szeleskoru tapasztalatom van benne, csak a youtube beszed felismereset tudom felhozni meg a Microsoft teamsben levo transcription-t.
Mindketto borzasztoan gyatra.

Reméljük, majd a GPU-t is megveszik hozzá, amin elfut a senki által nem kért, csiligány AI megoldásuk.

Lehetne végre valamirevaló Youtube, Soundcloud, egyéb streaming kliens, amivel lehet keresni is, és helyettesít PC-n egy NewPipe-ot.