Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni Linux alatt, szerver oldalon. Tudtok ehhez javasolni valamilyen megoldást (szoftver/API/függvénykönyvár)?
Van a Mycroft project, az Siri-Alexa-Cortana alternatívát csinál, ők is használnak valamit, sőt, volt róla több cikk is, hogy miről mire váltottak épp, nézz körül náluk.
Ha nem válaszolnék kommentben, hát küldj privátot!
Mycroftot mi is nézegettük, nagyjából wake world-re jó magyar nyelven másra nem. Feltételezem magyar nyelvű szövegből kellene leirat. Egy beszédfelismerő mesterséges neurális háló betanítására úgy 50 ezer feletti tanítóminta kell. Ilyen sajnos magyar nyelven bárki által elérhető módon nem áll rendelkezésre. Az adatvédelmi blama miatt ma már gyűjteni sem egyszerű. Szóval a saját megoldás itt problémás. Mozilla Common Voice. amit a Mycroft használ. Ahhoz szintén kellene tanító minta, ugyanúgy mint saját neurális hálóhoz. Szóval semmivel nem leszel előrébb.
A másik megoldás, amit már ajánlok, felhős szolgáltatások használata. Azure Cognitive Services másfél éve az angollal is hadilábon állt. Konkrétan akcentussal beszélt angol szöveget nagy hibaaránnyal ismert fel. A Google felhős szolgáltatása viszont elég jó. Magyar nyelvre jelenleg az egyetlen használható felhős szolgáltatás. Perc alapon kell fizetni érte, pár óra nem túl drága, de ha folyamaton működő szoftverről lenne szó, annak már húzós ára van. Linux helyett érdemes elgondolkoznod Android programon, mert ebben az esetben szerintem még ma is ingyenes a Google Cloud AI. Biztosra nem merem írni, mert a Google fél évente mindet átalakít, de jók az esélyek arra, hogy maradt ingyenes Androidon.
Speech recognition supports the same locales that are supported by the keyboard's dictation feature. For a list of these locales, see QuickType Keyboard: Dictation.
Nem. Nem próbáltam még. Ha van valami példakódod, szívesen ránézek. A magyar diktlációt diktációt használtam, és az egész jó. Nagyon jól megérti amit mondok, és szinte alig kell benne javítani. Ebben a szövegben csak egyszer kellett, pedig az egész a diktálóet diktálom. Oké kétszer. Meg ugye az írásjelek.
Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak. Nincs ilyen szoftver, semmilyen platformon, ami szépen automatán elfogadható minőségben leiratot készít, egyedi kiejtésminták, beszédhibák, háttérzajok, zene, stb. mindenképp zavarni fogja a felismerést. Ha ez így lenne, hogy csak fel kéne rakni egy csodaszoftvert, a gépírók fele már éhen döglött volna, hiszen a gépelni való min. felét hanganyagról gépelik megrendelésre. Az sem véletlen, hogy filmekhez, sorozatokhoz is emberek csinálják még a feliratot, és nincs automatizálva! Kb. ugyanaz a helyzet, mint az OCR szoftverekkel, bár azok már előrébb járnak technológiailag, mint a beszédfelismerés, de a rendes gépi leírókat nem tudta kiszorítani, mert egy csomó karaktert, szót hibásan ismer fel, táblázatot, illusztrációt, stb. hagy ki.
Az ne tévesszen meg senkit, hogy tele van minden Sirivel, Cortanával, stb., azok csak kulcsszavakat meg kulcskifejezéseket hallanak ki, azt sem mindig, nem szóról szóra történő átírásra vannak, az nem megy azoknak sem.
“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)
Sehol se volt kikötés. Nem tudom miért hozol be új dolgokat a scope-ba.
Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak.
Honnan tudod ilyen nagyon (kipróbálás nélkül?!) hogy biztosan nem lesz jó? Nem tudjuk mi lesz a use-case. Igen, 100% korrekt leiratot nem fog tudni csinálni, ahhoz mindenképp át kell rajta menni egyszer kézzel is. Elképzelhető, hogy OP ezzel tisztában van, és a folyamatok tervezésekor ezt is figyelembe vette.
Az is elképzelhető, hogy nem kell neki pontos leirat, csak kulcsszavakra akar keresni a későbbiekben. Lehet, hogy van baromi sok céges training/meeting anyagjuk felvéve és kézi rendezés helyett automatizálni szeretnék a kulcsszavas keresést. Nem tudjuk.
Ti itt ebben a szálban nem igazán vagytok túl nagy segítség. OP nem azt kérdezte, hogy hogynem lehet, hanem azt, hogy hogy lehet megoldani a problémáját.
Ahelyett, hogy a konkrét feladat ismerete nélkül, negatív attitűddel, minden erőtökkel megpróbálnátok eltántorítani a feladat megoldásától, esetleg lehetnétek kicsit konstruktívabbak is.
Ja, ha nem elfogatható minőségben is elég, akkor lehet bármivel próbálkozni, de csak időpocsékolás lesz, előre megmondom. Annak semmi értelme, hogy csak a felét, negyedéd, meg kulcsszavakat ismer fel. Kb. annyit fog érni, mert egy rossz OCR. Én ilyenre nem pocsékolnám az időmet, begépelném inkább a hallottakat, ami valóban meló, de ha erre van szükség, akkor ez az egyetlen valóban használható alternatíva.
“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)
Kellett egy kis idő, mire eljutottunk onnan, hogy "szerintemmagyarul kizárt, hogy erre bármilyen platformon megoldást találj" oda, hogy hát igazából meg lehet csinálni, csak te nemhiszed, hogy ezzel érdemes lenne szórakozni. Anélkül, hogy tudnád, mi is a pontos feladat.
It’s basically what you’re thinking: as the likes of newsreaders and presenters talk on TV, one of the designated 200 English-speaking subtitlers from across the globe will sit in front of a microphone repeating whatever’s said on air.
Doing this means a clear voice, free of any background noise, can be processed by specialised audio recognition software that generates captions on the screen. It’s a hybrid system – one that relies on a computer and subtitler.
Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni...
Olyan jó, hogy csípőből megmondod, hogy amit OP szeretne, az szar, de te tudsz egy sokkal jobb, manuális módszert! Anélkül, hogy tudnád, hogy mi is a feladat, amit meg kell oldani.
Szólj már légyszi a BBC-nek is, hogy értelmetlen dolgokat csinálnak, feleslegesen pazarolják az idejüket...!
These have good quality subtitles and this opened up the possibility of recovering subtitles in an automated process without the need for human oversight. Over the coming months, a series of python scripts were written to interface with a number of different internal and external web resources across the BBC. These scripts locate the source programmes and use audio fingerprinting to locate the clip and check for edits. A speech to text stage was then added to enable a text search for the original programme subtitles. The speech to text was also needed to retime the subtitles to match the clips and verify the result.
tudtommal magyarul es jo minosegben csak 2 cegnek van erre megoldasa, egyik a Nuance (dragon dictation neven is ismert), ezt vette meg az Apple, es a Google-nek is van a sajatja. Utobbihoz valahol lattam mar API-t is.
a microsoft regen csinalt beszedfelismerot, ahhoz is volt API, de az csak windozon ment, es szerintem nem (nagyon) tudott magyarul (se).
A Google-ről: az API használatával (amúgy PITA, mindenféle random megkötések vannak, hogy szinkron milyen hosszú és mekkora fájlt hajlandó feldolgozni, a méret korlát miatt a hanganyag fel kell, hogy menjen a cloud storage-ba, az aszinkron meg pita, ha csak egy-egy fájlt át akarsz íratni) kapsz egy pontosság százalékot, azt nagyon érdemes nézni, mert a használhatótól "a Coelho-generátor jobb lett volna"-ig mindent is képes kinyögni magából, többé-kevésbe a forrásanyagtól függetlenül.
(Angolul sokkal jobban működik, a magyar... hát, lektorálni kell :) )
BlackY
"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)
Google készít leiratot magyarul, de meglehetősen gyenge minőségűt, tulajdonképpen egyszerűbb legépelni, mint javítgatni.
Microsoft (Azure) hozta a szokásos formáját. Ingyenes próba, de azért csak fizess, különben nem működik. Miután fizettél, közli, hogy "ja, bocs, magyarul mégsem megy".
Vocapia nem foglalkozik párezer órás ügyfelekkel, de az ő rendszerüket használja a yobiyoba.com, náluk melegpően jó az eredmény, de azért minimális javítást igényel.
Én 2024-ben újra átnéztem a lehetőségeket, főleg levelek diktálására kerestem eszközt. Sajnos az itt felsoroltak pontosságával (központozás, nagybetűk, szerzői nevek stb.) nem voltam megelégedve. Aztán rábukkantam az online használható AIrite-ra, ami nagyon jól vizsgázott! Havi 30 perc ingyenes keret is jár hozzá. A fórum kérdés a hangfájlokra vonatkozott, azokat is kezeli, nem csak a diktálást.
--------------------------------------------
Wesnoth Magyar Fordítás Csapat - Koordinátor http://wesnoth.fsf.hu/
Árpi leírása lapján csináltam, kiválóan működik, bőven realtime feletti sebességgel egy i5-6500-on (CPU only). A "diarization" ami jó lenne ha műkönde rendesen (megbeszélések átírásánál elég kafányos lenne), de mindent nem lehet :)
Meg ugye az Árpi blog https://hup.hu/node/181339 amit szintén írt, és az "MI tagadó szektások" nem tanultak belőle. Ezt én is teszteltem, és valóban döbbenetes.
Vannak megoldások, nem igaz hogy nincs. Bár ezekre is igaz, hogy tévednek, de Gizike is tévedett az írógéppel, nem véletlen hogy volt piaca a javítófestéknek.
Hozzászólások
Google első találat (Text from audio linux):
https://www.omgubuntu.co.uk/2017/06/parlatype-transcribe-audio-app-linux
Aláírás _Franko_ miatt törölve.
neut @
Ez sajnos még nem tud magyarul.
Na látod, ez egy új infó :)
Aláírás _Franko_ miatt törölve.
neut @
Van a Mycroft project, az Siri-Alexa-Cortana alternatívát csinál, ők is használnak valamit, sőt, volt róla több cikk is, hogy miről mire váltottak épp, nézz körül náluk.
Ha nem válaszolnék kommentben, hát küldj privátot!
Mycroftot mi is nézegettük, nagyjából wake world-re jó magyar nyelven másra nem. Feltételezem magyar nyelvű szövegből kellene leirat. Egy beszédfelismerő mesterséges neurális háló betanítására úgy 50 ezer feletti tanítóminta kell. Ilyen sajnos magyar nyelven bárki által elérhető módon nem áll rendelkezésre. Az adatvédelmi blama miatt ma már gyűjteni sem egyszerű. Szóval a saját megoldás itt problémás. Mozilla Common Voice. amit a Mycroft használ. Ahhoz szintén kellene tanító minta, ugyanúgy mint saját neurális hálóhoz. Szóval semmivel nem leszel előrébb.
A másik megoldás, amit már ajánlok, felhős szolgáltatások használata. Azure Cognitive Services másfél éve az angollal is hadilábon állt. Konkrétan akcentussal beszélt angol szöveget nagy hibaaránnyal ismert fel. A Google felhős szolgáltatása viszont elég jó. Magyar nyelvre jelenleg az egyetlen használható felhős szolgáltatás. Perc alapon kell fizetni érte, pár óra nem túl drága, de ha folyamaton működő szoftverről lenne szó, annak már húzós ára van. Linux helyett érdemes elgondolkoznod Android programon, mert ebben az esetben szerintem még ma is ingyenes a Google Cloud AI. Biztosra nem merem írni, mert a Google fél évente mindet átalakít, de jók az esélyek arra, hogy maradt ingyenes Androidon.
Szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj.
Mondjuk nem server oldal.
Persze az se megoldhatatlan:
https://github.com/swisspol/GCDWebServer
Ki is próbáltad már? Apple-felhasználóként játékból én már igen, és fenntartom a fenti véleményem. :) Másrészt irtam a kommentben, hogy "szerintem".
Nem. Nem próbáltam még. Ha van valami példakódod, szívesen ránézek. A magyar
diktlációtdiktációt használtam, és az egész jó. Nagyon jól megérti amit mondok, és szinte alig kell benne javítani. Ebben a szövegben csak egyszer kellett, pedig az egésza diktálóet diktálom. Oké kétszer. Meg ugye az írásjelek.Nincs már, évekkel ezelőtt néztem.
Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak. Nincs ilyen szoftver, semmilyen platformon, ami szépen automatán elfogadható minőségben leiratot készít, egyedi kiejtésminták, beszédhibák, háttérzajok, zene, stb. mindenképp zavarni fogja a felismerést. Ha ez így lenne, hogy csak fel kéne rakni egy csodaszoftvert, a gépírók fele már éhen döglött volna, hiszen a gépelni való min. felét hanganyagról gépelik megrendelésre. Az sem véletlen, hogy filmekhez, sorozatokhoz is emberek csinálják még a feliratot, és nincs automatizálva! Kb. ugyanaz a helyzet, mint az OCR szoftverekkel, bár azok már előrébb járnak technológiailag, mint a beszédfelismerés, de a rendes gépi leírókat nem tudta kiszorítani, mert egy csomó karaktert, szót hibásan ismer fel, táblázatot, illusztrációt, stb. hagy ki.
Az ne tévesszen meg senkit, hogy tele van minden Sirivel, Cortanával, stb., azok csak kulcsszavakat meg kulcskifejezéseket hallanak ki, azt sem mindig, nem szóról szóra történő átírásra vannak, az nem megy azoknak sem.
“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)
Nem ilyen részletesen én is ezt mondtam, a kettőnk véleményében nincs eltérés..
Azt nem is mondtam, hogy véleményeltérés van. Én csak azt mondtam, hogy kipróbálás nélkül is megállapítható mindez. Mert te írtad, hogy kipróbáltad.
“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)
Sehol se volt kikötés. Nem tudom miért hozol be új dolgokat a scope-ba.
Honnan tudod ilyen nagyon (kipróbálás nélkül?!) hogy biztosan nem lesz jó? Nem tudjuk mi lesz a use-case. Igen, 100% korrekt leiratot nem fog tudni csinálni, ahhoz mindenképp át kell rajta menni egyszer kézzel is. Elképzelhető, hogy OP ezzel tisztában van, és a folyamatok tervezésekor ezt is figyelembe vette.
Az is elképzelhető, hogy nem kell neki pontos leirat, csak kulcsszavakra akar keresni a későbbiekben. Lehet, hogy van baromi sok céges training/meeting anyagjuk felvéve és kézi rendezés helyett automatizálni szeretnék a kulcsszavas keresést. Nem tudjuk.
Ti itt ebben a szálban nem igazán vagytok túl nagy segítség. OP nem azt kérdezte, hogy hogy nem lehet, hanem azt, hogy hogy lehet megoldani a problémáját.
Ahelyett, hogy a konkrét feladat ismerete nélkül, negatív attitűddel, minden erőtökkel megpróbálnátok eltántorítani a feladat megoldásától, esetleg lehetnétek kicsit konstruktívabbak is.
Ja, ha nem elfogatható minőségben is elég, akkor lehet bármivel próbálkozni, de csak időpocsékolás lesz, előre megmondom. Annak semmi értelme, hogy csak a felét, negyedéd, meg kulcsszavakat ismer fel. Kb. annyit fog érni, mert egy rossz OCR. Én ilyenre nem pocsékolnám az időmet, begépelném inkább a hallottakat, ami valóban meló, de ha erre van szükség, akkor ez az egyetlen valóban használható alternatíva.
“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)
Kellett egy kis idő, mire eljutottunk onnan, hogy "szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj" oda, hogy hát igazából meg lehet csinálni, csak te nem hiszed, hogy ezzel érdemes lenne szórakozni. Anélkül, hogy tudnád, mi is a pontos feladat.
Vesd össze:
Olyan jó, hogy csípőből megmondod, hogy amit OP szeretne, az szar, de te tudsz egy sokkal jobb, manuális módszert! Anélkül, hogy tudnád, hogy mi is a feladat, amit meg kell oldani.
Azt gondolom, világosan leírtam az ezt érintő véleményem is, segítendő a topic-nyitónak. "Hogy lehet": nem lehet, értelmesen semmiképp.
Szólj már légyszi a BBC-nek is, hogy értelmetlen dolgokat csinálnak, feleslegesen pazarolják az idejüket...!
Te pontosan tudod, hogy OP mit szeretne megoldani?
https://birosag.hu/beszedfelismero-es-leiro-szoftverek
Nem tudom melyik bolygóról jöttél, de lehet hogy ideje lenne kinyitni az ablakot.
Egy 4 évvel ezelőtti posztra reagáltál. Azóta megjelent a publikus AI, ami elég sok bilit kiborított. :-)
https://www.speechtexter.com/
Tud magyarul. Csak mikrofonnal megy és online. Mikor teszteltem működött ezért elraktam.
+1, csak annyi a megkötés, hogy kizárólag a Chrome alatt megy.
tudtommal magyarul es jo minosegben csak 2 cegnek van erre megoldasa, egyik a Nuance (dragon dictation neven is ismert), ezt vette meg az Apple, es a Google-nek is van a sajatja. Utobbihoz valahol lattam mar API-t is.
a microsoft regen csinalt beszedfelismerot, ahhoz is volt API, de az csak windozon ment, es szerintem nem (nagyon) tudott magyarul (se).
https://cloud.google.com/speech-to-text
https://www.nuance.com/dragon.html
A Google-ről: az API használatával (amúgy PITA, mindenféle random megkötések vannak, hogy szinkron milyen hosszú és mekkora fájlt hajlandó feldolgozni, a méret korlát miatt a hanganyag fel kell, hogy menjen a cloud storage-ba, az aszinkron meg pita, ha csak egy-egy fájlt át akarsz íratni) kapsz egy pontosság százalékot, azt nagyon érdemes nézni, mert a használhatótól "a Coelho-generátor jobb lett volna"-ig mindent is képes kinyögni magából, többé-kevésbe a forrásanyagtól függetlenül.
(Angolul sokkal jobban működik, a magyar... hát, lektorálni kell :) )
BlackY
"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)
https://www.vocapia.com/linux-speech-to-text.html
Aláírás _Franko_ miatt törölve.
neut @
Ez lett a megoldás. Eddig a legjobb. Köszönöm.
Ha valaki szeretne tesztelni, akkor itt tudja: https://www.yobiyoba.com/en/
Kum Gábor
Van valami ingyenes periodus? Mondjuk az elso 5 perc, hogy ki lehessen probalni...
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....
30 percet kaptunk.
Kum Gábor
https://hvg.hu/tudomany/20201023_google_hangfelvevo_alkalmazas_recorder…
Ha nem válaszolnék kommentben, hát küldj privátot!
Köszönöm a segítséget mindeninek.
Összefoglalva a tapasztalataim:
A kérdésem most az lenne, hogy hogyan tegyem ezt a keresők számára feldogozhatóvá.
Kum Gábor
Én 2024-ben újra átnéztem a lehetőségeket, főleg levelek diktálására kerestem eszközt. Sajnos az itt felsoroltak pontosságával (központozás, nagybetűk, szerzői nevek stb.) nem voltam megelégedve. Aztán rábukkantam az online használható AIrite-ra, ami nagyon jól vizsgázott! Havi 30 perc ingyenes keret is jár hozzá. A fórum kérdés a hangfájlokra vonatkozott, azokat is kezeli, nem csak a diktálást.
--------------------------------------------
Wesnoth Magyar Fordítás Csapat - Koordinátor
http://wesnoth.fsf.hu/
Just for record:
Egy másik topicban ( https://hup.hu/comment/3039167#comment-3039167 ) egy harmadik topicban ( https://hup.hu/node/181339 ) lévő megoldást/szoftvert ( https://github.com/openai/whisper ) ajánlanak erre a célra.
* for the record
Jogos! :-)
hangfileokra a Whisper AI is eleg jo, free & on-prem, de kell hozza azert egy eros gep (gpu nem feltetlen szukseges, de ha van azzal jobb/gyorsabb):
https://hup.hu/node/181339
Árpi leírása lapján csináltam, kiválóan működik, bőven realtime feletti sebességgel egy i5-6500-on (CPU only). A "diarization" ami jó lenne ha műkönde rendesen (megbeszélések átírásánál elég kafányos lenne), de mindent nem lehet :)
Van az https://alrite.io/ai/hu/ és API a professional verzióban, ezt a Telex írói is használják.
Van amit már írtak https://openai.com/product Whisper API. (speech recognition model) Ez a legolcsóbb.
Meg ugye az Árpi blog https://hup.hu/node/181339 amit szintén írt, és az "MI tagadó szektások" nem tanultak belőle. Ezt én is teszteltem, és valóban döbbenetes.
Vannak megoldások, nem igaz hogy nincs. Bár ezekre is igaz, hogy tévednek, de Gizike is tévedett az írógéppel, nem véletlen hogy volt piaca a javítófestéknek.