Szöveg leirat készítése hangfájlból Linux alatt mivel?

Fórumok

Sziasztok!

Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni Linux alatt, szerver oldalon. Tudtok ehhez javasolni valamilyen megoldást (szoftver/API/függvénykönyvár)?

Köszönöm.

Hozzászólások

Van a Mycroft project, az Siri-Alexa-Cortana alternatívát csinál, ők is használnak valamit, sőt, volt róla több cikk is, hogy miről mire váltottak épp, nézz körül náluk.

Ha nem válaszolnék kommentben, hát küldj privátot!

Mycroftot mi is nézegettük, nagyjából wake world-re jó magyar nyelven másra nem. Feltételezem magyar nyelvű szövegből kellene leirat. Egy beszédfelismerő mesterséges neurális háló betanítására úgy 50 ezer feletti tanítóminta kell. Ilyen sajnos magyar nyelven bárki által elérhető módon nem áll rendelkezésre. Az adatvédelmi blama miatt ma már gyűjteni sem egyszerű. Szóval a saját megoldás itt problémás. Mozilla Common Voice. amit a Mycroft használ. Ahhoz szintén kellene tanító minta, ugyanúgy mint saját neurális hálóhoz. Szóval semmivel nem leszel előrébb. 

A másik megoldás, amit már ajánlok, felhős szolgáltatások használata. Azure Cognitive Services másfél éve az angollal is hadilábon állt. Konkrétan akcentussal beszélt angol szöveget nagy hibaaránnyal ismert fel. A Google felhős szolgáltatása viszont elég jó. Magyar nyelvre jelenleg az egyetlen használható felhős szolgáltatás. Perc alapon kell fizetni érte, pár óra nem túl drága, de ha folyamaton működő szoftverről lenne szó, annak már húzós ára van. Linux helyett érdemes elgondolkoznod Android programon, mert ebben az esetben szerintem még ma is ingyenes a Google Cloud AI. Biztosra nem merem írni, mert a Google fél évente mindet átalakít, de jók az esélyek arra, hogy maradt ingyenes Androidon. 

Szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj.

Perform speech recognition on live or prerecorded audio, receive transcriptions, alternative interpretations, and confidence levels of the results.

https://developer.apple.com/documentation/speech

Speech recognition supports the same locales that are supported by the keyboard's dictation feature. For a list of these locales, see QuickType Keyboard: Dictation.

https://developer.apple.com/documentation/speech/sfspeechrecognizer/164…

Hungarian

https://www.apple.com/ios/feature-availability/#quicktype-keyboard-dict…

 

Mondjuk nem server oldal.

Persze az se megoldhatatlan:

https://github.com/swisspol/GCDWebServer

Nem. Nem próbáltam még. Ha van valami példakódod, szívesen ránézek. A magyar diktlációt diktációt használtam, és az egész jó. Nagyon jól megérti amit mondok, és szinte alig kell benne javítani. Ebben a szövegben csak egyszer kellett, pedig az egész a diktálóet diktálom. Oké kétszer. Meg ugye az írásjelek.

Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak. Nincs ilyen szoftver, semmilyen platformon, ami szépen automatán elfogadható minőségben leiratot készít, egyedi kiejtésminták, beszédhibák, háttérzajok, zene, stb. mindenképp zavarni fogja a felismerést. Ha ez így lenne, hogy csak fel kéne rakni egy csodaszoftvert, a gépírók fele már éhen döglött volna, hiszen a gépelni való min. felét hanganyagról gépelik megrendelésre. Az sem véletlen, hogy filmekhez, sorozatokhoz is emberek csinálják még a feliratot, és nincs automatizálva! Kb. ugyanaz a helyzet, mint az OCR szoftverekkel, bár azok már előrébb járnak technológiailag, mint a beszédfelismerés, de a rendes gépi leírókat nem tudta kiszorítani, mert egy csomó karaktert, szót hibásan ismer fel, táblázatot, illusztrációt, stb. hagy ki.

Az ne tévesszen meg senkit, hogy tele van minden Sirivel, Cortanával, stb., azok csak kulcsszavakat meg kulcskifejezéseket hallanak ki, azt sem mindig, nem szóról szóra történő átírásra vannak, az nem megy azoknak sem.

“I didn’t start using Linux so I could have friends.” (Luke Smith, 2019) 🐧

...elfogadható minőségben...

Sehol se volt kikötés. Nem tudom miért hozol be új dolgokat a scope-ba.

Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak. 

Honnan tudod ilyen nagyon (kipróbálás nélkül?!) hogy biztosan nem lesz jó? Nem tudjuk mi lesz a use-case. Igen, 100% korrekt leiratot nem fog tudni csinálni, ahhoz mindenképp át kell rajta menni egyszer kézzel is. Elképzelhető, hogy OP ezzel tisztában van, és a folyamatok tervezésekor ezt is figyelembe vette.

Az is elképzelhető, hogy nem kell neki pontos leirat, csak kulcsszavakra akar keresni a későbbiekben. Lehet, hogy van baromi sok céges training/meeting anyagjuk felvéve és kézi rendezés helyett automatizálni szeretnék a kulcsszavas keresést. Nem tudjuk.

Ti itt ebben a szálban nem igazán vagytok túl nagy segítség. OP nem azt kérdezte, hogy hogy nem lehet, hanem azt, hogy hogy lehet megoldani a problémáját.
 

Ahelyett, hogy a konkrét feladat ismerete nélkül, negatív attitűddel, minden erőtökkel megpróbálnátok eltántorítani a feladat megoldásától, esetleg lehetnétek kicsit konstruktívabbak is.

Ja, ha nem elfogatható minőségben is elég, akkor lehet bármivel próbálkozni, de csak időpocsékolás lesz, előre megmondom. Annak semmi értelme, hogy csak a felét, negyedéd, meg kulcsszavakat ismer fel. Kb. annyit fog érni, mert egy rossz OCR. Én ilyenre nem pocsékolnám az időmet, begépelném inkább a hallottakat, ami valóban meló, de ha erre van szükség, akkor ez az egyetlen valóban használható alternatíva.

“I didn’t start using Linux so I could have friends.” (Luke Smith, 2019) 🐧

Kellett egy kis idő, mire eljutottunk onnan, hogy "szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj" oda, hogy hát igazából meg lehet csinálni, csak te nem hiszed, hogy ezzel érdemes lenne szórakozni. Anélkül, hogy tudnád, mi is a pontos feladat.

It’s basically what you’re thinking: as the likes of newsreaders and presenters talk on TV, one of the designated 200 English-speaking subtitlers from across the globe will sit in front of a microphone repeating whatever’s said on air.

Doing this means a clear voice, free of any background noise, can be processed by specialised audio recognition software that generates captions on the screen. It’s a hybrid system – one that relies on a computer and subtitler.

https://www.radiotimes.com/news/tv/2018-05-16/how-do-tv-subtitles-work/

Vesd össze:

Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni...

Olyan jó, hogy csípőből megmondod, hogy amit OP szeretne, az szar, de te tudsz egy sokkal jobb, manuális módszert! Anélkül, hogy tudnád, hogy mi is a feladat, amit meg kell oldani.

Szólj már légyszi a BBC-nek is, hogy értelmetlen dolgokat csinálnak, feleslegesen pazarolják az idejüket...!

These have good quality subtitles and this opened up the possibility of recovering subtitles in an automated process without the need for human oversight. Over the coming months, a series of python scripts were written to interface with a number of different internal and external web resources across the BBC. These scripts locate the source programmes and use audio fingerprinting to locate the clip and check for edits. A speech to text stage was then added to enable a text search for the original programme subtitles. The speech to text was also needed to retime the subtitles to match the clips and verify the result.

https://www.bbc.co.uk/rd/blog/2017-06-automatically-matched-subtitles

Te pontosan tudod, hogy OP mit szeretne megoldani? 

Szerkesztve: 2020. 10. 24., szo - 20:18

tudtommal magyarul es jo minosegben csak 2 cegnek van erre megoldasa, egyik a Nuance (dragon dictation neven is ismert), ezt vette meg az Apple, es a Google-nek is van a sajatja. Utobbihoz valahol lattam mar API-t is.

a microsoft regen csinalt beszedfelismerot, ahhoz is volt API, de az csak windozon ment, es szerintem nem (nagyon) tudott magyarul (se).

https://cloud.google.com/speech-to-text

https://www.nuance.com/dragon.html

A Google-ről: az API használatával (amúgy PITA, mindenféle random megkötések vannak, hogy szinkron milyen hosszú és mekkora fájlt hajlandó feldolgozni, a méret korlát miatt a hanganyag fel kell, hogy menjen a cloud storage-ba, az aszinkron meg pita, ha csak egy-egy fájlt át akarsz íratni) kapsz egy pontosság százalékot, azt nagyon érdemes nézni, mert a használhatótól "a Coelho-generátor jobb lett volna"-ig mindent is képes kinyögni magából, többé-kevésbe a forrásanyagtól függetlenül.

(Angolul sokkal jobban működik, a magyar... hát, lektorálni kell :) )

BlackY

"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)

Köszönöm a segítséget mindeninek.

Összefoglalva a tapasztalataim:

  • Google készít leiratot magyarul, de meglehetősen gyenge minőségűt, tulajdonképpen egyszerűbb legépelni, mint javítgatni.
  • Microsoft (Azure) hozta a szokásos formáját. Ingyenes próba, de azért csak fizess, különben nem működik. Miután fizettél, közli, hogy "ja, bocs, magyarul mégsem megy".
  • Vocapia nem foglalkozik párezer órás ügyfelekkel, de az ő rendszerüket használja a yobiyoba.com, náluk melegpően jó az eredmény, de azért minimális javítást igényel.

A kérdésem most az lenne, hogy hogyan tegyem ezt a keresők számára feldogozhatóvá.