Szöveg leirat készítése hangfájlból Linux alatt mivel?

Sziasztok!

Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni Linux alatt, szerver oldalon. Tudtok ehhez javasolni valamilyen megoldást (szoftver/API/függvénykönyvár)?

Köszönöm.

Google első találat (Text from audio linux):

https://www.omgubuntu.co.uk/2017/06/parlatype-transcribe-audio-app-linux

Aláírás _Franko_ miatt törölve.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez sajnos még nem tud magyarul.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Na látod, ez egy új infó :)

Aláírás _Franko_ miatt törölve.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van a Mycroft project, az Siri-Alexa-Cortana alternatívát csinál, ők is használnak valamit, sőt, volt róla több cikk is, hogy miről mire váltottak épp, nézz körül náluk.

Ha nem válaszolnék kommentben, hát küldj privátot!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mycroftot mi is nézegettük, nagyjából wake world-re jó magyar nyelven másra nem. Feltételezem magyar nyelvű szövegből kellene leirat. Egy beszédfelismerő mesterséges neurális háló betanítására úgy 50 ezer feletti tanítóminta kell. Ilyen sajnos magyar nyelven bárki által elérhető módon nem áll rendelkezésre. Az adatvédelmi blama miatt ma már gyűjteni sem egyszerű. Szóval a saját megoldás itt problémás. Mozilla Common Voice. amit a Mycroft használ. Ahhoz szintén kellene tanító minta, ugyanúgy mint saját neurális hálóhoz. Szóval semmivel nem leszel előrébb.

A másik megoldás, amit már ajánlok, felhős szolgáltatások használata. Azure Cognitive Services másfél éve az angollal is hadilábon állt. Konkrétan akcentussal beszélt angol szöveget nagy hibaaránnyal ismert fel. A Google felhős szolgáltatása viszont elég jó. Magyar nyelvre jelenleg az egyetlen használható felhős szolgáltatás. Perc alapon kell fizetni érte, pár óra nem túl drága, de ha folyamaton működő szoftverről lenne szó, annak már húzós ára van. Linux helyett érdemes elgondolkoznod Android programon, mert ebben az esetben szerintem még ma is ingyenes a Google Cloud AI. Biztosra nem merem írni, mert a Google fél évente mindet átalakít, de jók az esélyek arra, hogy maradt ingyenes Androidon.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Perform speech recognition on live or prerecorded audio, receive transcriptions, alternative interpretations, and confidence levels of the results.

https://developer.apple.com/documentation/speech

Speech recognition supports the same locales that are supported by the keyboard's dictation feature. For a list of these locales, see QuickType Keyboard: Dictation.

https://developer.apple.com/documentation/speech/sfspeechrecognizer/164…

Hungarian

https://www.apple.com/ios/feature-availability/#quicktype-keyboard-dict…

Mondjuk nem server oldal.

Persze az se megoldhatatlan:

https://github.com/swisspol/GCDWebServer

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ki is próbáltad már? Apple-felhasználóként játékból én már igen, és fenntartom a fenti véleményem. :) Másrészt irtam a kommentben, hogy "szerintem".

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem. Nem próbáltam még. Ha van valami példakódod, szívesen ránézek. A magyar ~~diktlációt~~ diktációt használtam, és az egész jó. Nagyon jól megérti amit mondok, és szinte alig kell benne javítani. Ebben a szövegben csak egyszer kellett, pedig az egész ~~a diktáló~~et diktálom. Oké kétszer. Meg ugye az írásjelek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nincs már, évekkel ezelőtt néztem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak. Nincs ilyen szoftver, semmilyen platformon, ami szépen automatán elfogadható minőségben leiratot készít, egyedi kiejtésminták, beszédhibák, háttérzajok, zene, stb. mindenképp zavarni fogja a felismerést. Ha ez így lenne, hogy csak fel kéne rakni egy csodaszoftvert, a gépírók fele már éhen döglött volna, hiszen a gépelni való min. felét hanganyagról gépelik megrendelésre. Az sem véletlen, hogy filmekhez, sorozatokhoz is emberek csinálják még a feliratot, és nincs automatizálva! Kb. ugyanaz a helyzet, mint az OCR szoftverekkel, bár azok már előrébb járnak technológiailag, mint a beszédfelismerés, de a rendes gépi leírókat nem tudta kiszorítani, mert egy csomó karaktert, szót hibásan ismer fel, táblázatot, illusztrációt, stb. hagy ki.

Az ne tévesszen meg senkit, hogy tele van minden Sirivel, Cortanával, stb., azok csak kulcsszavakat meg kulcskifejezéseket hallanak ki, azt sem mindig, nem szóról szóra történő átírásra vannak, az nem megy azoknak sem.

“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem ilyen részletesen én is ezt mondtam, a kettőnk véleményében nincs eltérés..

1 szavazat

A hozzászóláshoz be kell jelentkezni

Azt nem is mondtam, hogy véleményeltérés van. Én csak azt mondtam, hogy kipróbálás nélkül is megállapítható mindez. Mert te írtad, hogy kipróbáltad.

“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

0 szavazat

A hozzászóláshoz be kell jelentkezni

...elfogadható minőségben...

Sehol se volt kikötés. Nem tudom miért hozol be új dolgokat a scope-ba.

Én ezt már kipróbálás nélkül is meg tudom mondani, hogy nem lesz jó a topikindítónak.

Honnan tudod ilyen nagyon (kipróbálás nélkül?!) hogy biztosan nem lesz jó? Nem tudjuk mi lesz a use-case. Igen, 100% korrekt leiratot nem fog tudni csinálni, ahhoz mindenképp át kell rajta menni egyszer kézzel is. Elképzelhető, hogy OP ezzel tisztában van, és a folyamatok tervezésekor ezt is figyelembe vette.

Az is elképzelhető, hogy nem kell neki pontos leirat, csak kulcsszavakra akar keresni a későbbiekben. Lehet, hogy van baromi sok céges training/meeting anyagjuk felvéve és kézi rendezés helyett automatizálni szeretnék a kulcsszavas keresést. Nem tudjuk.

Ti itt ebben a szálban nem igazán vagytok túl nagy segítség. OP nem azt kérdezte, hogy hogy nem lehet, hanem azt, hogy hogy lehet megoldani a problémáját.

Ahelyett, hogy a konkrét feladat ismerete nélkül, negatív attitűddel, minden erőtökkel megpróbálnátok eltántorítani a feladat megoldásától, esetleg lehetnétek kicsit konstruktívabbak is.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ja, ha nem elfogatható minőségben is elég, akkor lehet bármivel próbálkozni, de csak időpocsékolás lesz, előre megmondom. Annak semmi értelme, hogy csak a felét, negyedéd, meg kulcsszavakat ismer fel. Kb. annyit fog érni, mert egy rossz OCR. Én ilyenre nem pocsékolnám az időmet, begépelném inkább a hallottakat, ami valóban meló, de ha erre van szükség, akkor ez az egyetlen valóban használható alternatíva.

“A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kellett egy kis idő, mire eljutottunk onnan, hogy "szerintem magyarul kizárt, hogy erre bármilyen platformon megoldást találj" oda, hogy hát igazából meg lehet csinálni, csak te nem hiszed, hogy ezzel érdemes lenne szórakozni. Anélkül, hogy tudnád, mi is a pontos feladat.

It’s basically what you’re thinking: as the likes of newsreaders and presenters talk on TV, one of the designated 200 English-speaking subtitlers from across the globe will sit in front of a microphone repeating whatever’s said on air.

Doing this means a clear voice, free of any background noise, can be processed by specialised audio recognition software that generates captions on the screen. It’s a hybrid system – one that relies on a computer and subtitler.

https://www.radiotimes.com/news/tv/2018-05-16/how-do-tv-subtitles-work/

Vesd össze:

Jól érthető, stúdió minőségű mp3-as szövegekből szeretnék leiratot készíteni...

Olyan jó, hogy csípőből megmondod, hogy amit OP szeretne, az szar, de te tudsz egy sokkal jobb, manuális módszert! Anélkül, hogy tudnád, hogy mi is a feladat, amit meg kell oldani.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Azt gondolom, világosan leírtam az ezt érintő véleményem is, segítendő a topic-nyitónak. "Hogy lehet": nem lehet, értelmesen semmiképp.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szólj már légyszi a BBC-nek is, hogy értelmetlen dolgokat csinálnak, feleslegesen pazarolják az idejüket...!

These have good quality subtitles and this opened up the possibility of recovering subtitles in an automated process without the need for human oversight. Over the coming months, a series of python scripts were written to interface with a number of different internal and external web resources across the BBC. These scripts locate the source programmes and use audio fingerprinting to locate the clip and check for edits. A speech to text stage was then added to enable a text search for the original programme subtitles. The speech to text was also needed to retime the subtitles to match the clips and verify the result.

https://www.bbc.co.uk/rd/blog/2017-06-automatically-matched-subtitles

Te pontosan tudod, hogy OP mit szeretne megoldani?

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://birosag.hu/beszedfelismero-es-leiro-szoftverek

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nem tudom melyik bolygóról jöttél, de lehet hogy ideje lenne kinyitni az ablakot.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egy 4 évvel ezelőtti posztra reagáltál. Azóta megjelent a publikus AI, ami elég sok bilit kiborított. :-)

4 szavazat

A hozzászóláshoz be kell jelentkezni

https://www.speechtexter.com/

Tud magyarul. Csak mikrofonnal megy és online. Mikor teszteltem működött ezért elraktam.

0 szavazat

A hozzászóláshoz be kell jelentkezni

+1, csak annyi a megkötés, hogy kizárólag a Chrome alatt megy.

0 szavazat

A hozzászóláshoz be kell jelentkezni

tudtommal magyarul es jo minosegben csak 2 cegnek van erre megoldasa, egyik a Nuance (dragon dictation neven is ismert), ezt vette meg az Apple, es a Google-nek is van a sajatja. Utobbihoz valahol lattam mar API-t is.

a microsoft regen csinalt beszedfelismerot, ahhoz is volt API, de az csak windozon ment, es szerintem nem (nagyon) tudott magyarul (se).

https://cloud.google.com/speech-to-text

https://www.nuance.com/dragon.html

0 szavazat

A hozzászóláshoz be kell jelentkezni

A Google-ről: az API használatával (amúgy PITA, mindenféle random megkötések vannak, hogy szinkron milyen hosszú és mekkora fájlt hajlandó feldolgozni, a méret korlát miatt a hanganyag fel kell, hogy menjen a cloud storage-ba, az aszinkron meg pita, ha csak egy-egy fájlt át akarsz íratni) kapsz egy pontosság százalékot, azt nagyon érdemes nézni, mert a használhatótól "a Coelho-generátor jobb lett volna"-ig mindent is képes kinyögni magából, többé-kevésbe a forrásanyagtól függetlenül.

(Angolul sokkal jobban működik, a magyar... hát, lektorálni kell :) )

BlackY

"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://www.vocapia.com/linux-speech-to-text.html

Aláírás _Franko_ miatt törölve.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez lett a megoldás. Eddig a legjobb. Köszönöm.
Ha valaki szeretne tesztelni, akkor itt tudja: https://www.yobiyoba.com/en/

Kum Gábor

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van valami ingyenes periodus? Mondjuk az elso 5 perc, hogy ki lehessen probalni...

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat

A hozzászóláshoz be kell jelentkezni

30 percet kaptunk.

Kum Gábor

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://hvg.hu/tudomany/20201023_google_hangfelvevo_alkalmazas_recorder…

Ha nem válaszolnék kommentben, hát küldj privátot!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm a segítséget mindeninek.

Összefoglalva a tapasztalataim:

Google készít leiratot magyarul, de meglehetősen gyenge minőségűt, tulajdonképpen egyszerűbb legépelni, mint javítgatni.
Microsoft (Azure) hozta a szokásos formáját. Ingyenes próba, de azért csak fizess, különben nem működik. Miután fizettél, közli, hogy "ja, bocs, magyarul mégsem megy".
Vocapia nem foglalkozik párezer órás ügyfelekkel, de az ő rendszerüket használja a yobiyoba.com, náluk melegpően jó az eredmény, de azért minimális javítást igényel.

A kérdésem most az lenne, hogy hogyan tegyem ezt a keresők számára feldogozhatóvá.

Kum Gábor

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én 2024-ben újra átnéztem a lehetőségeket, főleg levelek diktálására kerestem eszközt. Sajnos az itt felsoroltak pontosságával (központozás, nagybetűk, szerzői nevek stb.) nem voltam megelégedve. Aztán rábukkantam az online használható AIrite-ra, ami nagyon jól vizsgázott! Havi 30 perc ingyenes keret is jár hozzá. A fórum kérdés a hangfájlokra vonatkozott, azokat is kezeli, nem csak a diktálást.

--------------------------------------------
Wesnoth Magyar Fordítás Csapat - Koordinátor
http://wesnoth.fsf.hu/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Just for record:

Egy másik topicban ( https://hup.hu/comment/3039167#comment-3039167 ) egy harmadik topicban ( https://hup.hu/node/181339 ) lévő megoldást/szoftvert ( https://github.com/openai/whisper ) ajánlanak erre a célra.

2 szavazat

A hozzászóláshoz be kell jelentkezni

* for the record

1 szavazat

A hozzászóláshoz be kell jelentkezni

Jogos! :-)

0 szavazat

A hozzászóláshoz be kell jelentkezni

hangfileokra a Whisper AI is eleg jo, free & on-prem, de kell hozza azert egy eros gep (gpu nem feltetlen szukseges, de ha van azzal jobb/gyorsabb):

https://hup.hu/node/181339

2 szavazat

A hozzászóláshoz be kell jelentkezni

Árpi leírása lapján csináltam, kiválóan működik, bőven realtime feletti sebességgel egy i5-6500-on (CPU only). A "diarization" ami jó lenne ha műkönde rendesen (megbeszélések átírásánál elég kafányos lenne), de mindent nem lehet :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van az https://alrite.io/ai/hu/ és API a professional verzióban, ezt a Telex írói is használják.

Van amit már írtak https://openai.com/product Whisper API. (speech recognition model) Ez a legolcsóbb.

Meg ugye az Árpi blog https://hup.hu/node/181339 amit szintén írt, és az "MI tagadó szektások" nem tanultak belőle. Ezt én is teszteltem, és valóban döbbenetes.

Vannak megoldások, nem igaz hogy nincs. Bár ezekre is igaz, hogy tévednek, de Gizike is tévedett az írógéppel, nem véletlen hogy volt piaca a javítófestéknek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

A management sehol sem… 2024-04-19T13:40:51+0200
Ez jónak néz ki. Pár… 2024-04-19T13:39:34+0200
a balliberális oldal a… 2024-04-19T13:38:46+0200
Akkor vigyed szerintem, ne… 2024-04-19T13:38:05+0200
A Gitlab szuper dolog, ha… 2024-04-19T13:36:11+0200
Kezdetnek: https://index.hu… 2024-04-19T13:32:34+0200
No ez valahogy kiment a… 2024-04-19T13:31:54+0200
Szerintem vedd ki a -print… 2024-04-19T13:28:53+0200
Ja, persze a -prune miatt… 2024-04-19T13:27:24+0200
2013-2018 között nem volt… 2024-04-19T13:23:55+0200

Szöveg leirat készítése hangfájlból Linux alatt mivel?

Hozzászólások