text to speech

Fórumok

Egy parancssori text to speech programra lenne szükségem, ami a tanulást segítő jó minőségű angol kiejtést produkál.

A festival és a mimic programokat már ismerem, és használom, de jobb minőségű hangot szeretnék.

Hozzászólások

Elevenlabs Python API-val pár sorban elkészíthető amit szeretnél: https://github.com/elevenlabs/elevenlabs-python

Ingyenes, lokálisan futó megoldás: https://huggingface.co/spaces/styletts2/styletts2
A linken elérhető egy online demo és lent egy parancs, amivel dockerben futtatja a modellt.

Az összes többi ami velem eddig szembejött az rosszabb minőségű hangot generált sajnos mint a fenti kettő.

magyar nyelvut nem tud valaki? lehetoleg lokalisat, nem (fizetos) api-sat.

Overtone egész jól működik:
https://assetstore.unity.com/packages/tools/generative-ai/overtone-real…

Ne ijedj meg tőle, nem csak unity.. sima dll van benne + C# kód.. működik kis Windows alkamazásban is gond nélkül.

 

A leírásban így hirtelen nem látom, de van hozzá 3 magyar hang is: Anna, Berta és Imre :)

Köszönöm, ez elég jónak tűnik.

Az oldalon az alábbi szöveget találtam, de a MODEL_CARD fájlt nem találom sehol. Akkor ez szabadon használható vagy nem?

The MODEL_CARD file for each voice contains important licensing information. Piper is intended for text to speech research, and does not impose any additional restrictions on voice models. Some voices may have restrictive licenses, however, so please review them carefully!

-------------------

Itt végül megtaláltam: https://huggingface.co/models

És nem tudom h. ki mire akarja használni, de tök egyszerű belőle egy multithread API service-t csinálni, ami dockerben futtatva bármihez illeszthető. A magyar modelek meglepően jók, de újat készíteni sem túl bonyolult ha van hozzá alapanyagod.

Egy dologgal kell vigyázni, a requirement-ben van egy "lazy" verziózott komponens, ami épp bugos. Ha stabilan akarod használni, akkor kell egy kis downgrade :)

Tipp:

# workaround a bug onnxruntime (numpy dependency)
RUN pip install "numpy>=1.19.0,<2"
# workaround a bug in onnxruntime 1.18 (downgrade to 17)
RUN pip install onnxruntime==1.17.1
 

Az a baj, hogy a TTS nem váltja ki az angol kiejtés tanulását. A TTS is ejthet félre szavakat, meg be is nézheti, mert gyakran egy szónak szófaj meg kontextus alapján többféle kiejtése van (lásd use, close, contract, stb.), és nem tudja eldönteni, hogy egy adott mondatban melyik jelentésében áll. Rövidítésekkel, nevekkel is eléggé hadilábon állhat.

Ha kiejtést akarsz gyakorolni, tanuld meg a fonetikai jeleket, és ellenőrizd a kiejtést egynyelvű szótárban, a neten elérhető ingyen a Cambridge, Oxford Advanced Learner, Longman Advanced Learner Dictionary, Webster (ez amerikai), stb.. Kiejtésen azt értve, hogy nem csak a hangokat, de a hangsúlyozást is. Persze attól még használhatod a TTS-t, kiegészítő alapon, csak vakon ne bízz benne, meg ne kizárólagos eszköz legyen. Mindig ki kell egészíteni szótárral, meg az is hasznos, amiről a múltkori topikot nyitottad, hogy filmeket felirattal (majd egy szint felett felirat nélkül) nézni, eredeti nyelven természetesen. Nem is muszáj filmnek lenni, vagy akár sorozatnak se, lehet bármilyen netes videó, amihez van felirat, vagy felirat nélkül is érted.

The world runs on Excel spreadsheets. (Dylan Beattie)