Google beszél madzsarul is. Nem olyan szépen és választékosan (értsd: több féle minőséget és ffi/női hangot és akcentust is lehet válaszatni) - de tud.
Az oldalon az alábbi szöveget találtam, de a MODEL_CARD fájlt nem találom sehol. Akkor ez szabadon használható vagy nem?
The MODEL_CARD file for each voice contains important licensing information. Piper is intended for text to speech research, and does not impose any additional restrictions on voice models. Some voices may have restrictive licenses, however, so please review them carefully!
És nem tudom h. ki mire akarja használni, de tök egyszerű belőle egy multithread API service-t csinálni, ami dockerben futtatva bármihez illeszthető. A magyar modelek meglepően jók, de újat készíteni sem túl bonyolult ha van hozzá alapanyagod.
Egy dologgal kell vigyázni, a requirement-ben van egy "lazy" verziózott komponens, ami épp bugos. Ha stabilan akarod használni, akkor kell egy kis downgrade :)
Tipp:
# workaround a bug onnxruntime (numpy dependency)
RUN pip install "numpy>=1.19.0,<2"
# workaround a bug in onnxruntime 1.18 (downgrade to 17)
RUN pip install onnxruntime==1.17.1
Gyönyörűen beszél magyarul. A https://github.com/jame25/Piper-Tray progit viszont nem tudom életre kelteni. Elég hiányos a leírása. Valakinek sikerült?
Az a baj, hogy a TTS nem váltja ki az angol kiejtés tanulását. A TTS is ejthet félre szavakat, meg be is nézheti, mert gyakran egy szónak szófaj meg kontextus alapján többféle kiejtése van (lásd use, close, contract, stb.), és nem tudja eldönteni, hogy egy adott mondatban melyik jelentésében áll. Rövidítésekkel, nevekkel is eléggé hadilábon állhat.
Ha kiejtést akarsz gyakorolni, tanuld meg a fonetikai jeleket, és ellenőrizd a kiejtést egynyelvű szótárban, a neten elérhető ingyen a Cambridge, Oxford Advanced Learner, Longman Advanced Learner Dictionary, Webster (ez amerikai), stb.. Kiejtésen azt értve, hogy nem csak a hangokat, de a hangsúlyozást is. Persze attól még használhatod a TTS-t, kiegészítő alapon, csak vakon ne bízz benne, meg ne kizárólagos eszköz legyen. Mindig ki kell egészíteni szótárral, meg az is hasznos, amiről a múltkori topikot nyitottad, hogy filmeket felirattal (majd egy szint felett felirat nélkül) nézni, eredeti nyelven természetesen. Nem is muszáj filmnek lenni, vagy akár sorozatnak se, lehet bármilyen netes videó, amihez van felirat, vagy felirat nélkül is érted.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
A contract-nál már a hangsúlyváltozás lényeges, de van hangbeli eltérés is, az egyik kantrekt-szerűen hangozik, a másik kön trekt-szerűen, tehát az első szótagban a hangsúly-hangsúlytalanság miatt a magánhangzó is eltér, így szerintem is a füled bot.
Biztosan van ezekről lista, én most egyelőre nem találtam normálisat, mármint teljeset nem. Példákból 2-3-at említenek nyelvtanulós oldalak. Nem csak a főnév-ige eltérés van (amik között még a candidate is egy klasszikus), hanem pl. a read, aminek a 2-3 alakja épp úgy read-nek van írva, de red-ként ejtik. Vagy még egy jó pár ilyen, amit a TTS is beszophat. Lehet ezek az AI-alapú TTS-ek már nem futnak ebbe bele, de a hagyományos TTS-eket ez rendszeresen félrevitte.
Ez nem csak a TTS-nél probléma egyébként, hanem a gépi fordításnál is mindig az volt, hogy egy adott szót azért értett félre, mert a mondatbeli kontextusát nem ismerte.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
Angoltanuláshoz első helyen nálam a "filmek felirattal" módszer van. Viszont a tapasztalatok alapján látom, hogy nem elég megnézni egy filmet, a szavakat meg is kell tanulni. Erre született a https://sign-el-soft.hu/angolszavak.html oldalon bemutatott módszer. Ezzel bárki készíthet magának a megnézett filmekből példamondatokkal kiegészített szógyűjteményt. Nagyon sok film anyagából (még nem néztem meg mindet) generáltam a programmal egy 11235 szavas példamondatokkal és előfordulási gyakoriság adattal kiegészített szótárt. A példamondatokhoz sajnos szerzői jogi okokból nem vághatom be az eredeti filmrészleteket. Ezért akarom most a példamondatok hangját így generálni.
Hozzászólások
Elevenlabs Python API-val pár sorban elkészíthető amit szeretnél: https://github.com/elevenlabs/elevenlabs-python
Ingyenes, lokálisan futó megoldás: https://huggingface.co/spaces/styletts2/styletts2
A linken elérhető egy online demo és lent egy parancs, amivel dockerben futtatja a modellt.
Az összes többi ami velem eddig szembejött az rosszabb minőségű hangot generált sajnos mint a fenti kettő.
Köszönöm, a demó alapján valóban jobb a hangja. A Pythont viszont még nem használtam, és csak ezért nem fogom megtanulni.
Sub
Google TTS szerintem nagyon jó!
magyar nyelvut nem tud valaki? lehetoleg lokalisat, nem (fizetos) api-sat.
Google beszél madzsarul is. Nem olyan szépen és választékosan (értsd: több féle minőséget és ffi/női hangot és akcentust is lehet válaszatni) - de tud.
Overtone egész jól működik:
https://assetstore.unity.com/packages/tools/generative-ai/overtone-real…
Ne ijedj meg tőle, nem csak unity.. sima dll van benne + C# kód.. működik kis Windows alkamazásban is gond nélkül.
A leírásban így hirtelen nem látom, de van hozzá 3 magyar hang is: Anna, Berta és Imre :)
fyi https://github.com/rhasspy/piper
Ez tetszik.
tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?
Köszönöm, ez elég jónak tűnik.
Az oldalon az alábbi szöveget találtam, de a MODEL_CARD fájlt nem találom sehol. Akkor ez szabadon használható vagy nem?
The MODEL_CARD file for each voice contains important licensing information. Piper is intended for text to speech research, and does not impose any additional restrictions on voice models. Some voices may have restrictive licenses, however, so please review them carefully!
-------------------
Itt végül megtaláltam: https://huggingface.co/models
MIT License, tehát ingyenesen és szabadon használhatod.
Tertilla; Tisztelem a botladozó embert és nem rokonszenvezem a tökéletessel! Hagyd már abba!; DropBox
"MIT License"
Az a program, de a különféle hangokra más-más feltétel vonatkozhat.
Ez nagyon jo!
Siman hozza egy random TVben beszelo fej minoseget.
És nem tudom h. ki mire akarja használni, de tök egyszerű belőle egy multithread API service-t csinálni, ami dockerben futtatva bármihez illeszthető. A magyar modelek meglepően jók, de újat készíteni sem túl bonyolult ha van hozzá alapanyagod.
Egy dologgal kell vigyázni, a requirement-ben van egy "lazy" verziózott komponens, ami épp bugos. Ha stabilan akarod használni, akkor kell egy kis downgrade :)
Tipp:
# workaround a bug onnxruntime (numpy dependency)
RUN pip install "numpy>=1.19.0,<2"
# workaround a bug in onnxruntime 1.18 (downgrade to 17)
RUN pip install onnxruntime==1.17.1
Gyönyörűen beszél magyarul. A https://github.com/jame25/Piper-Tray progit viszont nem tudom életre kelteni. Elég hiányos a leírása. Valakinek sikerült?
https://www.esp8266.org/
sub
Az a baj, hogy a TTS nem váltja ki az angol kiejtés tanulását. A TTS is ejthet félre szavakat, meg be is nézheti, mert gyakran egy szónak szófaj meg kontextus alapján többféle kiejtése van (lásd use, close, contract, stb.), és nem tudja eldönteni, hogy egy adott mondatban melyik jelentésében áll. Rövidítésekkel, nevekkel is eléggé hadilábon állhat.
Ha kiejtést akarsz gyakorolni, tanuld meg a fonetikai jeleket, és ellenőrizd a kiejtést egynyelvű szótárban, a neten elérhető ingyen a Cambridge, Oxford Advanced Learner, Longman Advanced Learner Dictionary, Webster (ez amerikai), stb.. Kiejtésen azt értve, hogy nem csak a hangokat, de a hangsúlyozást is. Persze attól még használhatod a TTS-t, kiegészítő alapon, csak vakon ne bízz benne, meg ne kizárólagos eszköz legyen. Mindig ki kell egészíteni szótárral, meg az is hasznos, amiről a múltkori topikot nyitottad, hogy filmeket felirattal (majd egy szint felett felirat nélkül) nézni, eredeti nyelven természetesen. Nem is muszáj filmnek lenni, vagy akár sorozatnak se, lehet bármilyen netes videó, amihez van felirat, vagy felirat nélkül is érted.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
Ha jol ertem a peldaidat, az mind fonev vs. ige.
Google elso talalata:
https://acapela-box.com/AcaBox/index.php
Szerintem jol ejti ki. (júz dö -- júsz of).
Jo lenne valami lista.
Pl. a contract (szerzodes vs. elkap) sztem ugyanugy mondjak, csak mas a hangsuly:)
Vagy botfulem van.
Peldamondatok:
Itt egy youtube video:
https://m.youtube.com/watch?v=OExX5eodfCQ
A fenti alcapa weboldalban szinten mashogy ejti, az angolnal alig van kulonbseg az amerikainal jobban hallhato.
Az a vegkovetkeztetesem, hogy ez legyen a legnagyobb kiejtesbeli problemam...
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....
A contract-nál már a hangsúlyváltozás lényeges, de van hangbeli eltérés is, az egyik kantrekt-szerűen hangozik, a másik kön trekt-szerűen, tehát az első szótagban a hangsúly-hangsúlytalanság miatt a magánhangzó is eltér, így szerintem is a füled bot.
Biztosan van ezekről lista, én most egyelőre nem találtam normálisat, mármint teljeset nem. Példákból 2-3-at említenek nyelvtanulós oldalak. Nem csak a főnév-ige eltérés van (amik között még a candidate is egy klasszikus), hanem pl. a read, aminek a 2-3 alakja épp úgy read-nek van írva, de red-ként ejtik. Vagy még egy jó pár ilyen, amit a TTS is beszophat. Lehet ezek az AI-alapú TTS-ek már nem futnak ebbe bele, de a hagyományos TTS-eket ez rendszeresen félrevitte.
Ez nem csak a TTS-nél probléma egyébként, hanem a gépi fordításnál is mindig az volt, hogy egy adott szót azért értett félre, mert a mondatbeli kontextusát nem ismerte.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
Megpróbáltam a contract példádat, és szerintem jól csinálja.
Angoltanuláshoz első helyen nálam a "filmek felirattal" módszer van. Viszont a tapasztalatok alapján látom, hogy nem elég megnézni egy filmet, a szavakat meg is kell tanulni. Erre született a https://sign-el-soft.hu/angolszavak.html oldalon bemutatott módszer. Ezzel bárki készíthet magának a megnézett filmekből példamondatokkal kiegészített szógyűjteményt. Nagyon sok film anyagából (még nem néztem meg mindet) generáltam a programmal egy 11235 szavas példamondatokkal és előfordulási gyakoriság adattal kiegészített szótárt. A példamondatokhoz sajnos szerzői jogi okokból nem vághatom be az eredeti filmrészleteket. Ezért akarom most a példamondatok hangját így generálni.
sub