( arpi_esp | 2022. 07. 11., h – 20:42 )

na kiprobaltam ezt az RF-et, elsore tenyleg nem rossz. de a fent linkelt hunaccent pdf-ben leirt inputra kuldtem ra, ok vegul decision tree-t hasznaltak de probaltak mas classifiert is.

ennek a lenyege, hogy a keresett karakter elotti es utani 4-4 betu az input, az output pedig, hogy kell-e ekezet a vizsgalt beture. ok minden maganhanzgora kulon modelt tanitottak es mindig a megfelelot hasznaltak. en egyelore csak az 'a'-ra epitettem eleg keves adatbol (naluk 2M input volt, nalam most csak 162290), es 1640-et felretettem tesztre:

37 1640 2.2560975609756095

ebbol csak 37x hibazott, ami 2.25%, egesz jo igy elsore, es keves inputbol. megnezem majd nagyobb inputtal is, de elobb belerakom hogy a tobbi maganhangzot is ismerje...

ilyen inputokat kapott az RF:

y: x:
0 [118, 97, 110, 32, 97, 32, 109, 117, 110]
1 [109, 117, 110, 107, 97, 110, 32, 97, 32]
0 [107, 97, 110, 32, 97, 32, 110, 121, 105]

a szamok a lowercase ekezettelenitett ascii kodok a vizsgalt karakter korul +-4

meglatjuk, ha eleg igeretes akkor meg lehet boviteni a feature vektorokat, csak valami okosat kell kitalalni aminek ertelme is van :)