Ha mar ennyire (kovaszos) uborkaszezon van, elovettem egy regi otletem: irni egy olyan programot, ami ekezet nelkuli szoveget ekezetesit. Tuti irt mar valaki ilyet, hallottam mar olyanrol aki ismer olyat akinek az ukannya latott is talan valahol az erdoben, de en nem talaltam.
Az eredeti otletem az volt, hogy neuralis haloval, szovegkornyezet alapjan word2vec-et felhasznalva talalna ki, hogy a tobbfele irasmod kozul vajon ott melyikre lehet szukseg. Ehhez eloszor is fogtam par ezer ujsagcikket, es osszedobtam egy python scriptet (gen_map.py) ami szavankent megnezi a gyakorisagot es a vegen kilistazza melyikek azok a szavak, ahol tobbfele ekezetes alak tartozik ugyanahhoz az ekezet nelkulihez. A meglepetes akkor jott, mikor lefuttattam (par bugfix utan:)), es kiderult, hogy a szavak kb 90%-anak csak egyfele alakja van, tehat 1:1 lekepzesrol van szo. A maradekban viszont nagyon sok olyan van, ahol nem a szoveg temaja (amire a word2vec jo lenne) miatt kell kulonbozo alakot hasznalni, hanem a nyelvtan, pl. ragozas miatt. Igy elso korben el is vetettem a neuralis halot, nezzuk meg csak siman statisztikailag hogy mukodik!