Szótövezés

Fórumok

Magyar szövegek bányászatához keresek szótövező könyvtárat. Ötletek? Lehetőleg python, de bármi jöhet.

Halovány ötletem, hogy elvileg libreoffice-ban vagy hunspellben lennie kell ilyennek, ugye? Viszont lövésem sincs, hogy hogy lehetne ezt kiragadni a környezetéből :)

Hozzászólások

Nemrég csináltam ilyet, a sima hunspell elég jól szótövez:

cat magyar_szoveg.txt | hunspell -s -d hu_HU - | awk '{print $2}' | awk /./ | sort

--
Csaba

Ha egyszemélyes pjt-ben kellene ilyet összehoznom, összeboronálnám a kettőt:
1. az algoritmus próbálkozzon: minimális találat,
2. a tőjelöltet kikeresni a MEK-ről letölthető nagyszámú darab szövegéből kinyert, uniq-olt és indexelt mintájából*,
3. ha nincs találat, hibalistára írni kézi ellenőrzésre, és visszalépni az aktuálisnál hosszabb tőjelöltre,
4. goto 2

* Ez a minta nagyon helypazarló volna, és tizenöt éve nem is javasoltam volna ilyet, de ma már...

Szerintem ez elméletileg érdekesebb, gyakorlatban viszont úgy tűnik a hunspelles megoldás a jobb.

Egyébként ha már tökéletességre törekszünk, akkor szerintem hibás megközelítés izoláltan kezelni a szavakat, mert egy ember is a szövegkörnyezet, jelentés és gyakoriság (valószínűség) kombinációjából találja ki, hogy a szó végén toldalék van-e, vagy a szó része. De én csak egy kis poén projektet készítek, amihez jó lesz ez is.

Teljesen egyetértek, ez ilyen könnyű műfaj, amit 1-2 óra alatt össze lehet dobni normálisra. Főleg a magyar szótövezés, ami rogyásig van hangváltó és tőváltó kivételekkel (pl. tó-tavat). Szerintem a hunspell is azért dolgozik szótáralapon, mert a gazdija nem akarta bevállalni a könnyű kis 9 lépéses algoritmuskát. Az a mocsok nagy szerencsénk, hogy legalább az elválasztás könnyebb.

„Pár marék nerd-et leszámítva kutyát se érdekel már 2016-ban a Linux. Persze, a Schönherz koliban biztos lehet villogni vele, de el kéne fogadni, ez már egy teljesen halott platform. Hagyjuk meg szervergépnek…” Aron1988@PH Fórum