Szótövezés

Magyar szövegek bányászatához keresek szótövező könyvtárat. Ötletek? Lehetőleg python, de bármi jöhet.

Halovány ötletem, hogy elvileg libreoffice-ban vagy hunspellben lennie kell ilyennek, ugye? Viszont lövésem sincs, hogy hogy lehetne ezt kiragadni a környezetéből :)

Itt nézelődj: https://cgit.freedesktop.org/libreoffice/dictionaries/tree/hu_HU

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nemrég csináltam ilyet, a sima hunspell elég jól szótövez:

cat magyar_szoveg.txt | hunspell -s -d hu_HU - | awk '{print $2}' | awk /./ | sort

--
Csaba

0 szavazat

A hozzászóláshoz be kell jelentkezni


hunspell -s -d hu_HU magyar_szoveg.txt | awk '/./{print $2}'| sort

0 szavazat

A hozzászóláshoz be kell jelentkezni

Persze, csak egy hosszabb pipeline-ból másoltam ki a releváns részt, és nem akartam sokat szerkesztgetni.
--
Csaba

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kösz, erre ránézek!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Jee, valami ilyesmire gondoltam!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ubuntun látok egy ilyet:
python3-hunspell

--
eutlantis

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nagyon könnyen megírhatod magadnak:
http://snowball.tartarus.org/algorithms/hungarian/stemmer.html

Egyszerű 9 lépéses algoritmus.

1-2 óra alatt anno Javaban összedobtam, amikor kellett segítenem egy szakdogához, de már nincs meg a kód.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A babakocs azért erős I nélkül. Értem én hogy a legrövidebb értelmes, de ez nem értelmes jelentésű

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van még ott sok ilyen. Például:
baba -> ba
baglyokat -> bagly
mulat -> mul
mulatt -> mulat
mulattat -> mulatt

Ha alaposan megnézi valaki, akkor talál néhányat, ami helyes is. :-)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ilyen ez az NLP, ha algoritmikusan, és nem kézzel válogatott szótárral csinálod. Mert az utóbbi nem nagy kunszt gépileg, cserében nem kevés élőmunkával jár.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha egyszemélyes pjt-ben kellene ilyet összehoznom, összeboronálnám a kettőt:
1. az algoritmus próbálkozzon: minimális találat,
2. a tőjelöltet kikeresni a MEK-ről letölthető nagyszámú darab szövegéből kinyert, uniq-olt és indexelt mintájából*,
3. ha nincs találat, hibalistára írni kézi ellenőrzésre, és visszalépni az aktuálisnál hosszabb tőjelöltre,
4. goto 2

* Ez a minta nagyon helypazarló volna, és tizenöt éve nem is javasoltam volna ilyet, de ma már...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem ez elméletileg érdekesebb, gyakorlatban viszont úgy tűnik a hunspelles megoldás a jobb.

Egyébként ha már tökéletességre törekszünk, akkor szerintem hibás megközelítés izoláltan kezelni a szavakat, mert egy ember is a szövegkörnyezet, jelentés és gyakoriság (valószínűség) kombinációjából találja ki, hogy a szó végén toldalék van-e, vagy a szó része. De én csak egy kis poén projektet készítek, amihez jó lesz ez is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mondjuk nem árt, ha tisztázod, hogy nyelvtani szótövek kellenek, vagy valamit algoritmust akarsz futtatni azokon a töveken, mert akkor lehet, hogy így beljebb vagy. Máskor meg úgy.
--
Csaba

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egyébként :-)
- baba: ezt talán nem kell magyarázni
- Kocs: egy község. Illetve egyes vidékeken a szőlő kocsányát hívják így.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Teljesen egyetértek, ez ilyen könnyű műfaj, amit 1-2 óra alatt össze lehet dobni normálisra. Főleg a magyar szótövezés, ami rogyásig van hangváltó és tőváltó kivételekkel (pl. tó-tavat). Szerintem a hunspell is azért dolgozik szótáralapon, mert a gazdija nem akarta bevállalni a könnyű kis 9 lépéses algoritmuskát. Az a mocsok nagy szerencsénk, hogy legalább az elválasztás könnyebb.

„Pár marék nerd-et leszámítva kutyát se érdekel már 2016-ban a Linux. Persze, a Schönherz koliban biztos lehet villogni vele, de el kéne fogadni, ez már egy teljesen halott platform. Hagyjuk meg szervergépnek…” Aron1988@PH Fórum

0 szavazat

A hozzászóláshoz be kell jelentkezni

A kérdező könyvtárat keresett, és nem szótárat, erre mindenki szótárat ajánlott neki :(

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha megelégszünk azzal, hogy a végeredmény „nyomokban szótövet is tartalmazhat” akkor ez is lehet jó megoldás. Egyébként a fentebb javasolt python3-hunspell-nek olyan könyvtár kinézete van. Az más kérdés, hogy használja a hunspell szótárakat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Eredetileg tényleg azt kerestem, de igazából bármilyen megoldás érdekel, a lényeg, hogy megoldás legyen :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Aki még nem csinálta úgy, hogy utána gyakorlatban használta is az eredményt, az nem is sejti, hogy még a pofátlanul egyszerűen építkező angol szavakat többé-kevésbé tökéletesen lecsupaszítani is eltart egy ideig.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azt hiszem, a fentebb említett python-hunspell lesz a befutó. https://github.com/blatinier/pyhunspell

Kösz mindenkinek a tippeket. És persze jöhetnek továbbiak is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szótövezés

Hozzászólások