Magyar szinonimaszótár az OpenOffice.org-ban

Az OpenOffice.org 2.4 magyar változatában a javított helyesírási szótár mellett helyet kapott a készülő magyar szinonimaszótár bemutató változata is. A leggyakoribb pár száz szó (valószínűleg, tulajdonképpen, stb.) szinonimái mellett a hasznos tezauruszfunkciók szemléltetésére magyar névnaptárat, valamint a görög betűk és más Unicode-karakterek elérését egyszerűsítő bejegyzéseket is tartalmaz.

Így a Lajos, 03-28, pi, jel vagy telefon beírását és a Ctrl-F7 lenyomását követően a Lajos névnapjait, a mai napra eső névnapokat, a π jelet és nagybetűs változatát, a Π-t, a gyakrabban használt magyar írásjeleket és a telefonszámot bevezető telefonszimbólumokat (☏, ☎) lehet a dokumentumunkba beilleszteni.

A névnaptár a Magyar Webkorpusz szerinti leggyakoribb 1500 magyar keresztnevet tartalmazza. A keresztnevek és a többi szinonima is egy országos napilap utolsó 6 évfolyamának szókincse alapján lett gyakorisági sorrendbe állítva. A későbbiekben egy nagyságrenddel nagyobb, mintegy 2 millió cikket tartalmazó sajtóanyag fogja biztosítani, hogy a szinonimák és gyakorisági sorrendjük valóban a mai magyar köznyelvet tükrözze.

A szinonimakezelés másik újdonsága a toldalékolás lesz, ami a szinonimaszótár parancssori tesztváltozatában ki is próbálható:

$ ./demo
Thesaurus uses encoding UTF-8

kitűnő
kitűnő has 1 meanings
meaning 0: (mn) kiváló
kiváló

kiemelkedő
kitűnő
remek
tökéletes
hibátlan
kifogástalan

kitűnőbbeket
stem: kitűnő
kitűnő has 1 meanings
meaning 0: (mn) kiváló
kiválóbbakat
jobbakat
kiemelkedőbbeket
kitűnőbbeket
remekebbeket
tökéletesebbeket
hibátlanabbakat
kifogástalanabbakat

mondjátok
stem: mond
mond has 1 meanings
meaning 0: (i) mond
mondjátok
szóljátok
beszélitek, beszéljétek
közlitek, közöljétek
kiemelitek, kiemeljétek
hangsúlyozzátok
kijelentitek, kijelentsétek

A szinonimaszótár az OpenOffice.org más változataiba is telepíthető a DicOOo tündér magyar nyelvi csomagjaival (telepítési leírás).

Az OpenOffice.org 3 teljes tövező-toldalékoló magyar szinonimaszótárának elkészítését az FSF.hu Alapítvány támogatja.

Hozzászólások

a javított helyesírási szótár mellett helyett kapott a készülő magyar szinonimaszótár bemutató változata is

Hat egy helyesirasi szotar ennek a cikknek sem artott volna...

Megpróbáltam a firefox kiterjesztést a 2.0.0.13-ra feltenni de azt írja ki, hogy csak a FF3 és Thb 3.0 változatokkal használható. Tudom, hogy a 3-as változat hamarosan jön, a régebbihez már nem készül?

Naggyon szép. A ragozás különösen tetszik! Már csak fel kell tölteni szavakkal, jól. Ez közösségi alapon fog menni?

Amíg lehet, nem. A közösségi fejlesztéseknél is (mint Daniel Naber OpenThesaurusa) a közel teljes (a német esetében német–angol szótár feldolgozásával létrehozott) anyagok javítása és bővítése vált csak közösségivé, és ezt tanácsolják mindenkinek. A magyarnál még kifejezett cél az is, hogy a szinonimaszótár ne avuljon el: a szövegkorpusz frissítésével bizonyos határokon belül automatikusan módosulna a szinonimaszótár is: a sorrend megváltozik a szinonimahalmazokon belül, szavak kerülnének ki belőlük (vagy kapnak régies minősítést), illetve újak kerülnek be a megfelelő helyre, ezzel is rengeteg emberi munka spórolható meg.

Meg lehet nézni az elérhető tesztváltozatban, hogy a szótárkészítő folyamat (indítás: make clean; make) már a csatolt gyakorisági szólista alapján rendezi a szinonimahalmazon belül a szinonimákat. A részletes munkaterv most készül. A kérdés az, hogy mit lehet és érdemes automatizálni, illetve a tezauruszfunkciók mennyire legyenek lefedve. A majdani végső változatban a Wordnet szintet is szeretném túllépni, mert pl. a Wordnet hiába sorol fel 265 virágot (részben redundánsan a latin név miatt) a flower szóra, (illetve a virág részeit), sárga tavaszi virágokat már nem tudok keresni benne (mert az ilyen információkat már nem rendezi adatbázisba, hanem csak a meghatározásba írja bele, de pl. a virágzás ideje már hiányzik). Ehhez persze az OpenOffice.org tezauruszmodulja nem elég, ami nem is baj, mert ráfér az átírás. Szeretném, ha a magyar tezaurusznak is lenne honlapja a Magyar Ispellhez hasonlóan, így ott akkor bővebben szó esne ezekről.

Na ezért adtam az adózsetonokat az FSF-nek.

A mondattani elemzéstől menyire állsz/állunk messze?

Goldman Eleonóra a Languagetool OpenOffice.org kiterjesztéshez készített már egy magyar modult (ami talán a Magyar Ispell szóanyagát is felhasználja a szófaji információk megállapításához). Az OpenOffice.org mondatelemzési moduljának megírása, vagy a LanguageTool illesztése lenne az első számú feladat. Ez utóbbi javás, de a Base példájára talán az illesztés megoldható volna, a probléma csak a GPL licenc (de lehet, hogy ez sem volna az, rá fogok kérdezni). Az egyszerűbb, és egyértelműen megállapítható mondathibák (az írásjelhasználat egy része, tipikus tévesztések) kezelése ezzel megoldódna, komolyabb mondatelemzéshez már szófaji és mondatelemzőre lesz szükség, sőt, abból is komolyabb, ha el akarjuk kerülni a felesleges hibajelzéseket (legalábbis az alapbeállítás mellett). Ami úgy tudom hiányozni fog az OpenOffice.org 3-ból, az pont ez a beállítási lehetőség, sőt a mondatelemzési dialógusablak, de meg fogom nézni közelebbről.

Kálmán, megnéztem a LanguageTool licencét, LGPL-es, tehát nem volna akadálya, hogy bekerüljön az OpenOffice.org-ba. Ha az illesztést elvégezné valaki, akkor a legalapvetőbb magyar szabályokat megírnám hozzá (úgy néz ki, hogy az új LanguageTool már nem tartalmaz magyar szabályokat). De amúgy is szeretném ezt megcsinálni az OpenOffice.org 3-hoz. A magyar szabályokat tartalmazó LanguageTool modult, mint OOo-kiterjesztést lehetne telepíteni egy kattintással. A különbség, hogy ekkor nem zöld aláhúzásokkal, hanem külön dialógusablakban jelennének meg a javaslatok, de ez nem is baj, mert pont az fog hiányozni még az OpenOffice.org 3-ból. Amit nem tudok megcsinálni előreláthatólag, az a LanguageTool beépítése, vagy C++-os kiváltását az OpenOffice.org-ban. Ezt, de főleg a legsikeresebb OpenOffice.org kiterjesztés, az angol sablonok honosítását tartanám fontos feladatnak, amiben a Novell biztos tudna segíteni, vagy egy az egyben megcsinálni. :)