Okos(abb) magyar helyesírás-ellenőrzés

LibreOffice, OpenOffice.org

Jó hír az írással napi szinten foglalkozók számára, hogy a LibreOffice következő nagyobb kiadása már nem jelez helyesírási hibát a különleges, de amúgy helyesírásilag tökéletes szóalakokra.

Ilyen a fenti címben szereplő „okos(abb)”, ahol az „abb”-ot a program (hasonlóan pl. a Microsoft Office-hoz) idáig aláhúzta. Mostantól csak akkor, ha a zárójelek nélküli szóalak (itt: „okosabb”) valóban hibás.

A magyar szótördelési algoritmus és a helyesírási szótár javítása a következő alakok helyes kezelését tette lehetővé:

a ragozott zárójeles számok: (1)-nek, [2]-ben;
a szavakon belüli zárójelezés: „oldal(ak)”, kell(ene);
a megváltozott méretet jelölő kapcsos zárójeles kezdőbetű az idézetekben: „[A]zt” és „[a]mazt”;
idézőjeles címek toldalékolása: „A jedi visszatér”-ben, a „Tisza”-ban (a helyes toldalékot jelezte hibásnak a program);
kérdőjeles és felkiáltójeles nevekben: Yahoo!-ról, Ki nevet a végén?-ből

Kapcsolódó hibajegy: tdf#116072.

L. még magyar nyelvi fejlesztések az FSF.hu Alapítvány támogatásával.

A hozzászóláshoz be kell jelentkezni
3382 megtekintés

A hír hosszabb, mint a 6 soros LibreOffice folt, és a ~4 sor változtatás a szótárban, mivel köszönhetően az eredetileg az arab és héber nyelv számára kifejlesztett Hunspell-lehetőségnek, még a zárójelek törlésére sem kellett külön kódot írni a Hunspell helyesírás-ellenőrzőben:

https://gerrit.libreoffice.org/gitweb?p=core.git;a=commitdiff;h=3cc58a5…

https://gerrit.libreoffice.org/gitweb?p=dictionaries.git;a=commitdiff;h…

0 szavazat

A hozzászóláshoz be kell jelentkezni

Gratulálok
Hasznos funkció

www.neurology.hu

0 szavazat

A hozzászóláshoz be kell jelentkezni

.tex-forráskódo(ka)t szeretnék végigtolni a hunspellen.
Alapvetően Geany editort használok, parancssorban nincs sok tapasztalatom helyesírás ellenőrzése terén.

Ha így használom:


    hunspell -d hu_HU valami.tex

akkor jó eredményt érek el?

-------
# hunspell --version
@(#) International Ispell Version 3.2.06 (but really Hunspell 1.3.3)
(forrásból telepítve)

Kiegészítő kérdés:
hogyan lehet a legnagyobb szókészletet előállítani ahhoz, hogy mondjuk a ,,vízirendőrség'' szó helyett ne javasoljon a rendszer mást?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igen, ha a --with-ui (plusz --with-readline) opcióval van fordítva a Hunspell.

Egyébként a hibás szavak kiírása működik csak:

cat *.tex | hunspell -d hu_HU -t -l

(A legfrissebb kód (https://github.com/hunspell/hunspell) kiírja a fájlnevet is, ha így van indítva az ellenőrzés:

hunspell -d hu_HU -l *.tex
valami.tex: hibuci
...)

A kiegészítő kérdés, ha jól értem, a szótárépítésre vonatkozik. Ha van (jó sok) dokumentum, amely többé-kevésbé ellenőrzöttnek tekinthető, abból egyszerűen csinálhatunk egy saját szótárat a többi dokumentum ellenőrzéséhez:

hunspell -d hu_HU -l *.tex *.odt *.html *.xml | sort | uniq >szotaram.txt

(Ha az az XML mondjuk a magyar Wikipédia dumpja, akkor máris kapunk egy szép nagy szótárat, igaz, toldalékolás nélkül. A szótárépítésnél sajnos a Hunspell még nem próbálja automatikusan osztályozni a szavakat, de ez a fejlesztés is tervbe van véve.)

Majd használjuk a szótárat, mondjuk a magyar és angol szótárral együtt, hogy az angol szavakat se jelezze hibának a program a dokumentumunkban:

hunspell -p szotaram.txt -d hu_HU,en_US dokumentumok.tex

(A „vízi rendőrség” egyébként nem írható egybe a magyar helyesírási szabályok szerint, ezért nem fogadja el a magyar szótár.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

...már fordítanám is, csak sem az autorecont, sem a make nem fogadja el a kapcsolót:

# make --with -ui
make: unrecognized option '--with'
make: invalid option -- 'u'
------
...aztán rájöttem, hogy még nem ittam kávét:
autorevonf -vfi
,/configure --with-ui
make
...és jó :-)

A fájlnevek kiírása hasznos, főleg ha több fájllal dolgozik az ember.

Az összetett szavak ellenőrzése -- ha jól értelmezem -- csak akkor működhet, ha már vannak összerakott toldalékmentes szavak.

A ,,vízirendőrség'' ill. ,,vízirendészet'' szavak előszeretettel vannak használva a hatósági honlapokon, hiába téves, így magam is bizonytalan vagyok, mi helyes és mi nem. Bár élénk tiltakozásom van a ,,tűzcsap'' és a ,,katasztrófavédelem'' szavak ellen is, mert összeegyeztethetetlen számomra pl. a vízcsap és a természetvédelem szavakkal, melyek rendes logikát követnek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szavak gyűjtése kapcsán előtúrtam régi kedvencemet, a QED szótárat.
Csupán 207874 sort tartalmaz, melyben a bal oldalon angol szó, jobb oldalon a magyar megfelelői vannak. A mezőelválasztó 2 db space, ezután seddel el lehet tüntetni a vesszőket, a kötőjelre végződő szavakat, a zárójelben lévőket, így készen is lehet egy sort és uniq után a szókészlet. De csak feltételes módban persze, mert biztos lesz hiányzó...
Íme 115464 darab szó:
http://tengerikajak.net/download/szavak.txt
a toldaléklevágás után:
hunspell -d hu_HU -l szavak.txt | sort | uniq >szotaram.txt
drasztikusan lecsökkent a szóállomány, még találtam benne 1-2 aposztrófot meg nagy Ő és Ű betűt rosszul.
7809 darab szó lett a a 207874 sorú QED-szótárból:
http://tengerikajak.net/download/szotaram.txt

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönjük! Mennyit is köszönhetnek más nyelvek a hunspell-nek!

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

0 szavazat

A hozzászóláshoz be kell jelentkezni

csodás!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez a „következő nagyobb kiadás” pontosan melyik lesz?

-----
„Egy jó kapcsolatban a társunkat az ő dolgában kell támogatni, nem a miénkben.”
rand() a lelke mindennek! :)
Szerinted…

0 szavazat

A hozzászóláshoz be kell jelentkezni

A következő nagyobb kiadás a LibreOffice 6.1, de ha Laci nem látja akadályát, be tudnánk tenni akár a 6.0.3-ba is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nincs akadálya (a szótördelésnél csak a belső záró- és egyéb jelek kerülnek most a szóba, a szélsők nem, nem rontva el azt tehát, ami eddig működött), és örülnék neki, köszönöm szépen!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Andrásnak köszönhetően az április elején megjelenő 6.0.3-as hibajavító kiadás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

(torolni nemtom)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Különleges gondom van.
Sok-sok fájlomban a szöveg iniciáléval kezdődik, ami így néz ki:

\lettrine{R}{öviden} kezdett bekezdés \lipsum[1]%

A hunspellt lefuttatva az összes így szétdarabolt szó hibaként kerül kigyűjtésre.

Kérdésem az, hogyan lehet a hunspellnek vagy bármi másnak elmondani, hogy a {} jelekbe zárt első betűt értelmezze úgy, hogy jó legyen nekem a feladathoz?
Sok régies kifelyezésem is van az átnézendő könyvtárstruktúrámban, és ezek a szavak már útban vannak.

-----------------
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van egy másik óriási problémám:
saját leszótövezett szótárállományomat szeretném a meglévő .dic állományami mellett használni, hogy minden grafikus editor is tudja használni a már összegyűjtött szavaimat. A magyarispell fordításával sajnos nem tudtam ezt megoldani, elvéreztem. A dic- és egyéb állományok létrejöttek, de nem működtek.

-----------------
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

Tökmindegy. Ha mindenki… 2025-09-29T18:00:31+0200
(most mondhatnám, hogy… 2025-09-29T18:00:09+0200
Szállj már le a döglött… 2025-09-29T17:57:25+0200
ESR nem is kap évi… 2025-09-29T17:55:43+0200
arról, hogy te nem látod át… 2025-09-29T17:54:12+0200
Senki nem várja el, hogy… 2025-09-29T17:41:29+0200
"A megbeszélés után az ukrán… 2025-09-29T17:39:00+0200
Még tudnak hová fejlődni. A… 2025-09-29T17:39:09+0200
Budapesten is volt… 2025-09-29T17:25:47+0200
Nem tökmindegy? Úgyis… 2025-09-29T17:25:25+0200

Okos(abb) magyar helyesírás-ellenőrzés

Hozzászólások