Magyar nyelvi fejlesztések II–III. (kivonat)

A LibreOffice-hoz kapcsolódó, az FSF.hu Alapítvány támogatásával megvalósított (l. előző hír) magyar nyelvi fejlesztések legfrissebb eredményeinek összefoglalója:

Valódi bővíthető helyesírási szótár. A korábbi „Nyelvi minta” példa mellett „Grammar By” (angol) és „Grammatik nach” (német) videók is készültek a LibreOffice 6.0 egyik leghasznosabb újdonságáról. Az egyéni szótárba felvett új szavainkat, ha megadunk hozzájuk egy-egy mintaszót is, a LibreOffice helyesírás-ellenőrzője, a Hunspell tökéletesen toldalékolja, és szóösszetételekben is felismeri, egy csapásra eltüntetve a bosszantó piros aláhúzásokat az új szavak minden előfordulásáról a szövegben.

Régi, de jó. A régi magyar helyesírás szeptemberig még érvényes a közoktatásban. A LibreOffice-ból sem tűnik el véglegesen: a Régi helyesírás (AkH. 11.) nevű új felhasználói szótárral bekapcsolható, így a „csodaszép Vietnam” esetében nem jelez hibát a program, még ha ez már „csoda szép Vietnám”-nak írandó is az iskolán kívül. A toldalékoló felhasználói szótár használatát bemutató videó.

Segít a kiejtés! Ha nem ismerjük pontosan egy idegen írásmódú szó helyesírását, írhatjuk most már fonetikusan is, mivel a helyesírás-ellenőrző most már minden szótári szó esetben képes helyes javaslatot tenni.

Korábban gyakoriak voltak a rossz javaslatok:

  • donkihote → tejkihordó
  • elnínyó → elsínyled
  • elnínyót → elsínylett
  • kroaszonokat → croissant-osokat, aszinkronokat, Kroiszoszokat...
  • porsésokat → porsasokét, porsásokat, porsósokat, porsasokat..
  • russzó → tusszó, árusszó, résszó, rumszó
  • russzóig → tusszóig, árusszóig, résszóig, rumszóig, Rusóiig, Russig
  • volter → voltér, voltere, volterő, voltper, volterű voltertől → voltértől, volterétől, volterőtől, voltpertől...

A LibreOffice megújult Hunspell helyesírás-ellenőrzője pontos javaslatokat ad:

  • donkihote → Don Quijote
  • elnínyó → El Niño
  • elnínyót → El Niñót
  • kroaszonokat → croissant-okat
  • porsésokat → porschésokat, Porschésokat
  • russzó → Rousseau
  • russzóig → Rousseau-ig
  • volter → Voltaire
  • voltertől → Voltaire-től

További újdonságok és példák a LibreOffice.hu weboldalon olvashatók.
FSF.hu Alapítvány
Élj szabadon, használj szabad szoftvert!

Hozzászólások

Le a kalappal! Általában is, de most különösen a fonetikus felismerőn ámulok.
______________
"If you immediately know the candlelight is fire, the meal was cooked a long time ago."

Gondolom IPA átírást végez a háttérben és ez alapján tud összepárosítani szavakat. Biztosan nem volt triviális feladat implementálni, de talán annyira nem is fekete mágia, mint amilyennek elsőre tűnik. Most így utólag azért csodálkozok rajta, hogy eddig ez senkinek sem jutott az eszébe. :)

Ráhúzhattak volna valami "AI algoritmus" bullshitet a changelogba, ingyen reklámként hátha lehozta volna pár IT bulvár szaglap hírként, az ilyen parasztvakításra nagyon harapnak mostanság. :)

idén is készítem majd az 1%-os nyilatkozatot, jól hasznosulnak azok az 1%-ok...

Az új javaslatok közt szerepel a "mindezidáig → mind ez idáig"

Felénk jelentés megkülönböztető szerepe van annak, hogy hogyan írjuk és ejtjük.

  • mind ez idáig = az eddig olvastak vagy hallottak; pl. "mind ez idáig szép és jó"
  • mindezidáig = az eddig történtek; pl. "mindezidáig nem érkezett válasz"

Tehát felénk igenis helyes egybe írni. Remélem az LO figyelembe veszi a szerkesztés helyét is, amikor javasol vagy aláhullámoz valamit. De nekem gyanús, hogy ez inkább a helyesírási szótárban egy hiba. Hol van a bugzillájuk?

Az új helyesírási trend, hogy mindent külön írunk, nekem nagyon nem tetszik. Az olvasást (értést) piszkosul zavarja.
Nagyon nem mindegy, hogy egybe írjuk, vagy külön, mert korábban az egybeírt kifejezéseknek önálló jelentésük volt, míg külön írva azt elvesztik és teljesen más az értelmük. :(

Mostanaban figyeltem meg, hogy egyre tobb fiatal ugy gepel, hogy autokorrekciora tamaszkodik.
Azaz leirja a szavak elejet es var...
A baj ezzel az, hogy rendszeresen hibasan gepel, mert az autokorrekcio altalaban jo javaslatot ad.

Tavaly meg azt hittem, hogy csak mobilon van ez igy. De mostmar lattam olyat is, aki billentyuzeten is igy tesz.

Szoval a helyesiras szabalyainal nem kene itt megallni.
Nem csak minden szot kellene kulon irni, ha nem ele le a szavs elej leir ...

---
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

Szubjektív: A baj inkább az, hogy sokan nem is akarnak helyesen írni. Az én helyesírásom is messze van a tökéletestől, így aztán nem sértődöm meg, ha valaki kijavítja a hibáimat. A tapasztalatom az, hogy akik nem is akarnak helyesen írni, általában megsértődnek, és „grammarnácizni” kezdenek, ha valaki jelzi a hibájukat.

Az eddigi fejlesztésekből mennyi érhető el a LibreOffice-n kívül, csak a hunspellre támaszkodva?

-----
„Egy jó kapcsolatban a társunkat az ő dolgában kell támogatni, nem a miénkben.”
rand() a lelke mindennek! :)
Szerinted…

Minden, bár még elég szétszórva:

Hunspell: https://github.com/hunspell/hunspell

Legfrissebb szótárállományok:

https://github.com/LibreOffice/dictionaries/blob/master/hu_HU/hu_HU.aff
https://github.com/LibreOffice/dictionaries/blob/master/hu_HU/hu_HU.dic

Szótárforrás:

https://sourceforge.net/projects/magyarispell/files/Magyar%20Ispell/1.7…

Régi helyesírást tartalmazó helyesírási szótár:

https://github.com/LibreOffice/core/blob/master/extras/source/wordbook/…

(Ez utóbbiban, mivel a Hunspell felhasználói szótárformátuma nem pont egyezik meg a LibreOffice-éval, még a két egyenlőségjelet perjelre kell cserélni, hogy működjön a Hunspell-lel:

hunspell -p hu_AkH11_egy_perjellel_két_egyenlőségjel_helyett.dic -d hu_HU

Tervbe van véve, hogy közvetlenül lehessen használni ezt az állományt átalakítás nélkül is.

Sok olyan új kisebb fejlesztés van egyébként, amelynek még csak most készül a leírása, például a Hunspell most már jobban kezeli parancssorban az OpenDocument állományokat, átugorja a szavakon belüli szerkesztési pontokat. Pl.

hunspell -d hu_HU,en_US -l valami.odt

kiírja a sem magyarnak, sem angolnak fel nem ismert szavakat az ODT dokumentumból.)