Ragozó program

Üdv!

Van-e olyan program, és ha igen, akkor melyik, amelyik képes a magyar nyelv szerinti ragozásra? Azaz ha megadott egy szót, akkor a kért raggal ellátja, pl. alma + tárgyrag = almát; alma +banben = almában.

Ha a programhoz lenne parancssoros felület, a legjobb lenne, de ha csak lib van, ahhoz talán tudok parancssoros felületet eszkábálni (ha más nem, valami AI segítségével, ha túl ismeretlen és nehéz a nyelv).

Köszönöm!

1475 megtekintés

Hunspell + unmunch? Mondjuk hirtelen nem látom hogy lehetne megadott ragozást kérni tőle, de ha tényleg nincs ilyen talán egyszerűbb is elindulni egy már meglévő lib alapján. (Egy 2023-as cikk alapján lehet, hogy ma már tényleg egy AI modell a jó megoldás erre.)

[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hunspell + unmunch?

Hogyan kellene? Nem használtam még ezeket (legalábbis közvetlenül nem).

AI modell a jó megoldás erre

Erre nem is gondoltam, ha más nem, jó lehet egynek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én sem használtam, a hunspell-tools csomag tartalmának kellene lennie, de kicsit utánanéztem és nem tűnik paraméterezhetőnek. Szűrni az általa dobott listát mondjuk grep-pel meg nem tűnik egy túl megbízható útnak. A cikkben említett modell elméletileg paraméterezhető adott ragra amire szükség van.

[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS

0 szavazat

A hozzászóláshoz be kell jelentkezni

Németh Lacit kéne megkérdezni. Hátha a hunspell valamelyik nem annyira ismert segédeszköze pont tudja (szerintem a fotdítottja biztosan van az elérhetőek között).

tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?

1 szavazat

A hozzászóláshoz be kell jelentkezni

Olyat már tudtam produkálni, hogy a megadott (ragozott) szót elemzi.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Huptárs oroszgy -nek van egy NLP-je (HuSpaCy*:https://github.com/huspacy/huspacy). A hup fiókját néztem, nem ír aktívan, talán read only módban még szokott erre járni. Régen próbaképpen teszteltem, visszafele jól működött (vagyis ragozott alakot ragtalanná alakítottam vele). Nem tudom, a másik irány ami neked kell, működik vagy sem, de nála szerintem érdeklődhetsz

// Happy debugging, suckers
#define true (rand() > 10)

2 szavazat

A hozzászóláshoz be kell jelentkezni

Köszi, megnézem!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem, nincs ilyen program. Akkor lesz, ha írsz egyet magadnak.

Fordítottja létezik, egy ragozott szót felbont alapszóra, és ragokra, de az is sokszor hibázik, pl. hunspell.

“The world runs on Excel spreadsheets.” (Dylan Beattie)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mi az a usecase, amihez szükséges ez a funkcionalitás?

1 szavazat

A hozzászóláshoz be kell jelentkezni

Moodle-ba generálok feladatsorokat (matek, fizika; ugyanaz a feladat, csak más számokkal), a körítő szövegben a neveket, tárgyakat, stb. véletlenszerűen választom ki. A feladat szövegében ezek sokszor ragozva kellenek.

Eddig kétféle módszert használtam ennek megoldására: a főnévvel együtt tárolom azt a ragozott alakot is, amelyik a feladat szövegében kell; másik megoldás, hogy figyelek arra, hogy az összes főnévhez ugyanaz a rag passzoljon, és a feladat szövegében ezt illesztem hozzá.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Okés, csinálhatok hozzá cli-t, node-ban is lehet futtatni. Stay tuned.

Tegnapra kéne?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ah, az nagy királyság lenne :)

Nem, nem sürgős, eddig működött a "módszerem", meg lassan tanév vége is...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Na, megvan, megcsináltam: https://github.com/violapeter/crumb
Nagyon kíváncsi vagyok a visszajelzésedre!

A release-ek között le tudsz tölteni standalone futtatható állományt is.

4 szavazat

A hozzászóláshoz be kell jelentkezni

csak a readme-t néztem, szép munka! :) Ment is a star

// Happy debugging, suckers
#define true (rand() > 10)

0 szavazat

A hozzászóláshoz be kell jelentkezni

csak ennek a rengeteg nyelvtani dolognak az angol megfelelojet kikeresni onmagaban egy nagyobb munka.

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat

A hozzászóláshoz be kell jelentkezni

Létrehozol magyar elnevezésű függvényeket, amelyek meghívják az angol megfelelőt :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Neked nem volt véletlenül közöd az excelhez? :))

Debian - The "What?!" starts not!
http://nyizsa.blogspot.com

0 szavazat

A hozzászóláshoz be kell jelentkezni

A DARABTELI-re esküszöm, nemmel szavaztam.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Huhh, tényleg jónak tűnik a leírás alapján. Még a héten megpróbálom. Köszi!

1 szavazat

A hozzászóláshoz be kell jelentkezni

Én dolgozom egy ilyen programon. Egészen jól működik, csak JS-ben van.

Jelenleg privát repóban van, de ha érdekel a dolog, akkor megosztom, illetve lassan publikálhatnám is, végülis hátha lesz belőle valami.

De tényleg tudni kéne a use case-t, mert lehet, hogy nem a legmegfelelőbb.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ha már kérdezted a use case-t: neked mire kellett?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hosszú sztori.

Anno az ingatlan.com-nál voltam vezető frontend fejlesztő. Ott volt egy olyanunk, hogy minden városra volt egy SEO oldal, ami kiírta, hogy "Eladó lakást keresel Szegeden?", vagy ilyesmit. Na ezek a ragozott városnevek nálunk is DB-ben voltak tárolva.

Azon tűnődtem anno, hogy ezt egész biztosan meg lehet oldani csak kliens oldalon. Elvégre 3155 stringről beszélünk, amiknek a ragzozása javarészt hasonló elven történik. Belemásztam a dologba elég mélyen és lepároltam pár nyelvtan-elméleti doktori értekezést és le tudtam szűkíteni a kivételeket néhány tucatra, amik be vannak égetve a kódba. Ebből született a GeoFlector.

Ahogy tesztelgettem azt vettem észre, hogy a többi szót is ~60% pontossággal ragozza ezért elhatároztam, hogy megpróbálom felhúzni ezt amennyire lehet.

Most éppen szöveget próbálok hozzá bányászni, hogy nagy mennyiségű tesztadaton meg tudjam határozni a pontosságát, mert azért vannak benne elég rendesen bénaságok. Ezekért előre is bocsi.

És nagyon feldobta a kedvemet, hogy valakinek hasznos tud lenni!

1 szavazat

A hozzászóláshoz be kell jelentkezni

Tehát a GeoFlector után már csak a kihívás miatt?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Tulajdonképpen már a GeoFlector is. :D Azt hiszem nem használják az icomnál.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A kód kipróbálása gyanánt én is elkezdtem gondolkodni, hogyan lehetne egy korpuszra ráereszteni. Ha jól vizsgázik mindenképpen portolnám php-ra, pl a szótagolás része kifejezetten érdekel.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Az egyik szótárban oylan 14 ezer sorra rá tudnám engedni ellenőrzésképpen. Nem mindegyik alakra:
pl. abakusz [~t, ~a, ~ok]

Ezzel tudnám összevetni.

Kár, hogy hiányzik az "abakusza" alak (Birtokos alak harmadik személyű egyes számban).

0 szavazat

A hozzászóláshoz be kell jelentkezni

Este Claude haverommal írtam egy szkriptet, ami egy analizált korpuszból kigyűjti a megfelelő formátumban a szavakat, még tisztogatom, de csinálok hozzá teszteket.

Sajnos a szótagolás is kicsit móricka:

getSyllables("rendőrség")                           // ["ren", "dőr", "ség"]
getSyllables("rendőrség", { stopWords: ["rend"] })  // ["rend", "őr", "ség"]

Ehhez nem volt jobb ötletem.

De majd mondom, hogy mire jutok, ha már van értelmezhető adat!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Gondolom, egy szó összetett mivoltának a tesztelése sok idő.

0 szavazat

A hozzászóláshoz be kell jelentkezni

arpi_esp-nek nincs valami ötlete? Ő a spames ai cuccai miatt szerintem elég jó magyar korpuszt hordott össze.

0 szavazat

A hozzászóláshoz be kell jelentkezni

lattam fentebb, gondolkoztam is rajta, de nekem ugye ertelmes magyar szovegbol van kb 100GB-nyi (ebbol ugy 10-15GB eleg tiszta, amik foleg konyvek/ujsagcikkek), de abban ragozva vannak a szavak, ehhez meg szotovek kellenenek ha jol ertem? ha megis ez kell akkor odaadom szivesen vagy lefuttatom nalam i9-en amit kell, esetleg meg ssh-t is adhatok a gephez.

de kezdetnek akar a kozel 1 gigas HU wikipedia is megteszi, nem?

https://dumps.wikimedia.org/huwiki/latest/huwiki-latest-pages-articles…

https://attardi.github.io/wikiextractor/

vagy ez meg jobb, csak ezt nem lehet uzleti celra hasznalni:

https://clara.nytud.hu/mnsz2-dev/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ide is írom, hogy köszi a visszajelzéseket, máris kiment a 2.0.0, volt egy hiba.

https://github.com/violapeter/crumb
https://www.npmjs.com/package/crumbjs

2 szavazat

A hozzászóláshoz be kell jelentkezni

Hát vannak gondok. Ráengedtem 74 ezer sorra. Ebből visszafelé elkezdtem nézni:
Eredeti szó: zsúrterítő
Tárgyeset: zsúrterítövet
Többes szám: zsúrterítövek
---------------------
Eredeti szó: Zsuzsa
Tárgyeset: Zsuzsát
Többes szám: Zsuzsak
---------------------
Eredeti szó: Zsuzsanna
Tárgyeset: Zsuzsannát
Többes szám: Zsuzsannak

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

Azt hittem, Magyar Péterre… 2025-06-01T01:04:39+0200
Az ilyesfajta kérdéseidet… 2025-06-01T01:03:24+0200
Örömmel látom, hogy… 2025-06-01T00:52:55+0200
Nem, simán a <head>-ben lévő… 2025-05-31T23:42:54+0200
Ok, marha drága. 2025-05-31T23:09:22+0200
Ne terheld meg magad ezzel,… 2025-05-31T22:41:37+0200
Veletlenul egyszer rosszat… 2025-05-31T22:19:44+0200
Haverod meg csődbe vitte… 2025-05-31T22:15:52+0200
Hidd el, az se lett volna jó… 2025-05-31T22:04:24+0200
nem, van aki azt allitja,… 2025-05-31T21:46:45+0200

Ragozó program

Hozzászólások