Belekezdtem a régóta halogatott projectembe - a Cursor AI Code Editor segítségével

Gondolom sokan tudjátok, hogy szeretek a szavak etimológiájával foglalkozni. Ez egy (számomra) érdekes elfoglaltság, és remélem, hogy talán egy picit sikerül előremozdítanom ezt a területet. Eddig a szavak eredetét a wiktionary.org-on kutattam, és elég jól használható, de egy valami nagyon hiányzik.

A vizualizáció.

A szavak eredete tökéletes, ha az ember gráfokkal akar foglalkozni.

És én szeretem nem csak a szavak eredetét, hanem a gráfokat is.

De ebben a postban nem erről, hanem az AI-segített programozásról szeretnék inkább írni.

Hevi blogja
A hozzászóláshoz be kell jelentkezni
593 megtekintés

Egy dolog eléggé zavaró mondjuk.

Ha Claude-dal dolgozok, akkor a web-es felületen lehetőség van Projecteket létrehozni, hogy a chat-ek együtt legyenek a kontextus miatt (embernek és AI-nak is), fel lehet tölteni dokumentumokat, stb.

Viszont Cursor-ral használva a Claude API sajnos nem tud ezekről, szóval egyelőre manuálisan szinkronban kell majd valahogy tartani őket.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Update: úgy látszik, hogy a bug megoldásra került:

I get errors which say:

Unexpected error on line 2: Error binding parameter 1 - probably unsupported type. Unexpected error on line 3: 'list' object has no attribute 'get' Unexpected error on line 4: 'list' object has no attribute 'get' Unexpected error on line 5: Error binding parameter 1 - probably unsupported type. Unexpected error on line 6: 'list' object has no attribute 'get'

-----

is it because of some bug in the code, or do we need to analyse the JSON structure a bit more?

>>>>>>

I apologize for the oversight. These errors suggest that the JSON structure in your file is different from what we initially assumed. It appears that some lines contain lists instead of dictionaries, which is causing the errors. Let's analyze the JSON structure more closely and update our code accordingly.

First, let's modify our script to print out the problematic JSON lines so we can see what we're dealing with. Here's an updated version of the process_jsonl function:

...

Mivel ehhez a kérdéshez a Claude webUI-t használtam, ezért be kellett másolnom az updatelt process_jsonl függvényt. Ez Cursor-ral használva nem szükséges, helyben módosítja a kódot.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha már etimológia, nekem most esett le, amikor előkerült a "Numa-numa jéj" retro zene, hogy a román "hajduk", mint törvényen kívüli/utonálló jöhetett a magyar hajdú elnevezés.

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az etimológiai szótár szerint pont fordított a terjedés iránya, a magyarból terjedt szét Európa számos nyelvébe.

"Normális ember már nem kommentel sehol." (c) Poli

1 szavazat

A hozzászóláshoz be kell jelentkezni

en magyarul a Hajdút max. bojlerral asszocialtam, ertsd nem gondoltam mögé jelentést.

Egy gyors interju a kornyezetemben, és mas se tudta a jelentését .

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat

A hozzászóláshoz be kell jelentkezni

Talán oda kellett volna figyelni történelem órán. Vagy egyáltalán bemenni.

"Normális ember már nem kommentel sehol." (c) Poli

4 szavazat

A hozzászóláshoz be kell jelentkezni

TL;DR marhákat tereltek ezek a derék emberek, vagyis hajtók voltak eredetileg.

[Már ne sima pásztorokra gondoljunk, hanem olyanokra, akik többszáz kilométeren át terelték a gulyákat hogy jó áron adhassák el a jószágot, közben esetleg rablókkal is találkozhattak, szóval lehetett harci szakértelmük is.]

2 szavazat

A hozzászóláshoz be kell jelentkezni

A Czuczor-Fogarasi szótár szóbokrokat lát a magyar nyelvben. Azaz a szavaknak van egy szinte egy szótagos töve, amiből jelentéshalmazok származnak.
Persze bezavar egy csomó az elmúlt néhány száz évben jött / nyelvújításkor keletkezett szó. Bár pl. a vonat is beleillik ebbe a képbe, hiába később keletkezett: von szótő, vonó, vontat, vontatott, vonakodás, vonaglás, vonalzó, vonás, vonszol, vonz, vonzó ...

Nem tudom mennyire igaz, vagy csak véletlen egybeesések, de érdemes lehet ebbe az irányba is vizsgálódni.

1 szavazat

A hozzászóláshoz be kell jelentkezni

CzF-et is érdemes lenne feldolgozni, és talán már a szerzői jog is lejárt rajta, szóval jogilag nem lenne probléma vele, de sajnos ahhoz nincs olyan dataset, mint ami a wiktionary-hoz elérhető. Így meg baromi sok idő lenne parse-olni a dokumentumot, aztán osztályozni az adatokat, minőségellenőrzés stb.

Egyszer, ha lesz rá időm, akkor valószínüleg megcsinálom majd, de egyelőre legyen egy működő megoldás, extra adatokat ráérünk később is hozzáadni :)

Amúgy az elmúlt 2 és fél napban (a kezdetektől, csak egy 11Gb-os JSONL file-ból kiindulva) eljutottam odáig, hogy az adatok SQLite adatbázisba vannak töltve, és tudok szavakra keresni, a query meg visszaadja az etimológiáját. Egyelőre egy Python scriptet használok erre, az appot még nem kezdtem el. Generáltattam az AI-val adatbázis diagramot, README-t, ilyen-olyan scripteket.

Brutál, hogy mennyire meggyorsítja az LLM a fejlesztést.

És nem is feltétlenül a kódgenerálás gyorsasága a fontos, hanem az, hogy mentálisan nem terhelődök le az "ezt kéne csinálni, valami nem jó, debugoljunk, na mostmár jó, hol is tartottam??" folyamat által. Sokkal egyszerűbb diff-eket értelmezni, mint állandóan context-switch-csel, random programnyelveken íródott kódbázisokban bug-ot vadászni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez a probléma a Czuczorral:

(...)

Minthogy a szék szó önhangzója hosszú, bizonyossággal állíthatjuk, hogy az két önhangzóból húzatott egybe sze-ek vagy sza-ek, és így a gyök sze vagy sza azonos azon sza gyökkel, mely száll szónak is elemét alkotja. Innen székeredeti értelme szállás, megszállás, a hol megszállunk, megülepedünk, megtelepedünk. De ugyancsak eredeti értelménél fogva jelent emelkedést (felszállást), emelkedett helyet is. Idegen nyelvekben egyezik vele közelebbről a török szeki (lieu un peu élevé pour s’ asseoir; banc, estrade), persa szaku v. szóku (sedile seu scumnum), mongol szago-khu (s’ asseoir, demeurer), honnan: szaghodal v. szagholta v. szaghori (siège, demeure, domicile), továbbá szintén a mongol szeöke (chaise à porteurs, Sänfte), arab szeken (szék, székhely, domicil, habitation); távolabbról a latin: sca-mnum és török iszkemle törzse. Különösen a latin scamnum-ot a nyelvészek scando (= hágok, fel- vagy leszállok) igéből származtatják. De egyezik vele gyökben a latin sedes, sedeo, sella, solium, német sitzen, Sessel, szláv szedim, szedlo, szelo, franczia seoir, asseoir, siége stb. is.

link

Ezt kéne valahogy értelmesen parse-olni.

Ezzel szemben a wiktionary JSONL ilyen JSON objectekkel rendelkezik (AI-jal generálva):

https://imgur.com/a/4dH7Yfa

A mandatory-common-optional osztályozást is egy LLM végezte, miután adtam neki vagy 10 JSON objectet teszt példaként.

1 szavazat