ahhoz kepest, hogy ez nyelvi modell, nem is rossz. ez nem szamologep!
kb ugy kell elkepzelni, mint egy gyerek akit bezarnak a konyvtarba egy evre, es elolvas minden letezo konyvet, de senki se tanitja meg neki a matekot vagy egyebeket ugy mint az iskolaban. ahogy elkezdi olvasni oket, random sorrendben. eleinte nem igazan ert semmit belole, de ahogy halad egyre jobban kezd osszeallni a kep, kezdi felfedezni az osszefuggeseket. idovel kovetkezteteseket is tud levonni, vagy legalabbis bullshittelni olyan temakrol amirol igazabol fogalma sincs. az NLP modellek pont ezt csinaljak, vegtelen mennyisegu lexikalis tudast tolnak bele, es idovel megtanulja a nyelveket es az osszefuggeseket is belole.
masreszt az NLP dataset-ekben altalaban jelentos mennyisegu politikai szoveg van, foleg EU-s nyelveken, mert az EU minden rizsat kozzetesz az osszes EU orszag nyelven, es ezt nagyon szeretik NLP-re felhasznalni mert ezzel tudja a nyelveket tanulni automatikusan (ugyanaz a szoveg kulonbozo nyelveken). gondolom mellekhataskent megtanulta a politikusi hazudozast es szelkakas-velemenyformalast is belole :)
amikor en magyar word2vec modelt epitettem par eve, probaltam mindenfele jellegu input szoveget osszeszedni hozza:
- wikipedia (sajnos a magyar eleg sovany, kb 900MB nyersen, deduplikalva/szurve 700MB maradt)
- ebook-ok (MEKK stb - itt is vegyes a minoseg, nagyon sok OCR-es, vagy rosszul tordelt volt)
- hiroldalak cikkei (pol, gazd, bulvar, tech stb temakban - sitemap.xml alapjan nem nehez letoltogetni scripttel)
- blogok postjai, commentjei
- nagyobb forumok hozzaszolasai (meglepoen sok GB, de eleg vegyes a minosege, nagyon szurni kellett)
- webrol szedett random szovegek (CommonCrawl/OSCAR dataset magyar nyelvre leszurve)
- europarl dataset (eu parlament szovegekbol a magyar nyelvuek)
ez igy osszesen kb 44GB magyar nyelvu txt lett, nem keves, de igazabol nem is szamit soknak.
igy is 4-6 het egy tanitas, aztan vagy jo lesz vagy nem :)
es ez csak egy word embedding, ami a szavakat leforditja ugy vektorokra, hogy azok reprezentaljak a szavak jelenteset.
a nyelvi modelleknel mindig az inputon mulik minden, egyszerre kell jo minosegu es nagy mennyisegu is belole...