Text classification kierlet LLM-el magyarul...

Kivancsi voltam, hogy a nemreg epitett sajat magyar nyelvu LM (LLM-nek azert nem neveznem, ahhoz kicsi) modelem hogy teljesit szovegertesi (osztalyozasi) feladatokban.

Tobb kiserlet utan vegul osszeraktam egy olyan datasetet, ami 100k ujsagcikket (+10k validation set) tartalmaz 10 kategoriaban (politika, sport, tudomany, gazdasag, kultura stb) cimkezve. Ezt viszonylag egyszeru volt eloallitani, mivel a hirportalok is besoroljak kategoriakba ezeket, bar vannak atfedesek, amikor tobb kategoriaba is beleillik valami, de pont ettol lesz erdekes:

1. sajat magyar nyelvu mini LLaMA modelem (238M):  84.23% pontos, par perc finomhangolas utan (igaz en csak a head layer-t tanitottam, nem az osszes parametert)

1b. a korrektseg jegyeben - mivel a tobbi versenyzo mind BERT-alapu, es ott 512 a blocksize - lefuttattam 512-re korlatozott token szammal is (mivel az en modellem 1024 meretu) - es igy csak 81.9% tudott...

2. bert-base-multilingual-uncased:  csak wikipedian tanitott, kb 100 nyelvet ismer. pontossag: 84.56%, kozel 2 ora finomhangolas eredmenye. (eloszor a cased verziot probaltam, de az rosszabbul teljesitett: 82.821%)

3. NYTK/PULI-BERT-Large magyar nyelvu BERT model:  87.13%, eleg jo, igaz ez 4 ora tanitas eredmenye, es a model is eleg nagy.

4. xlm-roberta-base (270M) ez 100 nyelvet ismer, wiki+CC szoveggel tanitottak. ez 83.15% lett, pedig az SPM tokenizer, az oriasi szotar (270k) es a nagy mennyisegu (58GB) magyar tanito szoveg miatt ezt vartam a legjobbnak.

4b. xlm-roberta-large (550M): az elobbi nagytesoja. ez mar 86.21% pontossagu, igaz 4 oran at tanult a puli-hoz hasonloan.

5. distilbert-base-multilingual-cased:  pici, gyors model, de csak 80.6%

6. xlm-mlm-100-1280: 100 nyelvul model, Moses tokenizerrel, 85.42%, szinten 4 oras tanitas volt

Multilingual models for inference

Hozzászólások

mar nem vagyunk messze a irl babelfishtol:)

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

Szerkesztve: 2023. 05. 22., h – 13:22

Sentence-transformers:

Ezek embedding modellek, a bemeno szovegbol egy vektort (384...768 dim) adnak vissza, ami reprezentalja a szoveget a terben. 2 hasonlo szoveg vektorja kozelebb van egymashoz (cosinus-distance).

Ugyanazt csinaltam veluk, mint az en LLAMA modellemmel, csak a head layert tanitottam osztalyozasra, az eredmenyek:

78.8% sentence-transformers/paraphrase-multilingual-mpnet-base-v2
76.8% sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
75.9% sentence-transformers/distiluse-base-multilingual-cased-v2

ahhoz kepest, hogy ezeket direkt erre traineltek, eleg siralmas az eredmeny. talan azzal magyarazhato, hogy keves lehetett a magyar nyelvu tanito mintajuk, es hogy ezek csak 128 blocksize-al dolgoznak, tehat csak a szoveg legelejet vettek figyelembe. mondjuk ki lehetne probalni olyat, hogy a szoveget felosztani 4x128 tokenre, es ezekre kulon lefuttatva az eredmenyeket atlagolni (pooling) vagy osszefuzni es igy egy nagyobb dimenzioju embeddinget kapunk...