1. sajat magyar nyelvu mini LLaMA modelem (238M): 84.23% pontos, par perc finomhangolas utan (igaz en csak a head layer-t tanitottam, nem az osszes parametert)
1b. a korrektseg jegyeben - mivel a tobbi versenyzo mind BERT-alapu, es ott 512 a blocksize - lefuttattam 512-re korlatozott token szammal is (mivel az en modellem 1024 meretu) - es igy csak 81.9% tudott...
2. bert-base-multilingual-uncased: csak wikipedian tanitott, kb 100 nyelvet ismer. pontossag: 84.56%, kozel 2 ora finomhangolas eredmenye. (eloszor a cased verziot probaltam, de az rosszabbul teljesitett: 82.821%)
3. NYTK/PULI-BERT-Large magyar nyelvu BERT model: 87.13%, eleg jo, igaz ez 4 ora tanitas eredmenye, es a model is eleg nagy.
4. xlm-roberta-base (270M) ez 100 nyelvet ismer, wiki+CC szoveggel tanitottak. ez 83.15% lett, pedig az SPM tokenizer, az oriasi szotar (270k) es a nagy mennyisegu (58GB) magyar tanito szoveg miatt ezt vartam a legjobbnak.
4b. xlm-roberta-large (550M): az elobbi nagytesoja. ez mar 86.21% pontossagu, igaz 4 oran at tanult a puli-hoz hasonloan.
5. distilbert-base-multilingual-cased: pici, gyors model, de csak 80.6%
6. xlm-mlm-100-1280: 100 nyelvul model, Moses tokenizerrel, 85.42%, szinten 4 oras tanitas volt
- arpi_esp blogja
- A hozzászóláshoz be kell jelentkezni
- 741 megtekintés
Hozzászólások
mar nem vagyunk messze a irl babelfishtol:)
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....
- A hozzászóláshoz be kell jelentkezni
Ezek embedding modellek, a bemeno szovegbol egy vektort (384...768 dim) adnak vissza, ami reprezentalja a szoveget a terben. 2 hasonlo szoveg vektorja kozelebb van egymashoz (cosinus-distance).
Ugyanazt csinaltam veluk, mint az en LLAMA modellemmel, csak a head layert tanitottam osztalyozasra, az eredmenyek:
78.8% sentence-transformers/paraphrase-multilingual-mpnet-base-v2
76.8% sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
75.9% sentence-transformers/distiluse-base-multilingual-cased-v2
ahhoz kepest, hogy ezeket direkt erre traineltek, eleg siralmas az eredmeny. talan azzal magyarazhato, hogy keves lehetett a magyar nyelvu tanito mintajuk, es hogy ezek csak 128 blocksize-al dolgoznak, tehat csak a szoveg legelejet vettek figyelembe. mondjuk ki lehetne probalni olyat, hogy a szoveget felosztani 4x128 tokenre, es ezekre kulon lefuttatva az eredmenyeket atlagolni (pooling) vagy osszefuzni es igy egy nagyobb dimenzioju embeddinget kapunk...
- A hozzászóláshoz be kell jelentkezni