( arpi_esp | 2022. 11. 23., sze – 21:43 )

https://huggingface.co/bigscience/bloom

hubaz ez azert kemeny... foleg a vas amin traineltek, es 150x nagyobb az SD-nel a modeljuk. es meg nemetul se tud, nemhogy magyarul...

mondjuk a magyarral az a baj, hogy nem igazan van publikus dataset nlp modellekhez, ami van az nagyon pici. hu wikipedia a 600 megajaval vicc kategoria, CommonCrawl/OSCAR magyar nyelvre lefilterezve deduplikalva is csak 12 giga es a minosege haaat... ha leszedsz kb minden nagyobb magyar hir meg forum oldalt az sincs 50GB es a minosege annak is eleg hullamzo. ezzel szembe csak a reddit sok TB mar.