Magyar nyelvű szöveg feldolgozása neurális hálóval, optimális framework

Fórumok

Magyar nyelvű text szövegek feldolgozásához milyen nyílt forráskódú frameworköt érdemes használni? 

Talán már nem kell nulláról kezdeni a fejlesztést 2022-ben.

Hozzászólások

Mi a cél a feldolgozáskor?

10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.

fw leginkabb tensorflow/keras... de a modelt neked kell osszeraknod, bar nem tul nehez, CNN+maxpool vagy LSTM halo, esetleg ezek kombinacioja. arxiv-on eleg sok pdf van NN szoveg elemzesrol kulonbozo megkozelitesben.

de a neheze ugyis a szovegbol szamokka (numpy array) "konvertalas" lesz, ehhez celszeru a word2vec vagy valami hasonlo word embedding model, de sajnos magyar nyelvre nem nagyon elerhetok ilyenek, csak wikipedias es facebookos talan, de a keves minta miatt azok nem tul jok. en rengeteg idot toltottem sajat w2v model tanitassal a spamszurohoz, azt szivesen odaadom, de nem biztos hogy megfelelo ahhoz amire neked kell. a magyar nyelv kulonosen nehez a ragozasok es az ekezetek miatt.

Léteznek olyan (akár open source) chatbot-ok melyekben van NLP. Én azokat kezdeném nézegetni.

Szerkesztve: 2022. 03. 28., h – 17:24

Nem vagyok teljesen topon NLP vonalon, de en BERT kornyeken neznek korul. A https://hlt.bme.hu/hu/resources/hubert eleg jol mukodott nekem magyar szoveg kalszifikaciora. Talan hasznalhato valahogy chatbot-ra is, de nem vagyok benne biztos.   

itt is van egy pelda chatbotra:

https://towardsdatascience.com/how-to-build-your-own-chatbot-using-deep…

de ebben is azt neztem hogy nagyon keves a minta, ahhoz hogy jol mukodjon, sok 100 de inkabb 1000 patternt fel kell vinni kezzel.

amugy a text classification szerintem eleg messze van a chatbottol, nagyon mas megkozelites...