Keresés nyelvi elemzéssel

Az egyik hobbi projektem mostanában egy Facebook Graph Search-höz hasonló,
természetes nyelvi elemzéssel megtámogatott kereső, ennek a felépítéséről írtam most egy
bejegyzést. A bejegyzésben bemutatom a kapcsolódó nyelvtani alapokat, hogyan oldottam meg
a szavak/entitások felismerését, illetve hogyan végzem el a keresőkifejezés megfeleltetését
a különböző szószerkezeteknek. Remélem hasznos a téma iránt érdeklődőknek.

Részletek a link után:

Keresés nyelvi elemzéssel

Hozzászólások

NLP-hez érdemes használni egyrészt szótövesítést (magyar szótövesítő algoritmus, angol nyelvhez a Porter stemmer a legismertebb), valamint a Stanford egyetemnek van jó pár open-source NLP eszköze, neked például a POS tagger lehet hasznos, megmondja a szavakról, hogy milyen szófajuk van (főnév/ige/melléknév stb). Tulajdonnevek felismerésére ott a Stanford Named Entity Recognizer.

A legtöbb angol nyelvű eredetileg, de taníthatóak magyar szövegek felismerésére is.

Linkek:
http://snowball.tartarus.org/algorithms/hungarian/stemmer.html
http://tartarus.org/martin/PorterStemmer/
http://nlp.stanford.edu/software/
http://nlp.stanford.edu/software/tagger.shtml
http://nlp.stanford.edu/software/CRF-NER.shtml

"NLP-hez érdemes használni egyrészt szótövesítést (magyar szótövesítő algoritmus, angol nyelvhez a Porter stemmer a legismertebb)"

Használok szótövezőt, csak nem itt, itt a teljes szóra van szükségem, ragozott formában. A szavak szófajára sincs itt túlságosan szükség, illetve a named entity-k feloldása is meg van oldva, de köszi a linkeket, átolvasom őket! :)

Universal Dependendy leírók magyar nyelvhez: http://universaldependencies.github.io/docs/index.html#language-hu
Itt érdemes mindent átolvasni, a Stanford parser is ezt a leírónyelvet használja (gyakorlatilag ők találták ki, egyesítették a Google-lel a kutatási eredményeiket).

Szerk: magyar nyelvhez NLP: http://rgai.inf.u-szeged.hu/dependency?lang=en&page=nlp_download

subsub

[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS