Ötletek foglalkozás nevek modellezésére

A logokat elemezve azt látom, hogy viszonylag sok olyan oldalt dobok el, amelyek állások, de a rendszer nem talál benne hihető foglalkozás nevet.

Ennek sokszor az az oka, hogy tényleg nincs is, de lehet hogy a megközelítésem hibás. Már azon is gondolkodtam, hogy esetleg nem kéne foglalkozásnevet keresni, ugyanakkor az egy fontos kereső kritérium, a kivont tartalom meghatározó, kiemelt eleme hogy milyen foglalkozásra írták ki az állást.

A mostani modellben van a foglalkozás fő megnevezése, tehát például az hogy fejlesztő. Ehhez a fő megnevezéshez társulhatnak minősítő jelzők (qualifier), tehát pl az hogy jáva, php, c# etc.

Ezt bonyolítja, hogy létezik 'általános alkalmazott' is, olyan kifejezés, ami semmit nem mond arról hogy mit csinál az illető, de arra utal hogy ez egy állás, és a pozíciót igazából a minősítő írja le.

Ilyen lehet pl az hogy 'munkatárs', 'kolléga', 'dolgozó'. Pl a Tescónál létezik egy olyan foglalkozás hogy 'Hátsó területet működtető munkatárs'. Ezzel sikerült a raktáros foglamát körülírniuk.

Ugyanebbe a körbe tartozik a képzettségi szint, amit sok megfogalmazásban egy ilyen általános pozíció megnevezésre használnak, pl cleaning expert. Ez a takarító akar lenni, multisan átköltve, de a foglalkozás megnevezés modelljére nézve a lényeg hogy az 'expert' írja le hogy ez egy állás akar lenni, a 'cleaning' a minősítő elem, aminek jelentése is van. Az 'expert'-ből kiindulva feltételezhetjük hogy nem kezdőt keresnek.

Ennél például zavarosabb amikor 'gyarkornok it területre' a megfogalmazás. Azt hogy 'gyakornok' önmagában nem tekinthetem állásnak, mivel az nem egy szakma, semmit nem mond arról hogy mit kell csinálni, az 'it' minősítő ami jelent valamit.

Az egyik új változtatásom az volt, hogy egy minősítő helyett, minősítők listáját építem fel, és most már mindkét irányba. Az utolsó példa esetében pl a minősítő jelző nem a pozíció megnevezése előtt, hanem mögötte állt, és ebből is lehet több is.

Az algoritmus ilyenkor addig addig megy előre, vagy hátra, amíg minősítőként már egyszer elfogadott szót talál. (A ragozott alakokat kezeli, és visszafejti a szótőre)

A probléma egyik fele az, hogy mindig új minősítők lehetősége bukkan fel, gyakorlatilag bármilyen szóból képesek az állásajánlatok fogalmazói minősítőt csinálni.

A másik fele, hogy a rendszer per pillanat nem kapcsol össze konkrét pozíció megnevezéseket konkrét, lehetséges minősítőkkel. Bármilyen minősítőt összekapcsolhat bármilyen állásnévvel, olyannal is ami a valóságban azért nem fordul elő, vagy nem ebben a jelentésben. Akármilyen modell eddig eszembe jutott ennek a leképezésére, azt rendre túl költséges lett volna feltölteni, ezért visszariadtam tőle.

Hozzászólások

Neked egy spam szűrő kellene, csak nem spam-re hanem álláshirdetésre tanítva. Pontosabban asszem Bayes analízisnek hívják és szógyakoriság és szövegkörnyezet alapján szűr, de javítsanak ki az okosabbak.

Persze azért tanítgatni kell folyamatosan, de akkor is ez lenne a módja.

http://www.kozvetlen-allasok.hu/search.jsp?allasok=gyakornok+operat%C3%…

ez pl egy olyan keresés, amire 1db találat van, egy audis állás. Abban a foglalkozásnév eltér attól amit a robotom kiszedett, mert mögötte áll az is hogy 'logisztika'.

Gyakornok - operatív logisztika

A 'logisztika' nem számít állás minősítőnek, csak az hogy 'logisztikai', ezért az lemaradt róla.

alapvetően az a problémám, hogy milyen módon írhatóak le általánosan a foglalkozásnevek, illetve ezt hogyan tudom hatékonyan tárolni, és feltölteni

az pl nagyon jó lenne, ha a rendszer tanulni is tudna magától foglalkozásneveket

ai-val egy előre ismert fix listából lehetne classification-el felismertetni
ennek lehetne olyan tulajdonsága is, hogy a foglalkozás nem is kell hogy szerepeljen a szövegben, a körülírásból is kitalálja, ha elég mintát tudok neki adni