*extraktor
Erről kicsit bővebb magyarázat. A program eredetileg a nutch módosításával jött létre, az pedig egy teljes értékű keresőprogram/crawler. A tevékenységének a zöme az hogy a feldolgozott oldalakról a továbblépéshez linkeket gyűjt, ezeket osztályozza, a megismert tartalomhoz tartozó parsert használva ebből indexelhető szöveget állít elő. Az én módosításom a linkek kiértékelését, az állások eldöntését, meg a specifikus mezők kivonását csinálja, ez néhány plugin az eredeti nutch fölött.
Az extraktorokat viszont én írom nulláról jávában, szimpla jávás http metódusokat használ az oldalak tartalmának a letöltésére, és a kapott html szöveget elemezi. Ezek a nutch-al ellentétben általában post method-al meghívott kereséseket indítanak el a céloldalon, és a kapott találati listából veszi ki az adott cég konkrét állásajánlatainak az urljét. Ezeket az url-eket aztán összegyűjtve továbbadja az eredeti nutch motornak, és az dolgozza fel.
Olyan extraktor is van a repertoárban, ami Seleniumot használ, és egy firefox példányt futtat meg, ami a céloldalon lefuttatja a javascripteket is, és úgy jut el egy olyan oldalig, ahonnan már kivehetőek a feldolgozható url-ek, vagy legalább az url felépítéséhez az állás azonosítója. (Ez konkrétan az otp oldalát dolgozza fel, mivel ők egy agyonbonyolított karrier oldalt hoztak össze)
Amit most leginkább kéne csinálnom, hogy az egyes állásajánlatok megnevezését javítani. Az oldalon van egy statisztika arról hogy milyen foglalkozásból hányat talált, ezen rögtön levehető hogy kusza és zavaros az egész. Az egyik reláció hogy az oldalon belül pontosabban hogyan lőhető körbe az állásajánlat megnevezése, és ez milyen komponensekből áll.
Pl. a "fejlesztő" a foglalkozás megnevezése, amihez társulhatnak jelzők, és az lehet "gyógypedagógiai" és "jáva" is, teljesen eltérő jelentéssel. Ugyanígy zavar forrása egy sor szinonima, pl. a fejlesztő és a programozó majdnem ugyanazt jelenti, de a program nem fog a fejlesztő kulcsszóra programozót kidobni. Ezeket a nyelvi sajátosságokat valahogy le kéne modelleznem, de még nem jutott eszembe értelmes megoldás.
Hasonlóan problémás az állások helye, itt a fő probléma, hogy ugyanazért a hely mezőért versenyez az ország, megye, város megnevezése is. Ezt is egy hierarchiába kéne szervezni, és három külön mezőbe eltárolni.
- padisah blogja
- A hozzászóláshoz be kell jelentkezni
- 1058 megtekintés
Hozzászólások
A hely eseteben talan segitseg lehet a most mar mindenfele szaporodo orszag/varos adatbazisok. Ez segithet pontositani a keresest, esetleg keresre szelesiteni/szukiteni azt.
--
Blog | @hron84
Üzemeltető macik
- A hozzászóláshoz be kell jelentkezni
ezt meg is csináltam, most legalább az ország-megye eltűnt a városok közül, de ez még nem jó,
egyrészt nem lehet ország alapján keresni, másrészt a kulcsszavakat általánosan keresi, és pl Üllői úton van valami, akkor beírja hogy a település Üllő
valahogy ki kéne zárni ami közterületet leíró szó után áll
- A hozzászóláshoz be kell jelentkezni
Regexppel talan a legegyszerubb:
"?(\w+) (út|utca|tér|körút|fasor|körtér|udvar) \d+"
A listat bovitsd ki az abevjava-ban talahato kozterulet elnevezes lista elemeivel, most fejbol ennyi jutott eszembe, de van vagy harminc.
--
Blog | @hron84
Üzemeltető macik
- A hozzászóláshoz be kell jelentkezni
köszi!
- A hozzászóláshoz be kell jelentkezni