Közvetlen állások: 2015

Közvetlen állások

Néhány változás az elmúlt majdnem fél év során...

  • a css/html úgy változott hogy a mobilos használhatóság javult
  • új extraktorokat* csináltam, pl Aldi,Audi,Roche,Vodafone
  • a Vodafone-os extraktor egyúttal egy kísérleti cucc, mert a vodafone taleo-s aloldalán elérhető (és bugos) rss feederből állítja elő az index tartalmát. Ez nem megy keresztül a keresőprogram egészén, teljesen külön ágon, a folyamat végén kerül bele a lucene indexbe.
  • fixáltam egy bugot, ami a város mezőbe kerülő space-ek hatására csinált http 500-as hibát
  • nyitás külföldi pozíciók felé

*extraktor
Erről kicsit bővebb magyarázat. A program eredetileg a nutch módosításával jött létre, az pedig egy teljes értékű keresőprogram/crawler. A tevékenységének a zöme az hogy a feldolgozott oldalakról a továbblépéshez linkeket gyűjt, ezeket osztályozza, a megismert tartalomhoz tartozó parsert használva ebből indexelhető szöveget állít elő. Az én módosításom a linkek kiértékelését, az állások eldöntését, meg a specifikus mezők kivonását csinálja, ez néhány plugin az eredeti nutch fölött.

Az extraktorokat viszont én írom nulláról jávában, szimpla jávás http metódusokat használ az oldalak tartalmának a letöltésére, és a kapott html szöveget elemezi. Ezek a nutch-al ellentétben általában post method-al meghívott kereséseket indítanak el a céloldalon, és a kapott találati listából veszi ki az adott cég konkrét állásajánlatainak az urljét. Ezeket az url-eket aztán összegyűjtve továbbadja az eredeti nutch motornak, és az dolgozza fel.

Olyan extraktor is van a repertoárban, ami Seleniumot használ, és egy firefox példányt futtat meg, ami a céloldalon lefuttatja a javascripteket is, és úgy jut el egy olyan oldalig, ahonnan már kivehetőek a feldolgozható url-ek, vagy legalább az url felépítéséhez az állás azonosítója. (Ez konkrétan az otp oldalát dolgozza fel, mivel ők egy agyonbonyolított karrier oldalt hoztak össze)

Amit most leginkább kéne csinálnom, hogy az egyes állásajánlatok megnevezését javítani. Az oldalon van egy statisztika arról hogy milyen foglalkozásból hányat talált, ezen rögtön levehető hogy kusza és zavaros az egész. Az egyik reláció hogy az oldalon belül pontosabban hogyan lőhető körbe az állásajánlat megnevezése, és ez milyen komponensekből áll.

Pl. a "fejlesztő" a foglalkozás megnevezése, amihez társulhatnak jelzők, és az lehet "gyógypedagógiai" és "jáva" is, teljesen eltérő jelentéssel. Ugyanígy zavar forrása egy sor szinonima, pl. a fejlesztő és a programozó majdnem ugyanazt jelenti, de a program nem fog a fejlesztő kulcsszóra programozót kidobni. Ezeket a nyelvi sajátosságokat valahogy le kéne modelleznem, de még nem jutott eszembe értelmes megoldás.

Hasonlóan problémás az állások helye, itt a fő probléma, hogy ugyanazért a hely mezőért versenyez az ország, megye, város megnevezése is. Ezt is egy hierarchiába kéne szervezni, és három külön mezőbe eltárolni.

Hozzászólások

A hely eseteben talan segitseg lehet a most mar mindenfele szaporodo orszag/varos adatbazisok. Ez segithet pontositani a keresest, esetleg keresre szelesiteni/szukiteni azt.
--
Blog | @hron84
Üzemeltető macik

ezt meg is csináltam, most legalább az ország-megye eltűnt a városok közül, de ez még nem jó,

egyrészt nem lehet ország alapján keresni, másrészt a kulcsszavakat általánosan keresi, és pl Üllői úton van valami, akkor beírja hogy a település Üllő

valahogy ki kéne zárni ami közterületet leíró szó után áll