JobKereső

Kulcsszó alapú, közvetlen álláskeresés a foglalkoztatók saját weboldalain

Tehát a lényeg, hogy létrehoztam egy olyan crawleres kereső alapú álláskereső oldalt, amely a webről a publikus, és közvetlen állásajánlatokat letölti, feldolgozza, és a weboldalon kereshető formában közzéteszi. Tehát a webes keresőfelületre állásokkal kapcsolatos kulcsszavakat gépelve állásajánlatok linkjeit és azok kiemelt részeit sorolja fel. Az oldalon csak állásajánlatok vannak, másféle tartalom nincs, eltekintve attól amikor a robot hibázik, és mégis bekerül nem állásajánlat, de most már ritka az ilyesmi.

Az oldal több mint 2 éve működik, és kezdetben az állásportálok hirdetéseit is gyűjtötte, illetve elég sok változáson, fejlődésen ment keresztül az állásokat kiválasztó szűrő is, és a kereső is belülről. Eredetileg egy céggel együttműködve készült a dolog, de most már az én kizárólagos kezelésemben és működtetésében van, én pedig olyanra alakítottam, hogy csak a közvetlen állásajánlatokat listázza. Közvetlen állásajánlat alatt azt kell érteni, hogy maga az oldal tulajdonosa a foglalkoztató is. Tehát a weboldal a foglalkoztató weboldala, nem egy hirdetőoldal, vagy egy fejvadászcég oldala.Elv alapján, ha egy fejvadászcég hr-est keres saját magának, azt bevonhatnám, de technikailag bonyolult lenne megkülönböztetni a többi hirdetett állásaiktól, ezért azok a weboldalak teljesen ki vannak zárva.

közvetlen állások

itt már létezik fórum bejegyzés a jobKereső-ről, de ezt most átemelem ide is, a blog rovatba.

A keresőrobot egy AMD Bulldozer 6 magos procival és 8G RAM-al szerelt gépen fut, Ubuntu server 11 operációs rendszerrel. A háttérttárolásról két 32GB Kingston SSD gondoskodik. A crawler egy java alapú crawler, a Nutch 1.0 verziójának a módosításával jött létre, így a Nutch alatt dolgozó Hadoop egy single node cluster-t alkot. Ez lehetővé teszi hogy a 6 mag között "jól" osszon el terhelést a Hadoop még olyan taskok esetén is, amelyek egyébként nem többszálú végrehajtásra születtek. Természetesen a Hadoop és a Map-Reduce nem arra való, hogy egy 6 magos procin a szálkezelés helyett csináljon párhuzamos végrehajtást. Az eredeti formában a Hadoop cluster kb 12darab P3-P4 trashware gépen futott, de nekem az albérletben kicsit költséges lett volna ennek a villanyszámlája, ezért energiatakarékosságból inkább egy erős alaplapot vettem. Ez most ház nélkül, minimalista módon egy rétegelt falemezre szerelve működik.

Az egyik alapvető hiányosság, hogy én nem igazán vagyok az okostelefon/tablet/facebook/twitter etc vonal híve, ezek közül az első kettőre nem is tudom tesztelni hogy a weboldal hogy jelenik meg. Például egy beszélgetésben kiderült hogy a javascript lapozó, és egyéb komponensek tableten nem működtek.

Gondolom érdemes tisztázni, hogy nem ebből élek, a projekt egyelőre nekem is csak pénzbe kerül, mert fizetni kell a VPS-t a weboldalhoz, illetve hozzátesz a villanyszámlához is. Budapesten dolgozok egy nemzetközi multinak, mint java fejlesztő.

Hozzászólások

Ez a JobKereső olyan nekem, mintha Jóbot keresnéd. Nekem ugyan 8, de a név szerintem nem valami jó.

--
trey @ gépház

Ebben teljesen igazad van, nekem sem tetszik. Aki kitalálta csak félig tud magyarul, egyébként koreai, és akkor nekem sem jutott eszembe jobb, ráhagytam. Különben meg addigra már megvolt a domain.

Gondolkodtam váltáson, de elég sok link mutat már erre a címre, nagy meló lenne azokat mind átnyomni, és újakat csinálni.

közvetlen álláskeresés

úgy hogy fut a Hadoop, a virtuális filerendszere, de csak 1 gép van, és a master egyúttal az egy szem slave is, ezt főleg tesztelésre használják, én meg arra hogy a map/reduce taskokat különálló java taskok formájában futtassa

a fetchelés többszálú, de pl. a crawldb építése vagy az indexelés nem, és azt is szeretném a 6 magon elosztva futtatni, mert főleg ezek tartanak sokáig

amúgy, volt olyan verzió is, hogy veszek 4 atom processzoros kis alaplapot, melléjük 1-1 ssd, lehet hogy jobb lett volna - de biztosan drágább

Jo cucc lesz ez, de meg egy kicsit lehet rajta finomitani. Pl. "C++ fejleszto"-re 0 talalat van, de "C fejleszto"-re jonnek a C++-osak is.

--
"You're NOT paranoid, we really are out to get you!"

Néhány dolog ami az elmúlt időszakban történt:

van facebook oldal:
https://www.facebook.com/Jobkereso

ezzel nem közvetlenül én foglalkozom, a karriercafe blog szerzőjét kértem meg, és felajánlotta a segítségét

csináltam a foglalkozásnevek mintájára település alapú url rewrite-ot is
most két sorban vannak a belső oldalakra mutató linkek, felül az állásos, alul a települések (ezt kicsit tágabban kell értelmezni, mert ország és megye is beleesik)
ezek a linkek kb ilyenek : http://www.jobkereso.com/telepules/budapest.html

a foglalkozásneves pedig így:
http://www.jobkereso.com/szakma/fejleszto.html

leginkább azzal (szeretnék) foglalkozni, hogy forgalmat terelni az oldalra, de ez eléggé kilátástalannak tűnő feladat

Üdv, vagy fél éve írtam ide utoljára, most vázolnám a változásokat röviden.

a mélylinkek formátuma megváltozott, most ilyenek:

http://www.jobkereso.com/allasajanlat/telepules/pecs.html

illetve:

http://www.jobkereso.com/allasajanlat/szakma/fejleszto.html

korábban a találat linkek új tabon nyíltak meg, most ez javascripttel nyílik meg egy kis, korlátozott ablakban és nincs közvetlen link, robotok kevésbé tudják követni a linkeket

létezik g+ oldal
betűtípust váltottam a 'Palatino Linotype'-ra

a főoldal és a korábbi "friss" oldal összevonásra került, és a főoldalon jön fel a legújabb 50 találat

a legújabb folyamatban lévő fejlesztés, hogy legyen hírlevél küldő szolgáltatás, ennek része a "csak friss" csekbox, ezt bekattintva csak a legutoljára bekerült állások között keres, készül a subscribe/unsubscribe része is, de előbb tesztelem a hírlevelet, hogy tényleg jókat küldjön ki (saját magamnak)

ezen kívül a találati listán finomítások történtek, több foglalkozásnév, specifikus szűrők jelentek meg

létezik specifikus letöltő a tesco, ge, decathlon állásportáljaikhoz

padisah

Ezt eddig is láttam, de nem adtam neki nagy jelentőséget, mert úgyis az elejét nézi a legtöbb ember, vagy végiglapozza, az az alacsonyabb szám csak egy információ.

Viszont most Budapest esetén látom hogy a lapozó is behülyül, ott ez a hibás alacsonyabb szám kerül bele az intervallum számolóba, és a 200. találat fölött nem működik.

szerk:
Kösz.