Állást kereső keresőprogram

Fórumok

www.jobkereso.com

van még kettő másik ilyen, az egyik egy ukrán átirat, a másikat egy indiai programozó csinálta, és indeed néven fut, ezek konkurrenciák, ezért nem akarok linket írni :(

a lényeg, ez egy keresőmotor, robotokkal együtt, ami keresés közben kiszűri ami állásajánlatot talál, és csak azt indexeli a végén

A fenti dolog egy nutch (http://nutch.apache.org/) nyílt forráskódra épül rá, én fejlesztettem hozzá szűrőt hogy csak állásokat indexeljen, illetve a kulcsszó/klikkelés alapú hirdetést, amit ez google nélkül tud, önállóan, meg ehez van egy admin felület, ahol kulcsszavakat,hirdetéseket lehet felvenni, és amiből a számlázás is táplálkozik. (lehet regisztrálni, és ki lehet próbálni a hirdetések felvételét)

És most meg lehet köpködni!

Sajnos az álláshirdetéses topikot lezárták földi halandók előtt, illetve ez a téma ahhoz is csak részben kapcsolódik.

Hozzászólások

hát ez k*rvajó, jó ötletnek tartom, csak így tovább!

Szia.
Ez tényleg szuper !!
Gratula.
~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~.~
Zenwalk - Full featured GNU Linux Operating System

Úgyhogy most hízik a májam, és nem a vodkától! :))

Furcsállom, hogy senki nem kritizálja, pedig azért én gyakran találok benne hülyeségeket, vagy hogy nem talál nyilvánvaló dolgokra.

Az egyik kiegésztő funkció a stemmer, ami levagdossa a szavak végéről a ragozást, így a különböző módon ragozott alakokat a kereső azonos szóként keresi. Ez pl. az egyik gyenge pont, mert nincs szó/szófaj adatbázisom, és így a program nem tudja hogy a felsőfok nem a "felsőf" szó többes száma, és vágja.

> Furcsállom, hogy senki nem kritizálja,

Ez azért lehet, mert inkább ígéretes kezdésnek néz ki, mint befejezett, késznek nyilvánított oldalnak. Sok munka lesz még ezzel, amíg eléri az önfenntartás szintjét. Drukkolok, hogy eljuss odáig. És tovább :-)

Ez azért lehet, mert inkább ígéretes kezdésnek néz ki, mint befejezett, késznek nyilvánított oldalnak.

Ez viszont baj, mert ennek már nagyon gyorsan kéne önfenntartóvá válnia, igazából a fő probléma, hogy kicsi a forgalom, aminek nyilván az egyik oka, hogy maga a szolgáltatás nem eléggé fejlett...

> Ez viszont baj, mert ennek már nagyon gyorsan kéne önfenntartóvá válnia

Szerintem ez csak a fele annak, amiből ki kellene jönnie az önfenntartásnak. Mégpedig az álláskeresők-website fele. A másik fele pedig a website-álláskínálók lenne. Azt hittem, erre is van már ötleted, csak előbb begyűjtöd a "nézettséget", amit aztán értékesíthetsz a munkaadók felé.

Az oldal nem az enyém, én csak fejlesztem, és a tulaj nézőpontja hasonló. Én viszont inkább abba az irányba vinném el, hogy egy transzparens felületet csinálni a munkakeresők és a tényleges munkaadók közé, akadályok,közvetítők, meg fizetés nélkül. (Viszont nincs hr szolgáltatás sem, előszűrés etc, ezt a munkaadónak kell leszerveznie a saját költségén)
Gyakorlatilag láthatóvá, megtalálhatóvá tenni a vállalatok állásajánlatait.

Ennek nagy forgalmat kéne generálnia, amivel már lehet mást hirdetni.

> Az oldal nem az enyém, én csak fejlesztem, és a tulaj nézőpontja hasonló.

Gondolom a tulaj nem avatott be a hosszútávú terveibe.

> Ennek nagy forgalmat kéne generálnia, amivel már lehet mást hirdetni.

Én elsődlegesen a munkaadókra, munkaközvetítőkre, esetleg még a felnőtt oktatást végző cégekre gondolnék, mint bevételi forrás. Mosópor reklámot kitenni az oldalra, az a vég kezdete lenne szerintem.

A munkaadókat, és a munkaközvetítőket ingyen indexeljük, ez a szolgáltatás ingyenes tartalma. Ezek után hogy lehet ugyanezért
pénzt kérni? A mosópor reklámmal ilyen téren nem lenne gond, azzal igen, hogy senki nem fogja keresőszóként beütni hogy mosópor, mert az nem állás.

> Ezek után hogy lehet ugyanezért pénzt kérni?

Ugyanezért? Pld lehetne olyat is csinálni, hogy letárolni kereső kifejezéseket, és ha változik a visszaadott eredmény, akkor email-ben értesítést küldeni. Ezzel megtakaríthatná magának az ember az újra és újra történő keresés idejét, ami megérhet némi pénzt.

Jó ötlet, jó irány. Ügyes vagy!

> Sol omnibus lucet.

Jó ötlet...esetleg olyan nem lesz, ahol szűrőt definiálhat a látogató és akkor az őt érdeklő témakörben is indexel a cucc?

a szűrőt meg kell írni, és telepíteni hozzá a keresőt egy gépre, vagy egy cluster-re, hogy gyűjtsön adatokat

mondjuk a jobkereső szűrőjével nagyon sok manuális állítgatásra van szükség, és volt eddig is,tehát ezt nem tudja a felhasználó maga beállítani, de lehet más témában is speciális keresőt csinálni

Óriási, asszem átírom hozzá a CV küldő scriptemet. Aztán, már csak egy klikkelés lesz álláskeresés.
--
"Maradt még 2 kB-om. Teszek bele egy TCP-IP stacket és egy bootlogót. "

Ez nagyon jó!

Le a kalappal, ha kell design-ban segítség dobj PM-et. :)

Beállok én is a gratulálók sorába! Nagyon hasznos!

Tényleg jó :)
Keep up the good work!

Jó dolog, bár nekem kapásból sikerült egy "Jelentkezési határidő: 2008 February 28" hirdetés találnom :)

van szűrés arra, hogy 2009.01.01, illetve hasonló formátumok, de arra hogy "2008 February" na arra pont nincs :(

persze ettől még elég nagy baromság a forrás oldal részéről hogy kint hagyják, és kereshető ez a sok teljesen irreleváns, lejárt találat. Normálisabb oldalalak, mint pl expressz kiírják az oldalra hogy lejárt, és néhány nap múlva nem is hozza fel, visszalép az egyel tágabb szűrőbe, és így el tudjuk dobni a lejárt linket.

UP!

Szegediként erre a területre szűrtem, és olyan dolgokat megtalált, amiket manuálisan sosem néztem volna.

"Dilbert-elv: a legkevésbé hatékony dolgozók végül szükségszerűen oda kerülnek, ahol a legkevesebb kárt okozhatják – a vezetésbe."

Nem köpködés, csak jelzem: beírtam az adatbázis szót, a 7. találat:

"Babaklub.com - Babysitter és au pair adatbázis - Gyermekf..."

Illetve az utolsó valami Bankjobs.hu, az is off-nak tűnik.

Egyébként jó ötlet, grat!

Par dolog:
Csinaltam mar ehhez hasonlo keresot (ott linkcsereoldalakra kellett ratalalnia egy botnak). A talalatok mennyiseget guglival tudod javitani, ha nem jarod be es indexeled a teljes webet, hanem rakerestetsz vele par elore adott relevans kulcsszora, es a talalatokon elindulsz.
Aztan erdemes a felismerheto mezoket kulon kigyujteni (foleg, ha regexppel ertelmesen feldolgozhato). Amit fent is irtak (a hirdetes datuma) peldaul lenyeges elem, es viszonylag keves formatumban szerepelhet. Ha egy regexppel felismered, es kiderul, hogy mar 2 eve nem aktualis, nyugodtan kihagyhato az adatbazisodbol.

Aztan a kereso integraltsaga: meg lehet tenni, hogy az ismertebb bongeszokhoz (pl. FF biztos tud ilyet) csinalsz sajat kereso-extensiont. Igy ha az oldaladon valaki rakattint a bongeszo keresomezojere, fel fogja ajanlani a keresod felvetelet.

Amit irtal, hogy a stemmer a felsofokot felsof-nek veszi, az max. fals pozitiv iranyban tevedhet, mert ha a keresomezonel is hasznalod a stemmert, a keresesnel is felsof lesz belole, ami mar egyezni fog.

--
The iPad: Because the iPhone was too small for other people to notice you.

Csak kíváncsiságból: milyen kereső alapot használtál? Vagy teljesen saját fejlesztés?

Nem próbáltam gugli kereséseket felhasználni, a saját másik keresőnket, az ozi-t használom, most már, ilyenre. Igazából nem néztem meg, hogy le vannak-e tiltva robots.txt-ben, vagy a linkekben nofollow-al a google találatok, csak ezt feltételeztem, mert valahogy ez lenne logikus. Ami miatt ez az út elvi okból sem tetszik, hogy egy független kereső értelme épp a PageRank, illetve annak manipulációinak a megkerülése. Tehát hogy ne fedjék el a munkaadó cégek lapjain található állásajánlatokat a profi állásközvetítők hirdetései, mert ezen oldalak sokkal magasabb PageRank-ot kapnak.

Amit anno csinaltam, annak a robot resze hasonlo, a tobbi mar nagyon nem. A feladat az volt, hogy SEO-hoz osszeszedjek minel tobb olyan oldalt, amelyikkel linket lehet cserelni. Van nehany olyan temakoru oldal (porno, szerencsejatek), amelyikkel nem nagyon szeretnek kivulallo oldalak cserelni, igy a keresooptimalizalas lehetosege elegge le van szukitve (raadasul sok ujat nem is nagyon lehet irni a temaban, es a konkurencia is kemeny, mert sok penz van benne).
Szoval innen jott az otlet, hogy gyujtsunk ossze minel tobb olyan oldalt, akik:
-hasonlo temakorben szerepelnek
-van partnereket tartalmazo aloldaluk
-valoszinuleg hajlandoak a linkcserere (pl. ha kiteszik az oldalukra a kodot/URLt+anchor textet, az jo jel)
Ezutan ha megvan a gyujtemeny, akkor probaljunk meg minel tobb infot osszeszedni roluk (mondjuk a kert kod/URL+anchor text az nem rossz), lehetoleg minel tobbet automatikusan kitoltve.

Az fel sem merult, hogy letezhet ilyen rendszer, szoval par letezo lib felhasznalasan tul minden sajat (cURL-t nyilvan nem irtam sajatot, meg adatbazist sem). Nem lehetett elore tudni, hogy milyen hatekony lesz (raadasul tanuloadat sem volt az elejen), szoval felkeszultem ra lelkiekben, hogy idokozben teljesen at kell irni az egeszet. Innentol a "valami scriptnyelv" elegge adta magat, miutan nem lehetett elore tervezni semmit. A csapatban a tobbiek inkabb webbel foglalkoztak, szoval a PHP jo valasztasnak tunt, hogy a tobbiek is hozza tudjanak szolni szukseg eseten.

A bot automatikusan rakeres adott kulcsszavakra (illetve ezek mindenfele kombinaciojara kulonfele nyelveken), ezutan fogja a talalati halmazt, es beszurja a bejarando oldalak tablajaba. Minden oldalt ket helyrol kezd vizsgalni: az egyik a fooldal, a masik meg az, ami URL-en odatalalt (ha ez egyezik, akkor nyilvan nem). Ez azert jo, mert igy a nem relevans forumokat es temakoroket valoszinuleg kihagyja, feleslegesen nem jar be mindent.
Ezutan ha megtalalja a kivant anchor textet+URL-t, vagy a html kodba beszurt html kodot, akkor orul, es megjegyzi. Ha talal olyan aloldalt, ami valoszinuleg a partnerekre mutat (sok kimeno link), meg jobban orul. Ha talal hozza valami kapcsolatfelveteli formot (vagy mailcimet), akkor azt is feljegyzi, kesobb egy webes adminfeluleten ezeket egy ember atnezi, es eldonti, hogy erdemes-e foglalkozni vele (ja, a PageRanket is lekeri).

Igy leirva nagyon egyszeru, a gyakorlatban kicsit bonyolultabb volt. Szerettem volna az embert kihagyni belole, de igy biztosabb (es a gep nagyon komolyan eloszuri a talalatokat, szoval ami marad, de megsem jo, azt geppel mar nehezebb lenne kivagni).
Oldalbejaraskor persze figyel olyanokra, hogy egy oldalon nem tartozkodik tul sokat (nem jarja be teljesen, van max. melyseg, es max. url szam), probal figyelni a prioritasokra (gugli talalat sokat er, de ha partneroldalon talalt ra, az meg jobb), szoval celzottan jarja be a webet. Ami biztos, hogy nem kell, azt kivagja. Persze fejleszteskor par kivetelt is fel kellett vennem (BBCode-ot par oldalon html kodos cserenek hitte), de ilyen nyilvan elofordul.
Kesobb felmerult par problema, amihez szinten kellett automatikus webes bot (ez mar nem linkcseres), szoval azt a reszet fuggetlenitettem tole, es par dolgot ujrairtam (PHP maradt).
"Roviden" kb. ennyi.

A te keresodre visszaterve:
-Fent felmerult, hogy hogy szedtek belole penzt. A gugli PPC-s elve nem lenne jo erre? Van egy csomo termeszetes talalat, es par relevans fizetos is, de csak akkor fizet tenylegesen, ha a user rakattint.
-A guglis keresot ugy gondoltam, ahogy en is hasznaltam: igy egy csomo felesleges oldal letolteset es feldolgozasat meguszhatod, mert teljesen irrelevans forumokat nem kell atnezned allasajanlat utan kutatva. Ha a CPU ido es a savszel korlatozott, akkor inkabb arra hasznald, aminek lesz is eredmenye. Most a legtobb keresesre nehanyszor tiz talalatod van, aminel egy random allaskozvetito is tobbet ad (rendszerezve, hibas talalatok nelkul es mind aktualis meg). Szerintem ez keves.
Attol meg, hogy hasznalsz kulso keresot, a talalatok sorrendjet nyilvan te hatarozod meg, nyilvan relevancia, es nem PageRank alapjan.

--
The iPad: Because the iPhone was too small for other people to notice you.

Ennél a cégnél, ahol most vagyok, korábban volt Ozi néven egy php keresőrobot/interface próbálkozás, olyannyira, hogy láttam a felületét is, működött, lehetett vele keresni. Én jávás vagyok, úgyhogy a dolgok mélyére nem ástam magam, nem tudom pontosan mi vezetett ennek a bukásához, mindenesetre mire én megjelentem ez már parkolópályán volt, azóta meg elmentettük a hozzá tartozó adatbázisokat, és alszik a dolog.

A jobkereső alatt egy jávás, nutch alapú keresőrobot van, ez open source, letölthető. (lassan kéne verziót is váltanunk, mert már kijött az 1.2), ezt buheráltam

a fizetős rész az tulajdonképpen PPC,saját fejlesztés:
http://www.jobkereso.com/search.jsp?query=kert%C3%A9sz&lang=hu
a fenti link a kertész kulcsszót ágyazza be a lekérdezésbe

Az elszámolás nem túl modern, mert közbe van iktatva egy jsp, ezt majd átírom ha lesz erre idő meg budget ajax-osra, bár igazából mindkét esetnek az a fő baja hogy javascript nélkül leáll.

A nutch-os dolgokat megelőzően én is próbáltam nulláról keresőt csinálni, jávában. Az szintén táblákkal dolgozott volna, de nem fejeztem be. Azzal is, egyébként most is megvan az a probléma, hogy nem tudjuk milyen domain nevek, vagy site-ok léteznek a .hu alatt, és nem tudunk szisztematikusan azon végigmenni. Én az akkori próbálkozásnál egymásba ágyazott ciklusokkal kikombináltam minden lehetséges 5 karakter hosszú domain nevet, és ezt próbáltam lekérdezni, aztán kiszámoltam meddig tart amíg befejezi... na jó, akkor áttértem a 3 karakter hosszúra... (már a dns lookup annyi ideig eltartott, hogy komolyabb ilyen fésülés évekig elfutott volna)

Tovabbi hiba:
Rakerestem probakeppen a "programozó C++"-ra, 1. talalat rogton egy C#-os allas. Rakattintva kiderul, hogy oldalt van egy csomo C++-os dolog is, de ez a konkret hirdetes nem relevans. Ha tudod, akkor a hirdetes torzset megprobalhatod felismerni (DOM-bol, adatmennyisegbol, ill. a tobbi aloldalhoz kepesti tartalomvaltozasrol), es attol fuggoen, hogy mennyire van hozza kozel 1-1 kulcsszo, sulyozni.. igy az oldalsavon jellemzoen szereplo nemrelevans kulcsszavakat hatterbe lehet szoritani.
Ha megnezed pl. a hupot, oldalt itt van a nepszeru temak kozt a "FreeBSD" kulcsszo, ami minden hirnel, blognal, forumnal megjelenik, pedig csak par esetben relevans. Ha letoltod az osszes hupos forumot, es az egymashoz kepesti diffnel kiesik, akkor lathatod, hogy gyakorlatilag a menu resze az is, nyugodtan eldobhato. Ha egy cikknel/hirnel valoban a FreeBSD a tema, akkor a torzsben is meg fog jelenni, szoval ra lehet talalni.
Ehhez hasonloan az allashirdeteseknel is eljarhatsz, igy kiderul, hogy mi az adott hirdetes resze, es mi a menu/nepszeru allasok/hasonlo hirdetesek/egyeb doboz tartalma. Utobbi elhagyhato (vagy kereseskor kisebb sulyozassal elmozdithato az 1. oldalrol(1. talalatrol)).

--
The iPad: Because the iPhone was too small for other people to notice you.

Én azt csináltam, hogy rögtön a letöltés/dom elemzési fázis alatt a linkek szövegeit kitöröltem, tehát a linkek anchor text-je nem jut el az indexerig, és ezzel nagyot javult a hülyeségek indexelése című probléma.

Pl. álláskereső oldal, ahol alul/felül oldalt stb. fel van sorolva még további lehetőségként 10-15 másik állás neve, linkként, amikre indexelve teljesen irreleváns keresésekre is feldobná azt a bizonyos oldalt - nem is beszélve a hirdetésekről

A C++- al illetve a c#-al más a probléma. Ezt maga a nyelvi elemző, nem a stemmer, hanem még a Lucene a "+" és a "#" jeleket whitespace-nek tekinti, így a kereső effektíve a "C" szövegre keres rá, és ezt is indexeli, ami összemossa a C++-t a c#-al. Meg a celsius fokkal.
Eddig megmódosítottam a jsp-t úgy, hogy a c++-t cserélje ki "c++" -ra macskakörmökkel, mert a stemmer-re gyanakodtam, de ez nulla találathoz vezet, mert ilyen szöveg hogy "c++" nincs indexelve. Ugyanehhez a témához tartozik, hogy pl. a php fejlesztő hirdetésekben nagyon gyakori hogy mellékesen előny a java tudás is. Így a hirdetés a kereső szerint releváns lesz a "java programozó" lekérdezésre is.

Ehhez kéne olyan ami az egyes foglalkozások között valami kizáró relációt teremt, és rangsorolja akár a tag, vagy font méret alapján, hogy melyik az erősebb, és melyik szerint fogja indexelni. De ez nagyon a jövő zenéje, sajna a keretrendszer eleve olyan, hogy a dom-t az indexelés során már nem lehet látni, addigra az eltűnik.

Igy mar ertem. Mindenesetre egy allaskereson erdekes dolgokhoz vezet, amikor a C, C++ es C# ugyanaz a token.
A PHP fejleszto (Java elonnyel) szerintem nem hibas talalat. Ha a kijelzeskor a cimebol es a talalt szovegreszbol kiderul, akkor meg csak nem is zavaro.

Amikor en csinaltam a fenti rendszert, akkor volt olyan resz, ahol a DOM megmaradt, es olyan, ahol csak szoveg volt (nem lehetett elore tervezni, hogy mi fog kelleni). Szoval nalam volt tampont, talan ha kesobb dobod el a domot (vagy elotte kimentesz/kiemelsz reszeket), akkor nalad is marad.

--
The iPad: Because the iPhone was too small for other people to notice you.

Alul az oldalsorszámozás kissé bugos.
Nem látszik az az oldal ahol épp állok.
pl.: 12456 ha a 3. oldalon vagyok..

pch
--
http://www.buster.hu
--

Kb március közepétől saját kezembe (karmaim közé) került az oldal, ezért módomban állt egy sor változtatást megtenni.

A korábbi működéssel szemben, most már kizárólag a közvetlen állásajánlatok keresése a cél, tehát hogy meg lehessen kerülni a fejvadászokat, és a cégek álláshiretéseit egyből lehessen böngészni, keresni közöttük.

Az oldalon tesztüzemben működik egy hirdetési rendszer ami kulcsszófüggő, tehát a begépelt kulcssszóhoz tartozó hirdetéseket jeleníti meg, és per pillanat ingyenes.

Tehát : közvetlen álláskeresés
Tehát : oldal hozzáadása

technikailag annyi változott, hogy:
- ha nincs találat (0) akkor HTTP 404-et ad vissza
- ha nincs találat és volt "site:" a szövegben akkor HTTP410-et ad vissza (gone)
- a sitemap.xml csak olyan linkeket sorol fel, amelyekre létezik találat
- azóta megjelent egy saját snippet generátor, ami elvileg az állásajánlat lényegi
részét emeli ki, de a központozás nélkül, csak a szavakat gyűjti ki, és itt is lenne hova fejlődni
- deep link támogatás, addig hogy a http://www.jobkereso.com/szakma/java_fejleszto.html lefordul arra hogy
http://www.jobkereso.com/search.jsp?query=java+fejlesztő ezeket a foglalkozásnevek felsorolás alapján csinálja, tehát mindenre nem működik
- nyelvesítés, ami a browser nyelvi beállításától függően az ahhoz tartozó nyelven jelenik meg, németül van valamennyire megcsinálva maga a fordítás, de ez egy másik alkalmazáshoz készült (http://www.2job2.com), ezért sok helyen pontatlan. Ismeretlen nyelv esetén magyarul jön fel.

a többi dolog az a keresőprogram üzemeltetésével kapcsolatos, azt nem tenném közkinccsé