Keresés más weboldalak adatbázisaiban

Üdv!

Egy egyszerű gyűjtőoldalt szeretnék készíteni. A téma legyen mondjuk pl.: autók. Egy keresőt szeretnék összedobni, ami a hazai autós oldalakon bizonyos szempontok alapján keres(ár, lökettérfogat etc.). A találatokat természetesen nem sajátomként jeleníteném meg, hanem az eredeti oldalra linkelve. Kérdéseim a következők:

  • 1, Az ötlet így ebben a formában mennyire kifogásolható? (szerintem semennyire, mivel egy szimpla keresőről van szó)
  • 2, Hogyan lehetne megoldani a keresést gyorsan és hatékonyan?(csinálok egy botot ami mindig túrja a releváns hirdetéseket és letárolom egy db-be és utána csak ott keresek, vagy van erre jobb megoldás?)
  • 2/a, Ha a botos cachelős megoldás a nyerő, akkor milyen oldalakat cacheltessek a bottal? Gondolom annak egyetlen weblap tulajdonos sem örülne, ha mondjuk naponta végigszaladna egy bot mind a 400ezer hirdetésükön, ezzel több száz http queryt generálva nekik.

Szóval egy ötletet szeretnék kapni, hogy milyen módon lehet egy ilyen oldalt hatékonyan üzemeltetni. Gondolkoztam még a google egyéni keresőjével, de sajnos nem tudok vele ilyen pontos szabályok szerint keresni. :/

karika200

Hozzászólások

> Egy keresőt szeretnék összedobni, ami a hazai autós oldalakon bizonyos szempontok alapján keres(ár, lökettérfogat etc.).

Először azt kéne eldöntened, hogy szolgáltatást kívánsz nyújtani az autós oldalaknak; vagy rájuk akarsz telepedni (mint valami élősködő).

Az első esetben ugyebár kooperációra léphetsz az oldalak üzemeltetőivel; a másodikban pedig egyféle fegyverkezési verseny indulhat be, ami akadályozni fogja az adatbegyűjtésedet.

A kezdetekben az "élősködésre" gondoltam és ha beindul az oldal, akkor a későbbiekben egyeztetve az oldalakkal működne tovább a dolog. Azért gondolkodok így, mert szerintem amíg semmit nem teszek le az asztalra kb. magánszemélyként esélytelen együttműködésre bírni a szóban forgó oldalak üzemeltetőjét(érthető módon).

Vagy nem.

Miért is tiltanák ki? A crawlerek úgy álatalában ezt csinálják mind, más kérdés hogy egyes oldalak mit adnak vissza saját oldalukon egy parse esemény után. Az "etika" szerintem a robots.txt figyelembe vételénél kezdődik és nagyon sokan akár fizetnének is a minőségi backlinkelésért.

Csinálsz egy Bt-t, Kft-t, egyéni céget, stb., felépítesz egy weboldalt, amibe be lehet integrálni adott szolgáltatók adatait (csinálsz rá egy demo lapot, amiből jogosan szeded ki az adatokat, mert a Tiéd), majd ezzel elslattyogsz a célcéghez, s bemutatod neki, hogy lehetőség van reklámozásra ilyen formában, s ez úgy működik, mint a demo oldalad esetén. Célszemély ezután dönt, hogy neki ez megéri-e vagy sem.
Nincs ezzel semmi gond, akit komolyan érdekel reklámozás, az tárgyalni fog róla, aki meg nem akar erre költeni, az azután sem fog, hogyha arcátlansággal bizonyítottad neki, hogy hatékony, mert azt fogja látni, megy ez in'gyé is.

Szóval csináld inkább etikusan, előrébb jutsz.

Ebben amugy mi az eloskodes? Pl sok autos oldal akar eladni autokat, es a topcinyito keszit egy indexoldalt, ahol mondjuk kulturaltabban lehet keresni a kulonbozo ajanlatok kozott. Ilyenkor nincs konkretan hozzaadott ertek, viszont mivel tobb oldalon is keres, ezert vszeg jobban meg fogja talalni a vevo amit keres, ez pedig vegulis mindenkinek pozitiv. Ehhez pedig gondolom nem kell engedely az oldalak uzemeltetoitol.

Igen, én is pont így gondolkodtam. Mert lényegében tartalom átvétel nem lenne. De a hirdetéseket mindenképp végig kell valahogy futni és innentől kezdve elég esélyesnek találom én is azt, hogy kap egy DROP-ot a robotom.(én is így tennék a helyükben) De kaptam értékes választ, mármint az etikai/jogi részét tekintve a dolognak. A technikai megvalósításra viszont még várok javaslatokat. :) (Bár, ha közreműködésről van szó, úgy jelentősen egyszerűbb a keresés is...)

Es technikai oldalrol megis hogyan szurnetek a robotot? Ha nagyon szofisztikalt, akkor csinalhatja akar ugy is, hogy a sajat gepen levo firefoxxal scripteli hogy egy fel nap alatt egyesevel behivja az oldalakat es lementi. Ekkor nemnagyon lehet megkulonboztetni a rendes latogatotol. A legjobb amit most el tudok kepzelni az vmi html obfuscator, hogy nagyon nehezen lehessen parsolni.

Akkor pl nekiallsz proxykat vagy tor-t hasznalni, vagy csak siman kihuzod a netet es kapsz masik ip-t. Az szerintem egyaltalan nem feltuno ha valaki az osszes oldalt vegigkattintgatja. Ha van mondjuk napi 4e-es latogatottsaguk akkor eszre se veszik a grafikonokon(ha egyaltalan nezik, ez sem biztos)

Ez a gondolatmenet így sántít. Az egész internet a terjeszkedésről szól, marketing, reklám, még híresebbé tenni a portékát.
Ameddig valami bevallja magáról, hogy ő egy crawler, és figyelembe veszi mit engednek meg száráma (robots.txt) addig tuti hogy lekérheti az adatokat akár minden nap.
Én speciel a hack szagára is ugrok, de nem értem miért tiltanám ki az egész internetet mert látogatják a honlapunkat ?

Részlet egy autós hirdető oldal nyilatkozatából:

"Az oldalon található szöveges és képi anyagok az xxxxxxxxxxxxx Kft. írásos engedélye nélkül részben vagy egészben történő bármilyen jellegű felhasználása tilos."

Szóval ne vegyél rá mérget, hogy a hirdetések letárolása nem engedélyköteles.
Talán az a megoldás lehet okés, hogy minden, user által indított kereséskor indítasz keresést a céloldalakon, viszont ilyenkor simán számítani lehet tűzfali szűrőre.

Továbbra is azt mondom, indulj el úgy, hogy megkeresed őket. Ez a piac nem olyan, mint a facebook, hogy nyitott az API.

> Egy egyszerű gyűjtőoldalt szeretnék készíteni.

Ahogy nézem, a hasznaltauto.hu pont ilyesmit csinál.

Mivel, hogy fogyasztói társadalomban élünk, gondolhatnál a fogyasztókra is. Nekem mint leendő autó vásárlónak (a példánál maradva) mennyivel lessz jobb, könnyebb, gyorsabb a helyzetem ? Vagy egy újabb szutykot kell elolvasnom és eldobnom? ( bocs, ha nem így van ) Egyébként meg az oldal tulajdonosok örülni fognak a megkeresésednek, hogy a 148 konkurens mellett az Ő oldaluk is megjelenik egy helyen, vagy mégsem? Amúgy meg minden jó vállalkozáshoz egy jó ötlet kell. A rendszergizdák siralmai meg ne riasszanak el, úgyis a tulaj dönt a javadra, ha ebben fantáziát lát. Láttasd a tulajdonosokkal, hogy mennyivel több vevője lesz és akkor nyertél egy megbízást. Hány megbízás kellene ehhez, hogy neked megérje? Na, tízszer- százszor- ezerszer annyi helyre kopogtass be, előre. Így etikus és így gazdaságos neked is másnak is. Ha meg láthatóan nem gazdaságos, akkor csak egy jó ötlet volt. Rakd a többi mellé, hátha jó lesz még valamikor. Ha meg tényleg briliáns az ötlet akkor meg már tizen dolgoznak is rajta.

Talán itt láttam valami hasonlót állás keresővel, nem tudom, hogy mivé alakult.
--
üdv: virtualm

Igen, ez volt az! :) Köszönöm az ötleteket mindenki részéről. Akkor tényleg az lesz belőle, hogy demo, aztán majd meglátjuk :) Közbe kitaláltam egy szerintem minden szempontból jól járható utat, ami a hirdető cégeknek, az ügyfeleknek és nekem is jó lehet.

Egyébként én is úgy vagyok vele, hogy egy keresőben való megjelenés szerintem nem egyenlő azzal, hogy építek egy saját hirdető oldalt és átveszem a többi laptól a hirdetéseiket...