Automatizált keresés - hogyan lehetséges

Egy olyan szkriptet szeretnék írni, amivel a tipikus google kereséseimet tudnám automatizálni. Vannak például szigorúan pdf-ben készülő, publikusan elérhető beszámolók, N különböző forrásból, persze RSS vagy bármi egyéb értelmes feed nélkül. Ezekre google-lel keresni nagyon egyszerű, és ha lenne egy adatbázisom, amiben az utolsó X eredményt tárolnám, elfogadható közelítéssel meg tudnám mondani, hogy tegnapról mára mi változott.

A következő lehetőségeket találtam eddig:
1) Google Web Search API (nyílt REST-es, JSON-os)
2) Google Custom Search API (Google API console-os szivatós, napi 100 keresés limites kivéve ha elkezdesz fizetni érte)
3) Yahoo BOSS (teljesen fizetős)

Annak ellenére, hogy a Web Search API már deprecated (https://developers.google.com/web-search/docs/), ezzel indultam el, abban bízva, hogy az ígéret szerinti 2013 november 1-el végetérő üzem alatt fogok találni valami jobbat.

Le is kódoltam gyorsan Perlben, kipróbáltam, működött. Aztán egy idő után a barátságos 200-as responseStatus-ok elkezdtek lecserélődni erre:


403 Suspected Terms of Service Abuse. Please see http://code.google.com/apis/errors

Találkozott már valaki hasonló problémával? Hogyan lenne érdemes ennek ügyesebben nekilátni, lehetőleg valamilyen fizetős és/vagy erősen limitált szolgáltatás mellőzésének boldogabb tudatában?

Hozzászólások

PDF linkek betaraz (az remelhetoleg nem valtozik), letoltod, pdftotext, es a kijovo szoveget parzolod. De sztem Perl-hez van olyan modul is, ami kozvetlenul beolvassa neked a PDF-et valami text formaban.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Az ötlet jó, de sajnos a PDF linkek is változhatnak. Ami jó eséllyel állandó, az a site neve, amit éppen site: paraméterként terveztem átadni a google keresésnek. Azt szeretném elkerülni, hogy az én robotomnak kelljen kibányászni az oldalakból az infót, mert az nem egy könnyű feladat (és valószínű, hogy a google sokkal ügyesebb nálam).

Nem olyan bonyolult az. Kinyered az osszes "a" taget, es ami kulso oldalra mutat, az kell neked. (plusz szuro esetedben, ami pdf-re mutat)
Ha nem piszkalod percenkent 50 lekeressel, akkor nem feltuno a guglinal.
Mondjuk az agentet erdemes beallitani valami nepszeru bongeszore (en legalabbis igy szoktam).

--
In truly successful relationships...
no one wears the pants.