Egy olyan szkriptet szeretnék írni, amivel a tipikus google kereséseimet tudnám automatizálni. Vannak például szigorúan pdf-ben készülő, publikusan elérhető beszámolók, N különböző forrásból, persze RSS vagy bármi egyéb értelmes feed nélkül. Ezekre google-lel keresni nagyon egyszerű, és ha lenne egy adatbázisom, amiben az utolsó X eredményt tárolnám, elfogadható közelítéssel meg tudnám mondani, hogy tegnapról mára mi változott.
A következő lehetőségeket találtam eddig:
1) Google Web Search API (nyílt REST-es, JSON-os)
2) Google Custom Search API (Google API console-os szivatós, napi 100 keresés limites kivéve ha elkezdesz fizetni érte)
3) Yahoo BOSS (teljesen fizetős)
Annak ellenére, hogy a Web Search API már deprecated (https://developers.google.com/web-search/docs/), ezzel indultam el, abban bízva, hogy az ígéret szerinti 2013 november 1-el végetérő üzem alatt fogok találni valami jobbat.
Le is kódoltam gyorsan Perlben, kipróbáltam, működött. Aztán egy idő után a barátságos 200-as responseStatus-ok elkezdtek lecserélődni erre:
403 Suspected Terms of Service Abuse. Please see http://code.google.com/apis/errors
Találkozott már valaki hasonló problémával? Hogyan lenne érdemes ennek ügyesebben nekilátni, lehetőleg valamilyen fizetős és/vagy erősen limitált szolgáltatás mellőzésének boldogabb tudatában?
- 3502 megtekintés
Hozzászólások
PDF linkek betaraz (az remelhetoleg nem valtozik), letoltod, pdftotext, es a kijovo szoveget parzolod. De sztem Perl-hez van olyan modul is, ami kozvetlenul beolvassa neked a PDF-et valami text formaban.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Az ötlet jó, de sajnos a PDF linkek is változhatnak. Ami jó eséllyel állandó, az a site neve, amit éppen site: paraméterként terveztem átadni a google keresésnek. Azt szeretném elkerülni, hogy az én robotomnak kelljen kibányászni az oldalakból az infót, mert az nem egy könnyű feladat (és valószínű, hogy a google sokkal ügyesebb nálam).
- A hozzászóláshoz be kell jelentkezni
Hat, a legrosszabb esetben a google kereso kimenetet fel lehet dolgozni, ruby-ra es perl-re is vannak szerintem ilyenek, perl-ben asszem valami mechanize.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Nem olyan bonyolult az. Kinyered az osszes "a" taget, es ami kulso oldalra mutat, az kell neked. (plusz szuro esetedben, ami pdf-re mutat)
Ha nem piszkalod percenkent 50 lekeressel, akkor nem feltuno a guglinal.
Mondjuk az agentet erdemes beallitani valami nepszeru bongeszore (en legalabbis igy szoktam).
--
In truly successful relationships...
no one wears the pants.
- A hozzászóláshoz be kell jelentkezni
A WWW::Mechanizer-rel mindez eleg egyszeru lesz.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
"403 Suspected Terms of Service Abuse. Please see http://code.google.com/apis/errors"
Milyen gyakran hívogattad? Van valami t időn belül n lekérdezéses limit, ezt léphetted át.
- A hozzászóláshoz be kell jelentkezni