Borzaszto egyszeru dolgot keresek: olyan weboldal leszedot (crawler), ami megfelel az alabbi kriteriumoknak:
- Korlatlanul konfiguralhato szalak szama
- Kovessen le MINDEN linket - megadhato melysegben
- A letoltott tartalmat lehetoseg szerint dobja el, de ez opcionalis
- Parancssorbol parameterezheto legyen (= ne kelljen GUI a futtatasahoz)
- Opcionalisan lehessen megadni neki, hogy hanyszor masszon vegig a site-n.
- Jo lenne, ha meg tudna mutatni a lassu oldalakat.
Figyelem! Kesz megoldast keresek, nem erdekelnek az olyan tipusu megoldasok hogy "itt ez a framework, nagyon konnyen lehet ilyesmit irni benne". Lehet framework, de legyen mellette link, hogy itt ez a kesz cucc, ez pont ezt csinalja. Nem programozni szeretnek.
Tovabba az olyan crawlerek sem erdekelnek, ahol a "korlatlan"-nak van plafonja (mondjuk erdekelhet, ha ez a plafon olyan 4-500-as magassagban huzodik).
Az ok: szervert szeretnek terhelni, de nem egy fix oldal (URL) folyamatos bizgatasaval, hanem egy adott oldal minel tobb szalon torteno leszedesevel.
Biztos van ilyen cucc kismillio a neten, le is szedtem parat, de a legtobb a legelso feltetelnek nem felelt meg, es ilyen 10-15-20-30 fole nem lehetett konfiguralni. Ez pedig nekem keves, nem tudom vele kiterhelni a szervert. Az egy darab URL szedegetesevel is pont ez a baj, az elso hivas utan cache-bol jon minden, nagysagrendekkel kisebb terhelest produkalva.
Nezegettem a JMeter-t is, irto jo cucc, de nekem most _kesz_ megoldas kell, ami automatan dolgozik. Nincs CSV-m URL-ekkel, van egy site-m, ott vannak benne az URL-ek, ennyire meg legyen okos a program.
- 5449 megtekintés
Hozzászólások
curl használható erre is
"A +1 az a proletárlájk."
- A hozzászóláshoz be kell jelentkezni
Hogyan konfiguralom benne a szalak szamat?
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
hát igen, gondoltam, hogy megkérded. :)
pl. írsz egy szkriptet, ami x-szer elindítja és figyeled a futó szálakat
MAXTHREADS = x
ps...| grep curl | wc -l .. < x
curl opciók &
hívogathatod cronból is... ilyesmi...
konfigfájlt is íratsz hozzá.
max. nincs igazam ;)
"A +1 az a proletárlájk."
- A hozzászóláshoz be kell jelentkezni
Ohm, nekem az oldalak leszedese kellene tobbszalu modon nem ugyanannak az oldalnak a mirrorozasa, arrol nem is beszelve, hogy milyen szepen ossze tud akadni az ilyen.
A curl egyebkent az "itt egy framework" kategoria: jelenleg nem akarok programozni, kesz megoldast keresek. Ha van egy tuti, kiprobalt es bevalt paranssorod hozza: erdekel. Ha nincs: koszi az otletet.
Jelenleg a kovetelmenyektol csak az opcionalis reszben tudok elterni.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Közelítve a feladatot:
THCNT=5; let i=1; while [ $i -le $THCNT ]; do wget -r -N "$YOURURL" &; let i=i+1; done
Illetve -N helyett -nc, szükség szerint.
- A hozzászóláshoz be kell jelentkezni
let?
Mondjuk ez igy akar meg jo is lehetne. Kerdes, hogy a wget csak a linkeket koveti, vagy leszedi a css/kep/egyeb eroforrasokat is? Ilyesmit meg sose csinaltam wget-tel, -r kapcsolot mindig ftp site-nak engedtem neki, vagy apache index-re.
Illetve: hogy lehet ignoralni a robots.txt-t vele?
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
let ám: azzal még (k)sh alatt is megy az egész.
A wget rácuppan mindenre, amire az oldal referál és rovább.
"Wget respects the Robot Exclusion Standard (/robots.txt)."
- A hozzászóláshoz be kell jelentkezni
Igen, kozben megtalaltam a -e robots=off kapcsolot, ezzel parhuzamosan romba dontottek minden elkepzelesemet, amikor kozoltek, hogy loginolni is kell, innentol kezdve meg csak valami intelligencs crawler jon szoba, amivel tudok loginolni az appba beleje.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
... vagy aminek meg tudsz adni session cookie-t, es el tudod tiltani a logoutolastol.
- A hozzászóláshoz be kell jelentkezni
Ott a pont: én a data.hus prémiumomat is wgettel használom: hajdan loginoltam ffoxba, miután kikopiztam a cookies.txt-t, amit a --load-cookies használatával adok át.
- A hozzászóláshoz be kell jelentkezni
Tudom, hogy meg tudok neki adni session cookie-t is, csak a wget-et en nem lokalisan futtatom, es nem tudom, hogy a framework figyeli-e a forras IP-t.
Ugyanis 100 MBit pont 10x tobb mint 10.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Semmiképpen nem akarom magam ismételni, de a curl-lal tudsz loginolni is. Talán a wget-tel is, de most nem olyan gépnél ülök, ahol ezt megnézhetném neked.
"A +1 az a proletárlájk."
- A hozzászóláshoz be kell jelentkezni
Azért a curl-höz rendesen fel kell térképezni előre (vagy a feldolgozásukat lekódolni) a linkeket, mivel - legalábbis nem emlékszem ilyenre - az nem tud rekurzív bejárást, vagyis bütykölés nélkül csak letöltőnek jó, de nem bejárónak.
De hálás vagyok a fikszmiért.
- A hozzászóláshoz be kell jelentkezni
"Borzaszto egyszeru dolgot keresek: olyan weboldal leszedot (crawler), ami megfelel az alabbi kriteriumoknak:
- Korlatlanul konfiguralhato szalak szama
Hehe. :)
Amugy a dirbuster ilyesmi, bar nem kifejezetten crawler, de nagyon ugyesen csinalja ki a tesztelendo szervereket.
Ha rendesen akarod csinalni, akkor viszont eloszor jard vegig az oldalt crawlerrel, mentsd le a listat, es ezt told be egy multi-mechanize-nak. Igy kulon tudod merni a statikus es a dinamikus contentet, lehet submitelni formokat, stb.
--
"You're NOT paranoid, we really are out to get you!"
- A hozzászóláshoz be kell jelentkezni
Mar rettegek a frameworkoktol... ez olyan, hogy van egy binaris/script, ami egyebkent mindent tud, amit nekem kell, vagy azt is nekem kell lekodolni, hogy hogyan kell egy txt-t felolvasni? Mert a legtobb framework amit talaltam nagyon faszanak tunt, tenyleg, csak eppen mindent nekem kellett volna lekodolni.
Nem tudom elhinni, hogy annyira bonyolult dolgot keresek, amire nincs egy _konkret_ megoldas, aminek megadok egy oldalt, onmukodoen felterkepezi, es bejarja.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Amikor legutóbb ilyennel játszottam, akkor az lett a vége, hogy a kliensnek nem tudtam akkora gépet/sávészélességet adni, hogy a szerver köhögött volna. Persze a lehetőségeim viszonylag limitáltak voltak, és a jmeternél jobbat nem találtam.
Amit fel tudok ajánlani az egy wget vagy curl amit el tudok indítani, de asszem csak százmegás netről. Ha még páran tudnak így segíteni, akkor lehet egy rendesebb loadot tolni a gépre. Bár tudom hogy nem ezt keresed, de ezt tudom adni :D
- A hozzászóláshoz be kell jelentkezni
Ezert akarom en csinalni. Lokalis geprol tobbet is ki tudok tolni, mint 100M, mert elvben az a forgalom nem jarja meg a kabelt amit a gep sajat IP cime fele intezek.
De ha nem, akkor van meg 20-25 gep, abbol mar csak osszehozok egy GBites terhelest.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
--
Ami elől menekülsz, az után szaladsz.
- A hozzászóláshoz be kell jelentkezni
Az egyik framework, amit megtalaltam. Igeretes, de nincs kesz eszkoze a feladatra.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Munka nélkül nem úszod meg. Mindent tud ami neked kell.
--
Ami elől menekülsz, az után szaladsz.
- A hozzászóláshoz be kell jelentkezni
Egy ilyen frameworkkel valo ismerkedes: ~3 nap
Rendelkezesre allo ido: ~1 nap
Eleg ertheto?
Nem tartozom a lusta emberek kategoriajaba, ha azt irom, hogy nem szeretnek programozni, akkor annak oka van. Peldaul, hogy van kismillio egyeb feladatom is, amit itt megosztok, az csak egy a listambol, ami - hidd el - nagyon hosszu.
Ezen felul nem tudok pythonul. Tobbmillio evvel ezelott programoztam benne, azota legfeljebb futtattam python scripteket, de sem irni sem olvasni nem volt idom/kedvem/lehetosegem ilyet. Csak az 1 komplett nap lenne, hogy ujra megismerkedjek a nyelvvel. A projektre nincs ennyi ido.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
2013. február 8., péntek - 10:04 >> 2013. február 10., vasárnap - 12:36
"Rendelkezesre allo ido: ~1 nap"
- A hozzászóláshoz be kell jelentkezni
Bocs, de en hetvegen maganeletet elek, es nem a munkahelyi problemaimon ragodom.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
hagy ne mi oldjuk meg helyetted, koszi.
- A hozzászóláshoz be kell jelentkezni
Mutasd meg, hol mondtam ilyet. Koszi.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Eleg ertheto?
te kertel itt segitseget, de meg osztod az embereket. mit varsz, rendszergazdak gyongye?
- A hozzászóláshoz be kell jelentkezni
Lehet hogy tulreagaltam. Ugy ereztem, kicsit ellensegesbe valtott a hangnem, azt meg nem szeretem. Talan tevedtem.
Szeretek dolgozni, es szeretek dolgokat butykolni, viszont jelenleg ez csak egy feladat a sok kozul, amit meg kell oldanom, es nincs tul sok idom ra. A nyitoban probaltam felvazolni, hogy mi a helyzet, nyilvan a mogottes indokokat ilyenkor nem osztom meg, mert offtopic. Ha megnezed, normalis felvetesekre normalisan reagaltam.
Egyebkent stilisztikai tanacsokat nem toled fogok elfogadni, bocsi.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
es megint egy kisregennyel sirod tele a forumot :(
- A hozzászóláshoz be kell jelentkezni
Ilyen elven a vi is tud mindent ami ehhez kell.
- A hozzászóláshoz be kell jelentkezni
http://nutch.apache.org/
Ez egy Javaban irt, szerintem egyszeruen hasznalhato crawler, amugy a Solr mellekprojektje.
Itt a tutorial: http://wiki.apache.org/nutch/NutchTutorial
"-threads threads determines the number of threads that will fetch in parallel."
- A hozzászóláshoz be kell jelentkezni
Koszi, igeretesnek hangzik. Engedj meg ketto kerdes:
- Kell hozza mindenkeppen Solr szerver?
- Kepes sutik kezelesere? Ujabban bejott ilyen igeny is.
Hetfon utanaolvasok amugy, az elso pelda nekem tokeletesen megfelelne. Nagyon jo kis toolnak nez ki. Par dolog viszont nem tiszta a leiras alapjan, mindenkeppen ki szeretnem probalni, hogy hogyan mukodik.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
1. Nem, a Solr tudja a Nutchot hasznalni, es nem forditva. Azaz ha Solr-t allitanal be pl. intranetes keresesre, akkor a Solr a Nutchot hasznalja az intranet felterkepezesere.
2. Nem tamogatja, elosztott architekturan erdekes lenne megoldani a kezeleset. Lasd itt: https://issues.apache.org/jira/browse/NUTCH-827
De a tobbi: Google.
- A hozzászóláshoz be kell jelentkezni
Koszi, nem rossz, a suti kezelest en picit egyszerubben gondoltam: megadok neki egy fix headert, amit mindig kuldenie kell, adott esetben ez egy suti. Mivel a scanneles soran nem valtozna a session, illetve nem erdekelnek a valtozasok, igy valodi suti trackelesre nincs szuksegem.
Jelenleg a Nutch meg a httrack a ket jelolt a munkara, de a Nutch-ot fogom eloszor megnezni, mert alkalmasabbnak tunik (a leiras alapjan kozelebb all ahhoz a mukodeshez, amit elkepzeltem, mint a httrack).
Majd elmondom, mi lett.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
#!/bin/sh
cd /dev/shm
SITE=yoursite.hu
for i in {1..6}; do
{
mkdir -p ${i}_$SITE
echo ${i}
cd ${i}_$SITE
httrack -%U youruser -q -w -O . --robots=0 http://$SITE/
rm -fr ${i}_$SITE
} &
done
a /dev/shm-be menti ... ;)
a bash csinalja a szalakat a curlybraces & segitsegevel, a httrack meg az egesz site-ot vegig nyalazza, cssel, jsel egyutt lementi,
a for i in sorban ird at magasabbra a range-t (1..6), ha meg tobb szalon akarod futtatni
- A hozzászóláshoz be kell jelentkezni
Igen, nekem is a httrack volt az egyik tippem, csak egyszeruen nincs ertelmes online dokumentacioja, es nem tudtam eldonteni, hogy lehet-e szalakat konfiguralni neki. Mert ha igen, akkor nem allok neki bash-sel bohockodni. Annak idejen volt egy nagyon fasza ncurses felulet hozza, chttrack volt a neve, mara eltunt a net sotet bugyraiban, pedig nagyon szerettem.
A tarhely nem erdekes, ha nem dobja el, akkor sincs gond, van olyan gep, ahol tobbszor annyi hely van, mint amenyni kontent letoltesere szamitok. Ezert irtam, hogy ez opcionalis.
Kerdes: a httrack kepes suti hasznalatara?
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
szerintem a bash { } tokeletesen megfelel a tobbszalu mukodes letrehozasara, a fenti script egy cd.. hianyaban az rm elott megcsinalja amit kersz
cookie-t fogad a httrack:
-bN accept cookies in cookies.txt (0=do not accept,* 1=accept) (--cookies[=N])
van -z opcio logolasra, de nem eleg pontos szerintem lassu oldalak kiszuresere, marmint vagy inkabb define lassu ...
man httrack talan tovabbsegit dokumentacio hianyaban
probald ki, ha nem felel meg a celnak meg lehet bonyolitani az eleted a fenti soksok program pelda/javaslattal
- A hozzászóláshoz be kell jelentkezni
Koszi, megnezem. Regen nagyon szerettem a httracket, de sosem parametereztem meg, ezert kerdezek ennyit. De ez alapjan mar el tudok indulni.
Logoltatni mindenkeppen fogom, mert screen-ben akarom futtatni - az meg nem feltetlen oriz meg minden logot es foleg nem feltetlen szalbiztos.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Na, ma lett a projektnek ido foglalva, eddig idom se volt ranezni.
Eddigi eredmenyek: a Debian keptelen egy ilyen egyszeru valamit tisztessegesen megcsinalni. A --stay-on-same-domain kapcsolo hatasara dob egy segfaultot. Ugy nez ki a --stay-on-same-address mukodik benne - jelenleg ez is eleg, mindazonaltal bosszanto a dolog.
Ujabb kedves dolog: hacsak nincs a site neve/ipje a futtato gep hosts fajljaban, a --stay-on-same-address hibaval elszall (Unable to get server's address: Success (-5). WTF?
De nem az osszes szal szall el: 6-bol 4 elszall 2 meg beragad - ehm.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
A Nutch-csal jutottal valamire?
- A hozzászóláshoz be kell jelentkezni
Ohm, igen is meg nem is. Kiprobaltam, de nekem mindenefele exceptionoket dobott - viszont a futtato szerveren nem tul uj java van (egy Debian 5.0-rol beszelunk, valami osi OpenJDK-val), szoval siman lehet, hogy egyszeruen szar kornyezetben futtattam. De hosszu tavon mindenkepp akarok vele foglalkozni, mert nagyon igeretesnek tunik (valojaban nekem erre lenne szuksegem) - csak ebben a projektben most nem jutottunk tul messze. Nalam csont nelkul futott, csak a szerveren nyugoskodott - de egy 10M-s ADSL valljuk be, keves terhelesteszthez.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni