OpenSolaris Hadoop LiveCD: Hadoop cluster a boot-tól számított 15 percen belül

A cégek, vállalatok, szervezetek gyakorta halmoznak fel óriási mennyiségű adatot, például e-mail üzeneteket, weboldalak indexeléséből származó adatokat, tudományos adatokat, stb. Ezeknek az adathalmazoknak (datasets) a feldolgozása hagyományos relációs adatbázis módszerekkel egyre inkább nehézkes. A hatalmas mennyiségű adatok feldolgozásának problémájára a Google bemutatta a Map/Reduce névre hallgató adatfeldolgozási modellt, amely lehetővé teszi ezen óriási mennyiségű adatok feldolgozását több száz vagy ezer node-ból álló cluster-ek segítségével.

A Hadoop egy nagymennyiségű adatok feldolgozására létrehozott szoftverplatform. A Hadoop része a Hadoop Distributed FileSystem (HDFS) amely képes petabyte-nyi adatok tárolására node-ok százain keresztül. A HDFS biztosítja, hogy az adatok mindig elérhetők, függetlenül attól, hogy az adattárolásban résztvevő node-ok közül egyesek meghibásodtak-e vagy sem. A Hadoop része a HDFS mellett a Map/Reduce is, amely az adatfeldolgozási munkát kisebb feldolgozandó egységekre bontja, és ezeket az egységeket elosztja a node-ok közt.

Map/Reduce

Az OpenSolaris projekt Hadoop cluster építéséhez nyújt segítséget. Az opensolaris.org-on hostolt LiveCD segítségével a felhasználók rövid idő alatt, egyszerűen hozhatnak létre Hadoop cluster-t. A boot-olható CD-ROM egy három node-os virtuális Hadoop cluster-t valósít meg OpenSolaris zónák felhasználásával.

A részletek itt olvashatók.

Hozzászólások

Ez a Hadoop ugye arra nem jo, hogy en eloszottan taroljak fajlokat? Nem kellene keresni bennuk, csak ha keri egy kliens akkor szeduletes sebesseggel kellene kiszolgalni (mintha local disken lenne). Kb. mint egy P2P sebesseg-/idokritikusan.

10 pont, ezt nagyon benéztem.
A problémám viszont még mindig azt, hogy nincs a spájzban
64 szerver.. se 10, mert az látszik, hogy onnantol kezd el
húzni glusterfs.. addig béna béka.
Szóval a problémám még mindig az, hogy max. 5 szerver esetén
milyen cluster megoldással lehet normális sebességet kihozni
a rendszerből?

"se 10, mert látszik, hogy onnantol kezd el
húzni glusterfs.. addig béna béka"

Igen, az, ott csak 8GBps. Tenyleg alkalmatlan fileszervernek, az altalad vazolt hobbifelhasznalasra meg kulonosen.

Tipp: Sohasem lattal ilyesmit, sohasem probaltad, sot, sohasem lett volna ra szukseged, de azert megprobaltad osztani itt az eszt. Nem jott be. Talalt?

--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!

Nem talált.
Tipp: ilyen nagy pofával születtél és nem volt csörgöd kiskorodban. Talált?
Szerintem menj vissza játszani.. talán ott értékelik a bunkó stílusod.

Több "cluster" fájlrendszert tesztelnünk 2-3 szerver esetén és mind gyengén
teljesített. Egy biztos.. a glusterfs-t nem próbáltuk, pedig rajta volt a listán.
Tény nem én próbáltam, hanem a kollégám.. tény, 10 szerver az 10 szerver.. nem
mindenhol adott, tény most nem fogom elolvasni a linket.. most ilyen hülye gyerekekre
mint te nem vagyok ráhangolva.

"Nem talált."

Annal rosszabb, eszerint komolyan gondoltad.

"Több "cluster" fájlrendszert tesztelnünk 2-3 szerver esetén és mind gyengén
teljesített."

Es nem volt ez egy picit gyanus? ;)

"tény most nem fogom elolvasni a linket.. most ilyen hülye gyerekekre
mint te nem vagyok ráhangolva."

Kar, pedig ezzel nagyreszt megelozhetoek lennenek a jovobeli hasonlo egesek, dehat te tudod.

Viszont reszemrol a thread lezarva, tovabbi jo szorakozast.

--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!

Oke, nezzuk masfelol a kerdest: fel sem merult, hogy a szerverek kiepitese nem a legjobb?

Meg hat igazabol... szerver... vegulis mukodik a vilagban Commodore 64 kiszolgalta weboldal is es becsuletesen ellatja a feladatat - nincs is sok latogatoja ez teny.
--


()=() Ki oda vagyik,
('Y') hol szall a galamb
C . C elszalasztja a
()_() kincset itt alant.

Teny, az egy kiragadott pelda volt, amire a legegyszerubb volt egy latvanyos benchmarkot talalni.
Viszont egyreszt igaz az is, hogy a legtobb kevesbe szintetikus tesztben sem teljesitenek rosszul (megha nem is skalazodnak ilyen szepen linearisan), talan az MDS-t piszkalo muveletek kivetelevel;
masreszt az ilyen rendszerek letezesenek gyakorlatilag egyetlen celja es ertelme, hogy bitanggyorsak (es bitangnagyok) legyenek, tehat a "99 százalékuk teljesítménye a "nagyon gyenge" kategóriába esik, alkalmatlan "fájlszerver" alá" eleg viccesen hangzik.

--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!

Ja, LOL mondjuk, persze tudni kellene mit ert az illeto fajlszerver alatt, meg hogy a probalt szerverekben meg lo huzta az aramforrast, vagy mar kis manok adogattak at az elektronokat. Mer ez igy eleg gyengus amit elmondott. Ennyi erovel 386-osokbol is ossze lehet rakni egy 200 gepes clustert, es gyenge lesz, ezt innen mondom.
--


()=() Ki oda vagyik,
('Y') hol szall a galamb
C . C elszalasztja a
()_() kincset itt alant.