Lamerszámláló +1

Van egy régi Dell szerverem, amiben hw raid található. Anno összedobtam egy scriptet ami nézi, hogy hány disk halt meg, ha nullánál több, akkor küld egy emailt.

Íme:

megacli -AdpAllInfo -aALL -NoLog | egrep '^  (Degraded|Failed)' | awk '{print $4}' | egrep -Eo '^[0-9]{1}'

Ez a parancs  egy változó értéke, ami 0 ha nincs hiba és valami több, ha van.  Innentől nem nehéz egy elágazással lekezelni a problémát.

 

Mi is ezzel a baj? Az, ha úgy hal meg a hdd, hogy a vezérlő nem látja többet, akkor nem is jelez hibát, mert az eszköz nem listázódik.  Ebben a gépbe 2-3 évente meghal egy hdd, mert az adatbázis szerver tekeri rendesen a hdd-t. kb 4 éve semmi gondom nem volt vele és ez gyanús volt. Ma beléptem és a 4 db hdd-ből ami raid10-ben volt csak kettő látszott. wtf? hol a másik kettő? Szerencsére a polcomon volt 2 db hdd hideg tartalék és rohantam be vele az Expo térre. Rég vert le ennyire  víz. Rettegtem a rebuildtól, de lefutott szépen, azóta poszttraumás stresszben vagyok. Csak ennyit tudok mondani magamnak mára: bazdmeg, bazdmeg, bazdmeg.

Hozzászólások

Szerkesztve: 2020. 09. 16., sze – 20:17

Nem tudom mikori ez a szerver, de egy lights out management kártyára/chipre nem futotta bele? Nem értek a Dellhez, de feltételezem az sem hagyja sötétben a Linux adminokat.

trey @ gépház

Sebessége bőven elég. Ma rendeltem  hozzá 3 db sas hdd-t, hogy legyen tartalék. Semmi kedvem lecserélni, mert nincs belőle hasznom. Sőt!

 

ps.: az alkalmazás ami rajta lakik egyre gyorsabb, mert ha a gép nem is fejlődik,  én egyre jobb kódot írok. :)

Arra céloztam, hogy a korszerűbb szerverek nem az OS működőképességének állapotára bízzák a kritikus hardverek meghibásodásának jelzését, hanem ezeket már OS-függetlenül végzik. És jó esetben nem akkor szólnak, amikor a HDD már elpatkolt, hanem előre jelzik, hogy egy HDD várhatón mikor patkol majd el. Igazából ezek nem is új technológiák, csak egy bizonyos szint feletti vasakban vannak jelen.

trey @ gépház

Ha most vennék, akkor Dell R340et vennék helyette. Drágábbra nincs igényem.

https://www.cpubenchmark.net/compare/Intel-Xeon-X3450-vs-Intel-Xeon-E-2…

Jelenleg is századmásodpercek alatt futnak a lekérdezések. A legdurvább 3sec. 

LAMP vagyis az számít amit a proci egy szálon tud. Így a kétszeres sebesség egy napig lenne újdonság, ha észrevennénk egyáltalán. Ugyanis a hálózat sebessége miatt lehetséges, hogy érezhetetlen lenne számunkra.

Így van. Pl. egy  HP ILO akkor is fog levet küldeni a RAID/Battery cache/Storage állapotáról, ha azon egy fia operációs rendszer sincs. Bizonyos állapotokról még akkor is, ha a szerver egyébként nincs bekapcsolva, de kap áramot. A menedzsment processzor önálló egységként működik. Dell-nél tippelem, az iDRAC pont tudja ugyanezt.

trey @ gépház

Értem, de ez a múlt. Mutassak neked egy ILO-ról képet, hogy mennyire lát bele a storage alrendszerbe? Már az ILO 4 is tudta, nem hogy az 5. Ezért mondtam, hogy eljárt a géped felett az idő.

Nekem mindegy. Ha nem akarsz rá költeni, akkor marad a gyomorideg. :)

trey @ gépház

RAID bus controller: Broadcom / LSI MegaRAID SAS 2108 [Liberator] (rev 05)    
 ezen lógnak a hdd-k. Erről semmit sem tud a drac.

 

A vezérlőt kétféleképen érem el:

1. boot idő

2. megacli az os alól

 

Drac anynit tud, hogy virtual console-t ad, amin az OS van.

Ohhh mybazdmeg. Gumiszerelőt ne vegyek fel, hogy ne nekem kellejen elvinnem a kocsimat gumishoz? Szakácsot ne vegyek fel, hogy ne kelljen elmennem étterembe? 

Álljunk már le! Nincs kontrollmániám, ha lenne képtelen lennék delegálni. Ha képtelen lennék delegálni nem lenne akkora cégem amekkora. 

Ha kontrollmániás lennék, nem húznék el évente 2-3 hónapra a cégtől.

Ezt direkt felremagyarazod?

1. Fetisem a letszaminimalizmus.

2. Amit van ertelme outsourcingolok

3. A rajta futo alkalmazast is en fejlesztem. Szerintem ez meg ritkabb.

4. Ha leejtek valami nem adok fel allashirdetest hogy felvegyek valakit aki majd felveszi

5. Nekem nem budos a munka. 

6. A gyors atgondolt cselekves hive vagyok

 

Ps.: Ird mar meg milyen dijazasi alapon outsourcingolnad ez a munkat es szerinted mennyit lenne eredemes fizetni erte. Koszi

+1 erre. Meg magára az egészre. Főleg a ps.: részre. Mert ugyebár mi is volt a kezdeti topicban? ~4éve volt a géppel utoljára gond ha jól olvastam.

Na paff. Valaki aki dolgozót venne fel rá, vagy outsourcingoltatná a szerver felügyeleti / egyéb dolgait, az ugyan számolja már ki, hogy mennyibe jönne ki pl. alkalmazottat erre felvenni (nyilván csinálna mást is) , vagy kiadni külsős cégnek havi Xezer gombért rendelkezésre álláshoz. Akkor most vegyük a 4 évet. Osszon szorozzon ... és akkor mondja meg, hogy Oregon pénzügyileg milyen költségekkel jött ki 4 éves időtartamra ? :

a) van erre alkalmazottja ( 4éven keresztül ugye) főállásban.

b) van erre alkalmazottja, de mondjuk mellékállásba 4 órába 

c) kiadja külsős cégnek havi Xezer gombért 

d) 4 évente megcsinálja a winyó cserét saját maga + menet közben frissítgetni, felügyeli / fejlesztgeti a saját programját.

Szerintem a d) megoldás lesz a nyerő, de csak tippelek.

ps.: persze itt jöhet az hogy hát de a külsős cég az majd jól monitorozza meg minden, meg állandóan csak Oregon szerverét nézegeti, stb.. nem hinném. Lehet azzal is jönni, hogy ha alkalmazottja van, akkor az emellett nyilván tud mást munkát is elvégezni (IT területen, vagy esetleg kevergeti a vegyi tartályt holtidőben :D )

ps2.: aki meg esetleg régebbről ismeri Oregont, akár személyesen is, az pontosan tisztában van vele, hogy ő nem úgymond az átlagos "CEO", nem büdös a munka neki + az IT terület már elég régóta a hobbyja is, szereti is csinálni. Azt hiszem attól hogy valaki CEO nem hiszem hogy bármi akadálya lenne annak, hogy ő maga kezelgessen akár egy szervert is...

A poszt egy IT problémáról szól, ami user error. Nem arról ki vagyok én. Amúgy cégszervezési témát leginkább azoktól fogadok el, akik gazdasági mutatókban rám vernek. Nem állítom, hogy hibátlan lennék vagy ez a hozzáállás a legjobb. De merem azt állítani, mert tudom, hogy ebben a méretben profit/árbevételben és árbevétel/dolgozó szinten  mindenkit verek nemzetközi szinten is. Szóval ezekkel az adatokkal biztosan tudom, hogy summa jól csinálom a dolgomat.

OS alól megacli-vel lehet elérni.

Ha jól rémlik van/volt valami megaclisas-status nevű script, én annó azt használtam, mivel rögtön kidobta a fontosabb számokat, és nem kellett a megacli-vel bajlódni.

Fedora 38, Thinkpad x280

Miert ? Visszatolod backupbol ha mas nem.

Ja vagy az nincs ?

Csak akad ott meg par porgetesre valo azon a szamlalon.

Every single person is a fool, insane, a failure, or a bad person to at least ten people.

már a megacli és az félezer kapcsolójának halvány emléke is poszttraumás stresszt okoz számomra ;) Annó írtam rá php-ban egy wrappert, ami az összes random innenonnan jövő hülye id-ját is helyén kezeli, így legalább buherálni egyszerűbb

// Happy debugging, suckers
#define true (rand() > 10)

Polyhistorok kora leáldozott.

Azért a megacli is megérdemli az arany málnát, ha az eltűnt meghajtó neki nem gyanús.

"Polyhistorok kora leáldozott."

Számomra még mindig versenyelőny. Nem is kicsi.

 

De gyanús neki. Én voltam a fasz. Nem a tömbre greppeltem, hanem a meghajtókra. Ott meg: nincs meghajtó -> nincs hiba

A megaclisas-status jobb választás, mert az megcsinál mindent. A megcli-t neked kell scriptelni.

Írsz egy másik scriptet, ami a diszkeke számát számolja, ha nem 4, riaszt.

Szerkesztve: 2020. 09. 17., cs – 10:35

2 gyárbővítés és befektetési tanácsadás között neked ilyen level0.0-s faszságokra marad időd meg energiád?

Nincs ilyesmire padawan v. technikus aki napin szinten ezzel foglalkozik a cégedben? Vagy ez valami privát személyes hobbi-projected?

Nem mindig csak olyat csinálok ami megéri. Van amit azért csinálok, mert szeretem és amúgy is kulcsfontosságú. Fasz voltam belátom, de ettől még nem adnám ki a kezemből. Már csak azért sem, mert 2011-ben bevittem a  szervert a Doclerhez azóta 3x voltam bent nála mindháromszor hdd csere miatt. Alapvetően beküldhetnék valakit (erre van is bent terv), ha a rack led világított volna sárgán, de nem ez volt. Mind a négy szépen zölden világított. Lássuk be, raid10-nél 4 hdd-ből kiesett 2, szóval könnyű elkúrni innen. 

 

A cégnél amúgy mi extrém kevesen vagyunk. Nekem ez a  fétisem. Mindent automatizálok, amire csak lehet gépet veszek vagy szoftvert írok. Így a vége az, hogy kb egyedül vagyok amíg még kellek. Az ideálom/vizióm egy nulla emberes cég.

Azt gondolom még arról, hogy van rá időm, hogy az a menedzser akinek nincs ideje vagy nem tud időt csinálni magának az rossz menedzser.

Csak azért kérdezem, mert ismerek egy control-freak embert, aki beleártja magát a jelenlegi pozíciójánál (eleg magasan van mar régóta)  2-3 szinttel alacsonyabb napi szintű piszlicsáré faszságokba is. Ahelyett hogy hagyná az alatta levő embereket (több szint mélységig lefelé) is érvényesülni, és be tudnák bizonyítani h. ők sem teljesen segghülyék és alkalmatlanok a szintjükön levő problémák kezelésére, nem kell irányítani őket. Ha már 1x fel lettek oda véve (pl. pont az ő jóváhagyásával). Míg a jelenlegi helyzetben az van, h. nagyon meg se tudják az emberek a saját szintjükön felmerülő dolgokat szervezni, mert úgyis jön az a valaki, aki majd jól beleszól és úgy kell csinalni ahogy ő akarja.

Szóval röviden: miért nem hagyol vmi újoncot akit ez még érdekel is és MÉG (!!!!!!!!!!!!!!!!!!) LELKES, tudna belőle tanulni? Neked ez már nem újdonság ilyen RAID cuccokkal vesződni, nem is kihívás, csak az idődet viszi. Más meg talán szívesen beletanulna ebbe.

Mert nincs ilyen ember a cégnél és nem is akarok felvenni. Ha meg lenne, akkor annak ki mutatná meg?
Anno az operatív vezetőnek megmutattam, hogy ilyenkor mi a teendő illetve van olyan itteni fórumtárs akit bármikor odaengednék a géphez és vész esetén ő segítene nekem. 

Lehet fura, de mostanában a gyártószalag mellé is beállok napi 1 órára dolgozni. Nem azért mert ott rám van szükség, hanem azért, mert keresem a hibáinkat amiket kijavíthatok.

Manapság bármilyen szinten is megéri hardver RAID-et használni?

https://github.com/glensc/nagios-plugin-check_raid

nem kell hozza nagios/icinga, "kezzel" is futtathatod, az eredmenyt meg elkuldod mailbe, akarmi.

a masik meg https://www.claudiokuenzler.com/monitoring-plugins/check_smart.php , ez is futtathato kezzel, de itt mar meg kell adni a konkret devicet.

 

nyilvan sajat script irasa/futtatasa edesebb erzest ad :)

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Pedig célszerű a megacli mellett a smartctl-t is használni. A megacli-t használod a tömb állapotának lekérdezésére, míg a smartctl-t a reallocated_sector_count-ra.  Ez utóbbi előbb fogja jelezni, ha a diszkkel gond van, mert a vezérlő ezt elfedi míg tudja (bár ez típus függő is lehet).

Anno mikor LSI-t használtam mindkettő be volt kötve zabbixba, de ha csak egy smartd-t telepítesz e-mail riasztással az is több mint a semmi.

smartctl újabb változatai már meg tudják szólítani a RAID device mögötti diszkeket is valami hasonló szintaxissal:

https://www.smartmontools.org/wiki/Supported_RAID-Controllers

https://www.cyberciti.biz/faq/linux-checking-sas-sata-disks-behind-adap…

Szerkesztve: 2020. 09. 17., cs – 19:59

Dell OMSA-t fel kell rakni, elég sok Linux-hoz ad repot Dell, sima csomagkezelővel telepíthető.
Régebbi Dell-eket is tudja, pl 2950, 2900, ….

Létezik egy nem check_openmanage plugin nagios-hoz, ezt ha simán futtatod akkor valami hasonlót kapsz:
OK - System: 'PowerEdge R630', SN: 'xxxxxxx', 256 GB ram (8 dimms), 2 logical drives, 8 physical drives

Ha bármivel, nem csak RAID-el, hanem PSU, memória, FAN, etc … gond van, akkor pedig arra fog egy error-t tolni.
Ha nincsen nagios, akkor saját scriptet átírod, hogy ennek a kimenetét küldje el, ha nem 0 a return, akkor mehet a riasztás email-ban, vagy ahogy szeretnéd.

Szerkesztve: 2020. 09. 18., p – 13:49

Megy itt az okoskodas, mindjart kihozzak, h 10 eve meg nem lehetett megbizhatoan uzemeltetni. De most mar ott vagyunk.

Dobtal a sok kutyanak gumicsontot, azok meg rakaptak. Jo nagy troll vagy:D

 

BTW, hasznalj zfs-t (vagy mar szoftveres megoldast) a hozza tartozo szeleskoruen elerheto official monitorozo megoldasokkal es nem lesz ilyen gondod.