Dióhéjban a lényeg:
IBM xSeries szerveren Ubuntu 12.04 fut, 2 db IBM HDD, software RAID - most ne firtassuk, hogy miért software.
Szétesik a tömb. IBM mérnök kiszáll, lefuttat egy gyári tesztet, ami nem jelez hibát. Firmware-frissítéseket elvégzi, RAID-et összerakom, majd egy héten belül szétesik.
Csak ekkor jut eszembe - mea culpa - a smartctl futtatása, ami régen elfogyott fenntartott helyet jelez, azaz a szétesés akkor van amikor fizikailag rossz helyre írna az Ubuntu.
Megkérdem az IBM-et, hogy ezt hogyhogy nem jelzi a herkentyűjük, és hogy mi a vélemény arról, hogy 2 gép négy HDD-je közül három a garidő lejárta körül (kettő előtte, egy utána) kipusztul.
A válasz lényege, hogy a software RAID nem támogatott, és a szoftverük a RAID-kártya nem használata miatt nem detektál SMART-hibákat (ez szerintem ciki, de vitázni vele nincs értelme, így van és kész), és:
"A drive és firmware inkonformitásból származó bad blockok problémája: (A
HDD gyakori meghibásokban a IBM firmwarek és a nem támogatott driver
"együtt nem működésének" döntő szerepe van a bad block-ok
generálódásában. Erre láthattunk korábban is - más szerverek esetén is
-meggyőző példákat.)"
Ezek után nem látom értelmét a további levelezésnek, akár igazuk van, akár nincs. De érdekel a dolog:
1) Ilyen van?? Aki ért ennyire a dologhoz, mondja már meg, hogy ezek szerint különbözik ennyire a SuSE, a RedHat (IBM által támogatott Linuxok) és az Ubuntu kernele?
2) Nem vigyáz magára a HDD? Ha hülyeséget mondunk neki, akkor megcsinálja? Reális a következtetés, hogy ezek szerint egy vírus bad sectorokat eredményezhet?
Aki okosat válaszol, vegye figyelembe, hogy semmit nem tudok a világnak erről a részéről, beszéljen lassan, és artikuláljon tisztán:)