Rendszer nem indult - mi lehetett a kiváltó ok?

Fórumok

Sziasztok!

Múltkor szenvedtem egy géppel, ami normál körülmények között folyamatosan üzemel, cirka 2-3 hónappal előtte volt utoljára leállítva.
Normál asztali gép a hardver, de ezt most hagyjuk... került bele egy bővítőkártya, ezután nem indult (se' vele, se' nélküle).
RAM-okat megigazítva magához tért, némi memtest nem keltett gyanút.

Rendszer Debian Wheezy, szoftveres RAID 1-gyel.
Kernel a Debian alap 3.2.0-4 verzió, x64.

Amikor indítottam volna, "reboot loop"-ba került - Grub bejött, majd valahol az initramfs betöltése folyamán resetelte magát.
Pendrive-ról RIP-linux felbootolt, lemezeket látta, hiba nem került elő.
Initramfs, Grub újragenerálása, később teljes kernel-eltávolítás és reinstall nem segített, reboot loop maradt.

Fájlrendszer-sérülés sem volt.

Kínomban fordítottam rajt egy kernelt - ez nem indult újra, de be sem töltött... mintha nem látná a HDD-ket.
Itt állt meg. (Az mdadm konfigurációja helyes, de cirka fél-egy perc alatt /nem mértem/ nem találta meg a root eszközt, feladta.)
Az idézett UUID-vel rendelkező (root) partíciót RIP-Linux alól láttam.

Végül hosszas szenvedés után eljutottam a CMOS-resetig. Noha a beállításokon semmi nem változott, a rendszer betöltési folyamatán igen.
Az általam fordított kernel továbbra is várakozott ennél a képernyőnél (a fenti kép előzménye is egy ilyen várakozás volt), de a rendszer el tudott indulni.
A gyári kernel betöltésekor továbbra is rebootolt, de újfent eltávolítva és visszatéve a helyére már azzal is működik.

Sőt, jelenleg a gyári kernellel megjelenik az utóbbi képen látható két sor (a két SATA HDD-t "reprezentálva"), majd várakozás nélkül elkezdi tölteni a rendszert, és azóta is működik stabilan.
(A kiindulási állapotban ugye nem az volt a gond, hogy nem jelentek meg a SATA eszközök, hanem egyszerűen újraindult, még mielőtt a képernyőre írt volna a Grub kernelindítása után bármit is.)

Kérdésem: Mire véljem ezt a hibajelenséget?
Valakinek van esetleg sejtése, mi idézhette elő, miért csak a CMOS reset segített rajta és mégis hogy jöhetett ez össze neki?

Van egy olyan sejtésem, hogy ezzel az alaplappal lesznek még gondjaim...

Hozzászólások

Subs, ez érdekesnek tűnik.
Én memória problémára tippelnék (pl. abban a formában is, hogy időzítések elállítódtak a BIOS-ban, mintha ilyeneket is lehetne beállítani).

A CMOS reset esetén hiába nem állítasz semmit, a BIOS a saját device kiosztását újra felveszi.
Ezt a
- Plug and play OS
és az
- Update ESCD (extended system configuration data)
beállítások okozták, méghozzá pont azzal a kernellel, ami nem indult.
A változás oka valószínűleg a bővítökártya lehetett. Ez azért nem látszik a BIOS menükben, mert nem listázza az ESCD információt.

Tehát kártyacserebere esetén célszerű belépni a BIOS-ba és az "Update ESCD" értéket Yes-be tenni.

Igen, ebben van valami. Bár nekem úgy rémlik, elméletileg ez hardverváltozáskor automatikusan is megtörténik, de valóban érdemes lett volna ezt még megpróbálni, sőt.
Ill. valami biztosan történhetett, mivel a kártya eltávolítása után a probléma fennmaradt - és ez a bizonyos kernel el sem indult, ekkor még módosítatlanul (ilyenkor nem hinném, hogy belepiszkálna bármibe is, lévén még a Linux kernelt sem sikerült betöltenie).

Mindenesetre ez (ESCD-ben összekavarodtak a dolgok) ésszerű magyarázatnak tűnik, ezt hülye módon nem próbáltam meg... nem gondoltam rá.

Én is hardver hibára gyanakodnék, de hogy nem talál IDE eszközöket... Azokat az ata1, ata2 soft reset sorokat nem tudom hova tenni, ha SATA diszked van.
Egyébként elég határozottan azt írja, hogy pl. UUID alapján nem találja a szükséges diszket, ami két dolgot jelenthet:
- te szúrtál el valamit mégis
- hardver hibád van, ami alaplap-kontroller-(diszk+hibás konfig)-memória-stb. is lehet, így első ránézésre.

A gépben két SATA disk van és egy PATA is - azt nem tudom, ezek közül melyiket képes ilyenkor ATA-val jelölni, különösen, mióba az IDE (PATA) lemezek is SDX-ként vannak feltüntetve (persze ezt a két SATA-ra írta). Ráadásként AHCI-ben vannak.

Azért nem találta meg UUID alapján a partíciót, mert az nem volt elérhető számára.
Az UUID egyébként jó, ezt külön ellenőriztem is még akkor, emellett ugyanez a kernel, módosítások nélkül elindult a CMOS resetet követően.

A memóriát - igaz, nem alapos teszt jelleggel, de - leellenőriztem még helyben, durva hibája nem lehetett. Az időnként beugró hibákra így nem derülne fény, de a komolyabb hibákra (ami a bootot könnyen elnyesné pl.) biztosan.
Ráadásként azóta dolgozik a gép, eddig nincs problémája.

Most fogtam csak fel: saját kernelt próbálsz használni.
Az nem lehet, hogy amikor a saját kernelt rátetted, valamit elkavartál az initrd-vel és lemaradt róla valamilyen, a boothoz szükséges driver (az initrd-ről, úgy értem).
Ahogy vissza tudok emlékezni, az initrd általában közös akkor is, ha többféle kerneled van.

Nem, a saját kernelt azért tettem csak fel, mert a gyári (stock) kernel indulás helyett reboot-körbe került.
Ez a kernel viszont először nem indult el (timeout boot során), majd CMOS reset után _ugyanez a kernel_ el tudott indulni.

Az initrd külön van az egyes kernelekhez.

Fura... az egyik gépemen valamit csúnyán elkefélhettem, mert több kernel használt közös initrd-t. Mondjuk régi rendszer, rég nem is nyúltam hozzá, máshol meg nem foglalkoztam ilyesmivel. (most néztem meg egy ubuntun, ahol viszonylag sok kernel maradt meg, itt nem csak symlinkek az initrd-k)
Szóval részemről passz, ha itt lenne a gép az orrom előtt, biztosan lennének ötleteim a szoftveres megoldásra, így távolról meghaladja a képességeimet. ;)