Linux szerver kettéfagy, hogy lehetne rá jönni mi az oka ?

Fórumok

Nos, a kérdés adott, ~random időközönként 7-15 nap találkozok egy olyannal hogy konkrétan nem elérhető a szerver.

Mikor a konzol elé érek az még él (mivel úgy hagytam a monitort ezért látom a konzolt), de semmire nem reagál és nincs kernel panic sem.

[    0.000000] DMI: HPE ML10Gen9/ML10Gen9, BIOS 1.005 04/24/2017
 

^^ Fenti "FakeHP" belépőentry (se) szervernek se nevezhető történetről van szó.

Memtest ment rajta, semmi. Semmi extrát nem csinál, mail + smb szolgáltatás.
syslogba semmi fagyás után, sehol semmi információ amiből kiindulhatnék.

Winyókon smart adatok rendben.

Nincs ötletem mi lehet, mert se log se semmi, csak kettéfagy az egész. REGECC ramok vannak ebben pedig, annak nem kellene kettéfagyni.

Javaslatok? (azon túl hogy "dobjam ki a picsába? :) mert addig már eljutottam)

Hozzászólások

Esetleg egy soros port a gépbe, és azon monitorozni/logolni az eseményeket?

kiprobalnam ezt a disket/rendszert egy masik vasban.

meg ha mar ugyis ures lesz ez a vas, kiprobalnek benne egy masik disket/oprendszert.

neked aztan fura humorod van...

Biztos, hogy nem csak sima ECC ram?

A firmware-ek a legújabbak, a HP-k elég jól frissíthetőek, sőt szinte kötelező frissíteni.

Node ILO és ilyesmi csak van, vmi logot szoktak azért ezek is kiadni magukból.

Intel chipset van minden Intel szerverben, igen nehéz lenne mással összehozni. A BIOS is 2017-es, illene újabbnak lennie: https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX_843cf035f1d…

Tudom entitlement required, de gondolom garis a gép, talán a 3 év még él és lehet regisztrálni.

A BIOS-t azért írkálom, mert több intel szerverrel (igaz nem HP, de többféle gyártó még E5-tel is...), hogy eccercsak megállt vagy rebutált. Minden esetben BIOS frissítést javasolt a száppport és csodák csodájára megszüntek ezek a dolgok. Ahol HP gépem van vagy a partnernek az van, ott a fw-ek, BIOS-ok felkerülnek, ebben nincs kegyelem (leállások terén). Egyébként HP szervizes volt soksok éve, aki mondta, hogy legalább évente toljuk fel a HP firmware update CD-t, az jó hatással van. Esetünkben ez egy adag portalanítással is párosult, jó kis kompresszoros módszerrel. :)

Nincs, azért mondottam fentebb, vagy lehet nem hogy ez a legalja. Rajta van egy HP "cimke" de nem HP BIOS, egy sima egyszerű AMI BIOS fogad bennünket, ami valljuk be, a HP legalja.

Rányomtatták a címkét és eladták annó occóért.. Kb ennyi köze van a HPhoz. (mmint hogy a cimke és ennyi)

Szerkesztve: 2021. 01. 12., k – 21:52

Ha tolsz neki valami stressz tesztet, meddig megy? Hőfokokat loggolnám. Mekkora a loadja általában?

Esetlegesen betámadják? Írtad, hogy intra szerver, de mégis ...
Tűzfal log?

Hardveres gond lehet: nálam utoljára ilyet haldokló tápegység magában, vagy gyenge/régi táp + meghalt ventillátor, vagy gyenge/régi táp + haldokló vinyó okozott.

Másik esetem 32bites kernel+slabcache telítődés volt, az is csinált olyat, hogy elérhetetlenné vált a gép, de gondolom itt ez kizárva, mert modern rendszer fut...

Nem tudom, hogy ez mennyire lehet reális ötlet, de nálunk pontosan ugyanezt csinálja az összes intel alapú vasunk különféle linuxok alatt, és ott kivétel nélkül mindig az volt a baj, hogy a proci felvett egy olyan energiagazdálkodós C-state állapotot, amiből aztán linux alatt nincs visszaút.

https://itectec.com/ubuntu/ubuntu-how-to-set-intel_idle-max_cstate1/

Grubban kernel paraméternek átadva ezt: 

intel_idle.max_cstate=1

a probléma megoldódott. Ezzel sajnos az energiagazdálkodás se lesz jó, ha jól emlékszem, akkor olyan 30-40%-nyi áramot pocsékolunk valamihez képest (nem saját mérés, valahol olvastam az egyes c-statéket), dehát na. 

Ez egy viszonylag régi hiba, több kernel verziónál is ott van, hogy na végre már kijavították, de a tapasztalatom azt mutatta, hogy lehet, hogy kijavították, de enélkül akkor is lefagy párnaponta a gép.

PSU

nekem ez volt a megoldas. Ugyanezek a tunetek. Megall mint a szog, de nem kikapcs semmi, a melegedes problema jobb, mert akkor allandoan kikapcsolt.

Every single person is a fool, insane, a failure, or a bad person to at least ten people.

Modern SMP kernel nem igazán tud egyszerre lefagyni. Szóval én tuti hardver hibára gyanakodnék. Max. BIOS lehet még.