Nos, a kérdés adott, ~random időközönként 7-15 nap találkozok egy olyannal hogy konkrétan nem elérhető a szerver.
Mikor a konzol elé érek az még él (mivel úgy hagytam a monitort ezért látom a konzolt), de semmire nem reagál és nincs kernel panic sem.
[ 0.000000] DMI: HPE ML10Gen9/ML10Gen9, BIOS 1.005 04/24/2017
^^ Fenti "FakeHP" belépőentry (se) szervernek se nevezhető történetről van szó.
Memtest ment rajta, semmi. Semmi extrát nem csinál, mail + smb szolgáltatás.
syslogba semmi fagyás után, sehol semmi információ amiből kiindulhatnék.
Winyókon smart adatok rendben.
Nincs ötletem mi lehet, mert se log se semmi, csak kettéfagy az egész. REGECC ramok vannak ebben pedig, annak nem kellene kettéfagyni.
Javaslatok? (azon túl hogy "dobjam ki a picsába? :) mert addig már eljutottam)
Hozzászólások
Melegedés?
sensors jó értéket mutat + klímatizált helyiségben van. ezt kizártam :(
Esetleg egy soros port a gépbe, és azon monitorozni/logolni az eseményeket?
kiprobalnam ezt a disket/rendszert egy masik vasban.
meg ha mar ugyis ures lesz ez a vas, kiprobalnek benne egy masik disket/oprendszert.
neked aztan fura humorod van...
Új diszkekkel ment bele ebbe a vasba, de az lesz hogy megnézzük egy másikba is valószínűleg.
csak nagyon nagyon nagyon ritkán láttam Linuxot így kettéfagyni.. vagy ~15 éve kb..
Biztos, hogy nem csak sima ECC ram?
A firmware-ek a legújabbak, a HP-k elég jól frissíthetőek, sőt szinte kötelező frissíteni.
ECCnek ECC, a REG-be nem vagyok biztos
A HP "szerver" ne tévesszen meg, ez a HP alja... intel chipshetel meg valami AMI BIOSal.. azaz ilyen FakeHP cucc..
Ezáltal az FW-k viszonylag szűkítve, de amúgy a ami elérhető volt ehhez a sz.rhoz az felment rá.
Node ILO és ilyesmi csak van, vmi logot szoktak azért ezek is kiadni magukból.
Intel chipset van minden Intel szerverben, igen nehéz lenne mással összehozni. A BIOS is 2017-es, illene újabbnak lennie: https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX_843cf035f1d…
Tudom entitlement required, de gondolom garis a gép, talán a 3 év még él és lehet regisztrálni.
A BIOS-t azért írkálom, mert több intel szerverrel (igaz nem HP, de többféle gyártó még E5-tel is...), hogy eccercsak megállt vagy rebutált. Minden esetben BIOS frissítést javasolt a száppport és csodák csodájára megszüntek ezek a dolgok. Ahol HP gépem van vagy a partnernek az van, ott a fw-ek, BIOS-ok felkerülnek, ebben nincs kegyelem (leállások terén). Egyébként HP szervizes volt soksok éve, aki mondta, hogy legalább évente toljuk fel a HP firmware update CD-t, az jó hatással van. Esetünkben ez egy adag portalanítással is párosult, jó kis kompresszoros módszerrel. :)
Nincs, azért mondottam fentebb, vagy lehet nem hogy ez a legalja. Rajta van egy HP "cimke" de nem HP BIOS, egy sima egyszerű AMI BIOS fogad bennünket, ami valljuk be, a HP legalja.
Rányomtatták a címkét és eladták annó occóért.. Kb ennyi köze van a HPhoz. (mmint hogy a cimke és ennyi)
Ha tolsz neki valami stressz tesztet, meddig megy? Hőfokokat loggolnám. Mekkora a loadja általában?
loadja minimális, nagyon kis infrát szolgál ki.. ha már 2.00 ás load van az már soknak számít, de amúgy ilyen 0.03 - 0.30 között szokott mozogni
Ja, akkor unalmában fagy ki >_-_-_<
lehet :)
Esetlegesen betámadják? Írtad, hogy intra szerver, de mégis ...
Tűzfal log?
Hardveres gond lehet: nálam utoljára ilyet haldokló tápegység magában, vagy gyenge/régi táp + meghalt ventillátor, vagy gyenge/régi táp + haldokló vinyó okozott.
Másik esetem 32bites kernel+slabcache telítődés volt, az is csinált olyat, hogy elérhetetlenné vált a gép, de gondolom itt ez kizárva, mert modern rendszer fut...
+1 - Nálam is. Én is cseréltem, teszteltem mindent, aztán egy indításkor szétpukkanó kondi végülis a megfelelő megoldás irányába terelt. (ti. tápcsere :) )
üdv: pomm
A 852-es kídlap telepötúsa sikeresen befejezádétt
Nem tudom, hogy ez mennyire lehet reális ötlet, de nálunk pontosan ugyanezt csinálja az összes intel alapú vasunk különféle linuxok alatt, és ott kivétel nélkül mindig az volt a baj, hogy a proci felvett egy olyan energiagazdálkodós C-state állapotot, amiből aztán linux alatt nincs visszaút.
https://itectec.com/ubuntu/ubuntu-how-to-set-intel_idle-max_cstate1/
Grubban kernel paraméternek átadva ezt:
intel_idle.max_cstate=1
a probléma megoldódott. Ezzel sajnos az energiagazdálkodás se lesz jó, ha jól emlékszem, akkor olyan 30-40%-nyi áramot pocsékolunk valamihez képest (nem saját mérés, valahol olvastam az egyes c-statéket), dehát na.
Ez egy viszonylag régi hiba, több kernel verziónál is ott van, hogy na végre már kijavították, de a tapasztalatom azt mutatta, hogy lehet, hogy kijavították, de enélkül akkor is lefagy párnaponta a gép.
Nem a Linux a gond, hanem a proci. Van egy-két intel szerver proci ami beragad alacsony C state-ekben.
PSU
nekem ez volt a megoldas. Ugyanezek a tunetek. Megall mint a szog, de nem kikapcs semmi, a melegedes problema jobb, mert akkor allandoan kikapcsolt.
Every single person is a fool, insane, a failure, or a bad person to at least ten people.
Egy csokorba szedem.
Köszi mindenkinek az infókat! Első körben ez egy csere lesz majd, de a PSU -t is megnézzük majd cserének.
Az intel_cstate-es dolgot is megnézem majd.
Köszi mindenkinek!
Modern SMP kernel nem igazán tud egyszerre lefagyni. Szóval én tuti hardver hibára gyanakodnék. Max. BIOS lehet még.