Nos, a kérdés adott, ~random időközönként 7-15 nap találkozok egy olyannal hogy konkrétan nem elérhető a szerver.
Mikor a konzol elé érek az még él (mivel úgy hagytam a monitort ezért látom a konzolt), de semmire nem reagál és nincs kernel panic sem.
[ 0.000000] DMI: HPE ML10Gen9/ML10Gen9, BIOS 1.005 04/24/2017
^^ Fenti "FakeHP" belépőentry (se) szervernek se nevezhető történetről van szó.
Memtest ment rajta, semmi. Semmi extrát nem csinál, mail + smb szolgáltatás.
syslogba semmi fagyás után, sehol semmi információ amiből kiindulhatnék.
Winyókon smart adatok rendben.
Nincs ötletem mi lehet, mert se log se semmi, csak kettéfagy az egész. REGECC ramok vannak ebben pedig, annak nem kellene kettéfagyni.
Javaslatok? (azon túl hogy "dobjam ki a picsába? :) mert addig már eljutottam)
- 592 megtekintés
Hozzászólások
Melegedés?
- A hozzászóláshoz be kell jelentkezni
sensors jó értéket mutat + klímatizált helyiségben van. ezt kizártam :(
- A hozzászóláshoz be kell jelentkezni
Esetleg egy soros port a gépbe, és azon monitorozni/logolni az eseményeket?
- A hozzászóláshoz be kell jelentkezni
kiprobalnam ezt a disket/rendszert egy masik vasban.
meg ha mar ugyis ures lesz ez a vas, kiprobalnek benne egy masik disket/oprendszert.
neked aztan fura humorod van...
- A hozzászóláshoz be kell jelentkezni
Új diszkekkel ment bele ebbe a vasba, de az lesz hogy megnézzük egy másikba is valószínűleg.
csak nagyon nagyon nagyon ritkán láttam Linuxot így kettéfagyni.. vagy ~15 éve kb..
- A hozzászóláshoz be kell jelentkezni
Biztos, hogy nem csak sima ECC ram?
A firmware-ek a legújabbak, a HP-k elég jól frissíthetőek, sőt szinte kötelező frissíteni.
- A hozzászóláshoz be kell jelentkezni
ECCnek ECC, a REG-be nem vagyok biztos
A HP "szerver" ne tévesszen meg, ez a HP alja... intel chipshetel meg valami AMI BIOSal.. azaz ilyen FakeHP cucc..
Ezáltal az FW-k viszonylag szűkítve, de amúgy a ami elérhető volt ehhez a sz.rhoz az felment rá.
- A hozzászóláshoz be kell jelentkezni
Node ILO és ilyesmi csak van, vmi logot szoktak azért ezek is kiadni magukból.
Intel chipset van minden Intel szerverben, igen nehéz lenne mással összehozni. A BIOS is 2017-es, illene újabbnak lennie: https://support.hpe.com/hpsc/swd/public/detail?swItemId=MTX_843cf035f1d…
Tudom entitlement required, de gondolom garis a gép, talán a 3 év még él és lehet regisztrálni.
A BIOS-t azért írkálom, mert több intel szerverrel (igaz nem HP, de többféle gyártó még E5-tel is...), hogy eccercsak megállt vagy rebutált. Minden esetben BIOS frissítést javasolt a száppport és csodák csodájára megszüntek ezek a dolgok. Ahol HP gépem van vagy a partnernek az van, ott a fw-ek, BIOS-ok felkerülnek, ebben nincs kegyelem (leállások terén). Egyébként HP szervizes volt soksok éve, aki mondta, hogy legalább évente toljuk fel a HP firmware update CD-t, az jó hatással van. Esetünkben ez egy adag portalanítással is párosult, jó kis kompresszoros módszerrel. :)
- A hozzászóláshoz be kell jelentkezni
Nincs, azért mondottam fentebb, vagy lehet nem hogy ez a legalja. Rajta van egy HP "cimke" de nem HP BIOS, egy sima egyszerű AMI BIOS fogad bennünket, ami valljuk be, a HP legalja.
Rányomtatták a címkét és eladták annó occóért.. Kb ennyi köze van a HPhoz. (mmint hogy a cimke és ennyi)
- A hozzászóláshoz be kell jelentkezni
Ha tolsz neki valami stressz tesztet, meddig megy? Hőfokokat loggolnám. Mekkora a loadja általában?
- A hozzászóláshoz be kell jelentkezni
loadja minimális, nagyon kis infrát szolgál ki.. ha már 2.00 ás load van az már soknak számít, de amúgy ilyen 0.03 - 0.30 között szokott mozogni
- A hozzászóláshoz be kell jelentkezni
Ja, akkor unalmában fagy ki >_-_-_<
- A hozzászóláshoz be kell jelentkezni
lehet :)
- A hozzászóláshoz be kell jelentkezni
Esetlegesen betámadják? Írtad, hogy intra szerver, de mégis ...
Tűzfal log?
- A hozzászóláshoz be kell jelentkezni
Hardveres gond lehet: nálam utoljára ilyet haldokló tápegység magában, vagy gyenge/régi táp + meghalt ventillátor, vagy gyenge/régi táp + haldokló vinyó okozott.
Másik esetem 32bites kernel+slabcache telítődés volt, az is csinált olyat, hogy elérhetetlenné vált a gép, de gondolom itt ez kizárva, mert modern rendszer fut...
- A hozzászóláshoz be kell jelentkezni
+1 - Nálam is. Én is cseréltem, teszteltem mindent, aztán egy indításkor szétpukkanó kondi végülis a megfelelő megoldás irányába terelt. (ti. tápcsere :) )
üdv: pomm
A 852-es kídlap telepötúsa sikeresen befejezádétt
- A hozzászóláshoz be kell jelentkezni
Nem tudom, hogy ez mennyire lehet reális ötlet, de nálunk pontosan ugyanezt csinálja az összes intel alapú vasunk különféle linuxok alatt, és ott kivétel nélkül mindig az volt a baj, hogy a proci felvett egy olyan energiagazdálkodós C-state állapotot, amiből aztán linux alatt nincs visszaút.
https://itectec.com/ubuntu/ubuntu-how-to-set-intel_idle-max_cstate1/
Grubban kernel paraméternek átadva ezt:
intel_idle.max_cstate=1
a probléma megoldódott. Ezzel sajnos az energiagazdálkodás se lesz jó, ha jól emlékszem, akkor olyan 30-40%-nyi áramot pocsékolunk valamihez képest (nem saját mérés, valahol olvastam az egyes c-statéket), dehát na.
Ez egy viszonylag régi hiba, több kernel verziónál is ott van, hogy na végre már kijavították, de a tapasztalatom azt mutatta, hogy lehet, hogy kijavították, de enélkül akkor is lefagy párnaponta a gép.
- A hozzászóláshoz be kell jelentkezni
Nem a Linux a gond, hanem a proci. Van egy-két intel szerver proci ami beragad alacsony C state-ekben.
- A hozzászóláshoz be kell jelentkezni
PSU
nekem ez volt a megoldas. Ugyanezek a tunetek. Megall mint a szog, de nem kikapcs semmi, a melegedes problema jobb, mert akkor allandoan kikapcsolt.
Every single person is a fool, insane, a failure, or a bad person to at least ten people.
- A hozzászóláshoz be kell jelentkezni
Egy csokorba szedem.
Köszi mindenkinek az infókat! Első körben ez egy csere lesz majd, de a PSU -t is megnézzük majd cserének.
Az intel_cstate-es dolgot is megnézem majd.
Köszi mindenkinek!
- A hozzászóláshoz be kell jelentkezni
Modern SMP kernel nem igazán tud egyszerre lefagyni. Szóval én tuti hardver hibára gyanakodnék. Max. BIOS lehet még.
- A hozzászóláshoz be kell jelentkezni