gép újraindulás 2hetente

Fórumok

Sziasztok!

Van egy 0-24ben üzemelő gépem, debian lennyvel. Azt a jelenséget produkálja, hogy 2hetente újraindul. Minden második szombaton 17óra 30valamennyi perckor. De hogy mitől...? Szeretném kideríteni, hogy vajon ezt mi idézi elő.
Nézegettem a logokat, nem találtam semmi érdekeset, de lehet átsiklottam a megoldás felett.
Tudnátok segíteni, hogy vajon merre induljak el a felderítésben? Hol keresgéljek, és mit? :)

Hozzászólások

a cronban meg a logokban keresgélj.

----------------------------------
feel the beat - it's everywhere!

Hol van a gép helyileg? Ha kikapcsolod az ACPI-t, akkor is újraindul?

+1

Ha recovering journal, akkor váratlan újraindításról van szó.

Fut a gépen watchdog? Esetleg az aktiválódik indokolatlanul...

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Érdekes dolog történt. Nem oldódott meg a probléma, megvolt az esedékes újraindulás, de...
Ugye volt egy óraátállítás nemrég. Gép órája át is állt szépen, viszont az újraindulás most nem 17:35kor hanem 16:35kor történt.

date
2009. nov. 9., hétfő, 17.10.51 CET
hwclock --show
2009. nov. 9., hétfő, 17.10.35 CET -0.525424 másodperc

Hardware óra is jól jár. Szóval érdekes.

Így sincs ötlete senkinek? :)

[OFF] Az Urban Terroros szervereddel mi történt?
Egyszer nyáron játék közben ledobott, és azóta se látom a szerver listán :-D
-------------------------------
"Nehogyma'! Te vagy a Blade Runner!"

Keveset játszunk már, aztán nem volt rá idő meg kapacitás figyelgetni. Meg először azt hittem h az kavarja meg a rendszert és amiatt indulgat ujra. Szval nem elég stabil most hozzá a gép. Ha megoldódnak ezek az ujraindulásos prolémák, elképzelhető h újrainditom az UT-t is.

Néha azért jó lenne felgurulni egy pár percre :)

Egy próbát megér:

motion (mozgásérzékelővel ellátott képfelvevő webkamerához)

Nekünk is van egy ilyen gépünk annál a szolgáltatónál, de a mienknek kikapcsol a tápja. Úgy kell bekapcsoltatni 2-3 hetente, de akkor most figyelni fogom az időpontot :).

Lehet rá fogjuk tenni egy szünetmentesre hogy logoljuk mi a szar történik.

Némely szünetmentes gyári beállítása szokta ezt okozni.

All APC Smart-UPS initiate a self-test when power is turned on and every
2 weeks, as well as at the push of a button and at pre-determined times
(using software). This ensures that you will be alerted of failing batteries
before they wear out.

Más márkánál:
Automatic self-tests every two weeks ensure that you will be alerted to degraded batteries before they wear out. You may perform self-tests anytime.
--
http://opensolaris.org/os/project/indiana/
http://www.opera.com/browser/

Ha beraksz egy UPS-t a szervered elé, annak egy pár év alatt szépen csendben kiöregednek az akkumulátorai. Aztán amikor jön a valódi áramszünet, akkor már azt a két percet sem fogja tudni áthidalni, amíg eljut a szerver a halt-ig (most nem egy szélvészgyors Windows 7 szerverről beszélek, ami nyilván 2 másodperc alatt shutdown-ol).
Ennek kivédésére több választási lehetőség van:
1. Te gondoskodsz időnként az UPS teszteléséről
2. Rábízod az UPS-re - mondjuk kéthetente
3. Ha a szolgáltatás nem bírja el a teszteléssel történő kiesést, akkor pár évente szó nélkül cseréled az UPS-t, vagy az akkumulátorokat
4. Gazdag vagy és HA cluster mellé kettős betáplálásod van tartalék aggregátorral (ebben az esetben sem azonnal hidal át az aggregátor és azt sem árt rendszeresen ellenőrizni)

Üdv,
Dw.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

> Ha a szolgáltatás nem bírja el a teszteléssel történő kiesést
Na most én csak azt nem értem, hogy szükségszerű ez a kiesés az UPS tesztnél, vagy csak akkor történik, ha már öreg az akksi?

De igazából költői a kérdés, mert az egyik lehetőséget úgysem fogadom el. :)

áá tényleg két hét, valami lenny bug lenne? átrakattuk a terem másik végébe, hátha javul a részidő :D

Wed Oct 28 18:04:58 2009

Wed Nov 11 18:17:21 2009

Mivel amúgy is "misztikus" a hiba, hagy kérdezzek valami butaságot:
biztonsági frissítések automatikusan jönnek, vagy manuálisan oldod meg a kérdést? Ha esetleg automatikusra tetted, mennyi a periódusa ennek?

Takarítónéni kihúzza a konnektorból, mert a porszívónak kell az aljzat.

Milyen vas és hány diszk van a gépben?

Én rendszeresen küzdök random reboot / random kernel panic problémákkal olyan összetákolt PC -knél amiben 10+ diszk van. Hiába teszem bele a legjobb Enermax tápot, 1 éves uptime -ot a legritkábban esetben érek el nagy (alkalmi) terhelésű 10+ diszkes PC -vel, hiába szerver alaplap és ECC RAM. A 4-6 diszkes tákolt PC -k hasonló konfigban mennek évekig gond nélkül. Egyelőre nem tudom a jelenség pontos okát, csak hogy ilyen is van. :)

Ha annyira menetrendszerűen történik az újraindulás, akkor menetrend szerint érdemes lenne jól megnézni, hogy pontosan mi történik. Logot kellene abban az időszakban szinkronizálni egy távoli gépre (sshfs): elsősorban azt lenne jó látni, hogy milyen folyamatok futnak (no meg mennyire terhelnek). (Esetleg a helyszínen is érdemes lehet élőben nézni, hogy mi történik - ha megoldható.)
Aztán a BIOS-t is érdemes lehet átbönészni.
És végül -attól függően, hogy mennyire kivitelezhető- egy hétvégére máshová (nagyon máshová, nem a terem másik sarkába) kell költöztetni a gépet.

Nem akarok belepofazni a nagyok dolgaba, de mivel mindig ugyan akkor tortennek az ujraindulasok, ezert nem jo otlet az adott idopontban odamennyi a gephez 10 perccel korabban, es figyelni, hogy mi tortenik?
Ha meg nem tortenik semmi, akkor eselyes, hogy emberi beavatkozas szokott lenni...

+1

"Attól, hogy kinyomtatták, még nem szentírás..."

Ma volt szerencsém belepillantani a BIOS-ába a kicsikének IP-konzolon. Az órája 1 órával visszább van mint a pontos idő. Tehát a teória, hogy nem a gép hibája a dolog megdőlni látszik. Ráadásul mostmár nem csak kéthetente indul újra, hanem rendszertelenül.

Két dologra gyanakodnék: az egyik az alaplap: Tyan K8WE , a másik a SCSI kártya: Adaptec 2200S

Logokban változatlanul semmi.

Van ötletetek, hogy deríthetném ki hogy mi okozza a problémát? Tudom valahogy a logolást vmi durvábbra rakni, hogy minden apró kis dolgot naplózzon?

Sőt, eszembe jutott még valami. Kb akkor kezdődtek a gondok mikor egyik kolegám kicserélte a gépben a 2 egymagos procit, két 2magosra, és rosszul rakta rá az egyikre a hűtőventillátort. Pár napig ment úgy a gép mire valaki észrevette.

Processzorokat szerintetek hogyan és mivel tudnám ellenőrizni? Ha lehet szerverszobai látogatás nélkül :)

A hosting cégnél milyen UPS-en vannak a gépek? Konkrétan az a kérdés, hogy kváziszinuszos (négyszöggel közelített szinusz), vagy rendes, szinuszos?

Csak mert ha aktív PFC-s a tápegység a gépedben (főleg a Chieftec GPS széria háklis nagyon erre, nekem is volt...), és az UPS meg kváziszinuszos, akkor az első alkalommal, amikor megpróbál akksiról járni a gép (áramszünet, vagy önteszt), le fog állni (a PFC vezérlő megbolondul a négyszögjeltől, és túlterhelésbe viszi az UPS-t, amely ezt érzékelve leáll.).

Tehát első körön a tápegység pontos típusa érdekelne, illetve hogy a szolgáltató milyen tápot ad akkus üzemben. (Ha nem tudják megmondani, vigyél oszcilloszkópot, és nézd meg magad)

Petya

A tápról össz-vissz annyi információm van, hogy HIPRO 700W-os. Megpróbálok valahonnan infót szerezni a dologról. De mint írtad, ez akkor leállítja végsősoron az UPS-t. Ezt meg nem tapasztalták az operátorok. Csunya lenne, ha négyszögjeles UPS-ei lennének a cégnek, de a mai világban nem lepődnék meg ezen sem :)

Köszi az ötletet.