Windows Server 2008 R2 random leállás

Sziasztok
Egy olyan hibával állok szemben amiről még Microsoft sem tudot mit mondani
Tömören gyönyören random shutdown. Teljesen szabályosan leáll a rendszer.
Be kell gombbal kapcsolni, majd megy mondjuk 8 órát , hol 1 órát teljesen változó

A logban a következőt találtam :
Log Name: System
Source: USER32
Date: 09/06/16 5:02:46 PM
Event ID: 1074
Task Category: None
Level: Information
Keywords: Classic
User: SYSTEM
Computer: server
Description:
The process C:\Windows\system32\winlogon.exe (server name) has initiated the power off of computer WIN-IAOTS8J1CVO on behalf of user NT AUTHORITY\SYSTEM for the following reason: No title for this reason could be found
Reason Code: 0x500ff
Shutdown Type: power off
Comment:
ennyit mond a MS : https://support.microsoft.com/hu-hu/kb/2001061
Windows Server 2008 R2 jogtiszta, teljesen le frissítve.
Semmi extra nem fut rajta, egy sql server , más semmi, se AD sem DHCP semmi.
ServeR : DELL R530

Valaki esetleg találkozott hasonlóval ?

Hozzászólások

Ha rendesen leáll, akkor pedig kap valamilyen ACPI vagy egyéb jelet, hogy "állj le" és még ezen kívül lehet túlmelegedés vagy egyéb watchdog esemény. Jellemzően a management cpu és tsai tudnak ilyesmit küldeni vagy a powergomb. Egy firmware verziót ellenőrzést azért megnéznék, illetve egy teljes áramtalanítást (legalább 5 percig) még legelső körben.

Hogy érted, hogy a "Microsoft sem tudott mit mondani"?

Mi történik, ha a szerver power gombját megnyomja valaki illetve milyen nyomot hagy az eseménynaplóban?
Kizárható, hogy kontakthibás ez a nyomógomb?

Üdv,
Marci

Bocs, de egyik kérdésre sem válaszoltál, pedig szerintem relevánsak:

Hogy érted, hogy a "Microsoft sem tudott mit mondani"?

Mi történik, ha a szerver power gombját megnyomja valaki illetve ha megnyomja valaki, az milyen nyomot hagy az eseménynaplóban?

Kizárható, hogy kontakthibás ez a nyomógomb?

Próbáltad már "Do Nothing"-ra állítani a Power gombot?

Üdv,
Marci

"ezt mondja a MS https://support.microsoft.com/hu-hu/kb/2001061"
Nem ezt mondja, a cikk nem erről a jelenségről szól.

"nem próbáltam még , de nem mehet be senki"
Légy szíves, próbáld ki és mindenképp nézd meg. Ha pont a fenti kód kerül be az eseménynaplóba, az több, mint gyanús.
Nem érdekel, bemehet-e valaki, kontakthiba is lehet.

"persze benne van , hogy kontaktoks de dell nem jön ki ha nem jelez a szerver hiba kódott"
Pont e miatt javaslom, hogy ha a Power gomb megnyomásakor pont ez az üzenet kerül az eseménynaplóba, akkor állítsd "Do Nothing"-ra a Power gombot és figyeld meg a szervert egy darabig. Ha többször annyi ideig nem jelentkezik a hiba, mint szokott, máris van egy erős gyanúd.

"szerintük ez windows hiba"
No comment.

Üdv,
Marci

be állítva

érdekes ma is jelezték , hogy volt kimaradás és ezt találtam a logban

The process C:\Windows\system32\svchost.exe (server) has initiated the restart of computer WIN-IAOTS8J1CVO on behalf of user NT AUTHORITY\SYSTEM for the following reason: Operating System: Recovery (Planned)
Reason Code: 0x80020002
Shutdown Type: restart
Comment:

itt már nem shutdown

cpeter

"még egy olyan ötlet merült fel , hogy csinálni erről a rendszerről egy backupot. a felrakni egy ESXi 6.0 U2 (Dell) és virtuálba vissza állítani a rendszert."
És az min segítene? Mit tudnál meg?
Most nincs (tudomás szerint) naplózott hiba Windows oldalon, csak érthetetlen okokból, szabályosan leáll a gép néha.
Jelenleg a leállást indító esemény forrását keressük. Mit segít ezen, ha virtualizálod a környezetet?

Mondjuk azért a naplóban a leállás előtti lévő eseményeket átnézném, nincs-e ott valami fura.

Ha mindenképp tippelnem kéne most, szerintem hardveres eredetű a dolog.

Ne bonyolítsd szerintem egyelőre, menj végig a javasolt lépéseken.

Üdv,
Marci

1074

és semmmi előtte

Log Name: System
Source: USER32
Date: 10/06/16 9:12:40 PM
Event ID: 1074
Task Category: None
Level: Information
Keywords: Classic
User: SYSTEM
Computer: WIN-IAOTS8J1CVO
Description:
The process C:\Windows\system32\winlogon.exe (WIN-IAOTS8J1CVO) has initiated the power off of computer WIN-IAOTS8J1CVO on behalf of user NT AUTHORITY\SYSTEM for the following reason: No title for this reason could be found
Reason Code: 0x500ff
Shutdown Type: power off
Comment:
Event Xml:

1074
4
0
0x80000000000000

77400
System
WIN-IAOTS8J1CVO

C:\Windows\system32\winlogon.exe (WIN-IAOTS8J1CVO)
WIN-IAOTS8J1CVO
No title for this reason could be found
0x500ff
power off

NT AUTHORITY\SYSTEM
FF000500000000000000000000000000000000000000000000000000000000000000000000000000

cpeter

Munkaidőn kívül állt már így le, amikor tutti Remote Desktopról sem lehetett senki a közelében?

Következő libám:

In server 2012, there is an option on the ‘lock’ screen to shut down / restart the server.
This is controlled by the security policy: “Allow system to be shut down without having to log on.” which is located in: “Computer Configuration\Windows Settings\Security Settings\Local Policies\Security Options”
By default, this policy is set to ‘Not configured’ which allows the user to shut down or reboot the server.
Setting the policy to ‘disabled’ removes the shut down option.
This ‘lock’ screen may also be accessed if the user is accessing the server from a very old version of remote desktop which doesn’t prompt for the password before connecting to the console.
The users were able to shut down or restart the server in this fashion, even if these permissions were not granted to them. We tested this by running shutdown /r as a user, and were denied.

http://www.thedoble.com/sysadmin/server-2012-shuts-down-or-reboots-for-…

Üdv,
Marci

hát nagyon remélem, igazából ezt a választ kaptam tőlük :

Az új DSET és a Delles kollegával történt egyeztetést követően az alábbiakat találtuk:

A DSETben hiba nem látszik. Látható ugyan, hogy a tápokból ki lett húzva az áram majd vissza lett dugva – többször – azonban a logokban rendes OS graceful shutdown látszik.
Emellett a megadott 0x500ff hibakódra rákeresve úgy néz ki, hogy ez Microsoft probléma (már amennyiben Windows Server 2008 vagy 2008 R2-t futtatnak).

https://support.microsoft.com/en-us/kb/2001061

Ebben a Microsoftos Knowladbe Base articalben annyi áll, hogy tudnak a problémáról és későbbi patche-ekben javítva lesz.

A fentiekből adódóan itt nincsen hardver hibája az eszköznek.

vagyis, nesze semmi fogd meg jól :)

cpeter

Komolyan érdekelne, mikor olvassa el végre valaki azt a cikket?
Segítek: a benne leírt létező probléma az, hogy ha manuálisan és direkt állítod le a gépet de nem a shutdown.exe használatával, akkor helytelen a naplóba kerülő reason code. Ennyi: rossz reason code kerül a naplóba.
Szó sincs arról a cikkben, hogy az OS ismeretlen okból egyszer csak szabályosan leállna.

Üdv,
Marci

Igazni igaz, mert a cikk azt nem állítja, hogy egyéb segédprogramok hívásánál nem jelentkezne a rosszul naplózott reason code hibája. Arról egyszerűen nem mond semmit.

Csakhogy arról főként semmit sem mond a cikk, hogy mitől áll le cpeter gépe.
Márpedig itt ez utóbbi kérdésre keressük a választ, nem pedig arra, hogy a szabályos leállítás reason code-ja vajon mitől lett System Failure (0x500ff).

Szóval ne terheljük cpeter-t azzal, hogy a fenti cikk elmondja-e a világ minden tudnivalóját a rosszul naplózott reason code-ról, ugyanis annak semmi relevanciája nincs az ő hibája szempontjából.
Legyünk tömörek és mondjuk ki: a szerviz által citált cikknek semmi köze a leállások ismeretlen okához.

Üdv,
Marci

A winlogon nem fura, én is elő tudtam hozni
(ezt lefordítva (csak reasonnek 0-át küldtem mert 10 alatt már csak így unknown)):

A(z) C:\WINDOWS\system32\winlogon.exe (MY-PC) folyamat a(z) LOCALNET\gemnon felhasználó nevében "Leállítás" művelet végrehajtását kezdeményezte a(z) MY-PC számítógépen. A művelet oka: Nem található cím ehhez az okhoz
. Ok kódja: 0x500ff
. Leállítás típusa: Leállítás
. Megjegyzés:

De az NT AUTHORITY\SYSTEM gyanús lehet (valami service lövi le?)

Van egy ötletem: a shutdown-t általában WMI-al szokták kérni, a Win32Shutdown metódussal, ennek itt találod a leírását:

https://msdn.microsoft.com/en-us/library/aa394058(v=vs.85).aspx

Bekapcsolhatod a WMI logolását, ez a a %windir%\System32\wbem\Logs és az Eventlog-ba ír:

https://blogs.technet.microsoft.com/askperf/2008/03/04/wmi-debug-loggin…

Ezzel van rá esélyed, hogy a kérő process ID-ját megkapd.

benne van:
2016-10-12 14:45:49:017 3644 e40 Misc =========== Logging initialized (build: 7.6.7601.23453, tz: +0200) ===========
2016-10-12 14:45:49:017 3644 e40 Misc = Process: C:\Windows\system32\wuauclt.exe
2016-10-12 14:45:49:017 3644 e40 Misc = Module: C:\Windows\system32\wucltux.dll
2016-10-12 14:45:49:017 3644 e40 CltUI AU client got new directive = 'Forced Reboot', serviceId = {9482F4B4-E343-43B6-B170-9A65BC822C77}, return = 0
2016-10-12 14:45:51:276 920 a2c AU No featured updates notifications to show
2016-10-12 14:45:51:276 920 a2c AU Successfully wrote event for AU health state:0
2016-10-12 14:45:51:276 3644 e40 CltUI AU client got new directive = 'Shutdown', serviceId = {9482F4B4-E343-43B6-B170-9A65BC822C77}, return = 0
2016-10-12 14:45:51:354 920 57c AU AU received handle event

cpeter

Én régen egy gyári hp géppel jártam így, az istennek nem tudtam rájönni, hogy mitől áll le random, de az még annyival több volt, hogy random be is kapcsolt. Aztán egyszer rájöttem, hogy a mikrokapcsoló adta meg magát és a egy bizonyos frekvenciánál zárt. Elment a ház előtt egy nagyobb kamion vagy egy nagyot dobbantottam előtte akkor ki és be lehetett kapcsolni. :)

Akkor fantomhiba. Ha ennyire elzárt, akkor biztos megvan az oka. Az ok pedig szentesíti a célt, érdemes beállítani egy másik vasat. (OS átpakol). A jelenlegi vasat pedig tesztelni és/vagy eladni.

Az nem lehet kifogás, hogy nincs még egy éves. Ez vis-major, akár el is füstölhetne a HW, amikor úgyis cserélni kellene az egészet.

Ha meg ez túl sok meló, azaz nem megoldható, akkor pedig együtt kell élni vele :(

Gep 7/24-ben uzemel? Ha nem akkor probald meg azt, hogy munkaido vegen bootolj be egy live OS-rol es reggel nezd meg. Ha tobb napon keresztul nem csinalja, akkor OS hiba.

+1 és subs. Az én ilyen utolsó esetemet Windows reinstall oldotta meg. Cseregép, Live OS-el a hiba nem jött elő, nem is lett meg, mindenki mutogatott egymásra, Windows reinstall és jó lett. De azért kíváncsi vagyok hogy itt mi, nosztalgiából.

____________________
echo crash > /dev/kmem

van alatta szünetmentes táp ???
no és szinuszos villanyt ad a szerverednek ???
én 1szer erre d0$ztam rá //nem volt teljesen szinuszos//
ez 1 hp proliant g5 valami volt, a hp szervizes már kvázi ott lakott nálunk, szabi előtt +egyeztünk, hogy leakasztjuk előle az upsot, és úgyhagyjuk ...
//ja logban hóttsemmi nem volt, platformfüggetlenül...
volt rajt debian, leállt, volt rajt suse leállt, volt rajt win2000 vagy újabb, leállt, volt rajt xp leállt, utoljára 1 uhu live az is leállt, aztán visszaraktam a debiant :)//
mondanom sem kell kiválóan tette a vas a dolgát, direktvillanyra kötve ...

még 1 ... cibáld le a billencset, hátha annak a power gombja van berohadva ...

de a legrusnyább ilyen esetem az volt, amikor a gép power gombjánál a szilikongumi,vagymi takony vezetett át, és a szobahőmérséklet függvényében ki-be kapcsolta a gépet ...
már xedszerre szarrá volt telepítve, pecselve-pØcsØlve, alaplapcserélve, mire 1 ötlettől vezérelve a reset gombot kötöttem az alaplapi power tüskére ... így ment 1 darabig, amíg +nem lett faragva power gumiizéja ...
amúgy nyugodtan kezeltük az ügyet, mivel a kórház elme és ideg főorvosának a desktopgépe volt ...
:):):)
_____________________
www.pingvinpasztor.hu

Nezted esetleg az alaplap / szerver event log-jat? Ott latszodnia kell, ha valami hardver hiba vagy alkatresz kerese miatt tortenik.

Sakk-matt,
KaTT :)

Bios frissítés, gép komponensek firmware frissitese? Minden up to date?

Olyat olvastam, hogy a disk tarolo hotswap keret (!) firmware frissitese oldott meg mukodesi gondot (Intel szerver eseten).

En is azt javasolnam, hogy Live cd + stress test, vagy Live Windows 7 + stress test 12 orara.

Vagy mint irtad, hogy nem allhat le, estere, vagy amikor keveset hasznaljak, stress test, es figyelni a szenzorokat, es hogy mi lesz.

Sakk-matt,
KaTT :)

Ez egy elég hülye hiba...
Gondolatébresztőnek:
Milyen alkalmazások futnak a szerveren? Víruskereső van? Milyen?
Hőszenzorok, fordulatszám mérők voltak tesztelve (pl aida, hdsentinel)? Esetleg BIOS-ban mit látsz ezekből a szenzorokból? Küszöbértékek nincsenek túl alacsonyra véve?
Más rendszerrel pl. livecdről van lehetőség tesztelni?
--
TH

A szerveren egy fidelio nevezetu program fut sql alapon
viruskereso nod32

hőszenzorokkal minden rendben hdsentinel van fent, és aida sem mutat különös dolgokat.

a biost nem nagyon tudtam figyelgetni, sajnos mindig mennie kell a szervernek , esetleg valamikor éjszaka hajnal környékén lehetne

amugy nem régen volt egy venti hiba a szerverben amit a dell gariban ki is cserélt. akkor egyértelmű volt a melegedés és ezt ki is jelezte a log

cpeter

Telepítsd fel az OMSA-t, azzal ki tudsz szedni csomó infót a biosból, meg a szenzorokból és a hardverlogokból is. Local vagy domain accounttal tudsz belépni.
IE beállításokban a szerverip:1311 -et add hozzá az intranet zónához.
Restart sem kell a szervernek. Egy próbát szerintem megér.

Nem segitseg a megoldashoz csak pusztan kivancsisag.

Fenti log kozel 1 honapos.Ezert a kovetkezo kerdesek merultek fel bennem:
- 1 honap alatt hanyszor allt le?
- Mennyi volt az allasi ido?
- KB mennyi veszteseget termelt az allasi ido alatt?

Ha az elmult 1 honapban legalabb ketszer leallt minimum 1 orara, akkor egy elore meghirdetett leallas alkalmaval nem lehet kiprobalni a Marci tesztjet?
Fent irtad hogy 7/24-es rendszert. Ha az allasi ido alatti veszteseg tobb mint maga a gep miert nem veszenk ujat? Miert nem lett ideiglenes a szolgaltatast atrakni egy masik gepre?

teljesen változó

volt hogy egy héten 2x , de volt hogy 1 nap 4x

az állási idő csak annyi míg észlelik, bemennek és benyomják a gombot. pár perc

veszteséget nem nagyon termelt, csak inkább idegesítő

meghirdettem a leállást kompromisszumok nélkül tehát ki derül

cpeter

off: hogyan lehet a legegyszerűbben széthúzni a hozzászólásokat tartalmazó DIV-eket?
X hozzászólás után a szál már 1 pixel széles lesz. :(

Bármi fejlemény azóta?

Üdv,
Marci