CPU not responding

Fórumok

Udv mindenkinek!
A kovetkezo a problemam:
A szamitogepem nem mindig indul el rendesen. Legeloszor december 31.-en reggel, amint azt a log is mutatja, ezt eszre sem vettem addig, amig a vmware nem szolt, hogy nem tud kiosztani ket cpu-t mert nincs csak egy. Ujra inditom a gepet es megy minden frankon egeszen maig, amikor bekapcsolom a gepet es indulasnal latom, hogy jonnek ismet a "Not responding"-ok. harmadik ujrainditas utan elindult.
Szerintetek hal meg a proci?

Dec 31 09:13:40 zeus kernel: [    0.152172] smpboot: CPU0: Intel(R) Core(TM)2 Quad CPU           @ 2.40GHz (fam: 06, model: 0f, stepping: 07)
Dec 31 09:13:40 zeus kernel: [    0.156000] Performance Events: PEBS fmt0-, 4-deep LBR, Core2 events, Intel PMU driver.
Dec 31 09:13:40 zeus kernel: [    0.156000] perf_event_intel: PEBS disabled due to CPU errata
Dec 31 09:13:40 zeus kernel: [    0.156000] ... version:                2
Dec 31 09:13:40 zeus kernel: [    0.156000] ... bit width:              40
Dec 31 09:13:40 zeus kernel: [    0.156000] ... generic registers:      2
Dec 31 09:13:40 zeus kernel: [    0.156000] ... value mask:             000000ffffffffff
Dec 31 09:13:40 zeus kernel: [    0.156000] ... max period:             000000007fffffff
Dec 31 09:13:40 zeus kernel: [    0.156000] ... fixed-purpose events:   3
Dec 31 09:13:40 zeus kernel: [    0.156000] ... event mask:             0000000700000003
Dec 31 09:13:40 zeus kernel: [    0.159323] smpboot: Booting Node   0, Processors  #1
Dec 31 09:13:40 zeus kernel: [   11.399528] smpboot: CPU1: Not responding
Dec 31 09:13:40 zeus kernel: [   11.399758] NMI watchdog: enabled on all CPUs, permanently consumes one hw-PMU counter.
Dec 31 09:13:40 zeus kernel: [   11.399967]  #2
Dec 31 09:13:40 zeus kernel: [   22.645083] smpboot: CPU2: Not responding
Dec 31 09:13:40 zeus kernel: [   22.648080]  #3 OK
Dec 31 09:13:40 zeus kernel: [   33.908512] smpboot: CPU3: Not responding
Dec 31 09:13:40 zeus kernel: [   33.909193] Brought up 1 CPUs
Dec 31 09:13:40 zeus kernel: [   33.912013] smpboot: Total of 1 processors activated (4799.97 BogoMIPS)

uname -a
Linux zeus 3.11.0-15-generic #23-Ubuntu SMP Mon Dec 9 18:17:04 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

Hozzászólások

Volt valami frissítésed előtte? A CPU-k illesztéséhez és élesztéséhez driver kell (megfelelő utasítások, etc.), lehet szoftveres és hardware-es hiba is. Jó lehet még a gép teljes szétszedése, összerakása (?oxidáció? okán, bár gyanús hogy nem), illetve másik oprendszer (szörnyű ezt mondani, de egy windows szerintem a legjobb ilyen célra)

// Happy debugging, suckers
#define true (rand() > 10)

Hm. Remeltem, hogy van egy mar installalva. :)
Windows liveCD szerintem nincs legalisan, installani meg kicsit maceras ahhoz kepest, hogy aztan vagy 10 percig akarod hasznalni... de meg lehet, hogy igy is ez a leggyorsabb modja a SW hiba kizarasanak. Esetleg egy mas de nem Linux liveCD? (Nemtom FreeBSD liveCD letezik-e...)

Tippjeim, melyekben nincs tudomány:

microcode_ctl, kernel, alaplapi tápegység elektrolit kondenzátorai.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

memtest hibat talalt a ramban, szerintem az a problema (a rendszeren levo memtest). van mod arra, hogy a memtest altal hibasnak jelzett reszt lezarjam valahogy. (egy process-el vagy kernel modullal, hogy ne tudjon mas oda irni)

Abból, hogy a memtest hibát jelez, nem az következik, hogy hibás a RAM, hanem az, hogy vagy hibás a RAM, vagy sérül az adat a CPU és a RAM közti kommunikáció során. Tehát még mindig ott tartok, hogy ez lehet hibás időzítés, de még inkább zajos tápfeszültség: elfogyott a statikus zajtartalék, így aztán más logikai szintet olvas a RAM vagy a CPU, mint amit a másik oldal hajt.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Szerintem táp hiba lesz, de kedves topik nyitó egy próba táppal megnézhetné a gépet.
Ugyanis érdekes, hogy cpu is szar meg a ram is.

"a bios szerint par ezred volt elteresek vannak feszultsegekben"
Szerinte nem táppal van gond sőt nem is az alaplapal hanem a memoriával és azért rossz a proci...
Véleményem:
A biosba mért feszültség semmit nem ér mivel a vga se terhelt illetve nem igényel nagyobb terhelést szóval a cpu és a ram is kb üresbe van.
Majd ha random reboot lesz nála akkor talán halgatt ránk is.

Én ekkor vittem szervizbe anno. Mondjuk hozzátartozik, hogy a véletlenszeűen és instabilan jelentkező hiba miatt 3 szervizből is visszaküldték a gépet, hogy fogalkmuk sincs mi baja. A vége az lett, hogy megkockázattam egy alaplap cserét, azóta tökéletes. A NAS-on levő raid5 adatait viszont előtte még jól tönkretette.

No, ez a fostalicska ubuntu! Teszteljük vindózzal! Kiváló! :)))
(Bár az ubuntu az egyetlen rendszer a praxisomban, amely hibamentesen tud installálódni kernel nélkül! Ez figyelemreméltó fícsör!!)
A memtestről annyit, hogy N dimenziós mátrixban csereberéltem alaplapot (más chipset), cput (több típus), memóriát, tápot. Természetesen a memtest volt a hibás alkatrész. :)))

Néhány tudnivaló:
- Ha minden elromlott, az általában memóriahiba.
- Az "általában memóriahiba" hibátlan memória esetén MMU hiba.
- Az MMU hiba hibátlan MMU esetén helyi túlmelegedés, különösen ha az MMU a CPU-ba integrált.
- A helyi túlmelegedés elmozdult hűtésre utal, amikoris légbuborék keletkezik.

- A többmagos cpu általában úgy indul, hogy először csak egy mag kapcsolódik fel.
- A többi mag felkapcsolása esetleg megránthatja a tápot (az alaplapi vcore), de ez sem annyira valószínű. De még itt is lehet helyi túlmelegedés.
- A helyi túlmelegedést a cpu gyári hibája is okozhatja - hibás a külső burkolat forrasztása. Persze ez a hiba sem úgy fordul elő, hogy két év után egyszerre csak leolvad.

- Csúnya esetekben a BIOS is beállíthat valamit hibásan, amit a kernel már nem tud kijavítani.

Szóval úgy kezdenék hozzá, hogy
- lehúzom a diszkeket
- törlöm, majd újra beállítom a cmos-t
- install/rescue cdről indítva megnézem a logokat
(Természetesen azzal az install anyaggal, amivel még múltkor működött.)
- keresek egy olyan memtestet, ami jó ezen az alaplapon
- ha még nem volt, utánanéznék a BIOS frissítésnek/CPU támogatásnak, bár ez sem valószínű
(A CPU alapvető üzembehelyezését nem a kernel végzi.)

Amit találok alkatrészeket ki próbálok sorra mindent (táp, alaplap, proci, ram) és akkor meglátom. Köszi mindenkinek a segítséget.