Hy all,
Egy hete levettem a szerverről a sarge-ot mivel már nem tudtam frissíteni.
Felkerül a legfrissebb etch.
Azóta rejtélyes módon néha reboot-ol a szerver. Van, hogy 1,5 napig elmegy van, hogy egymás után 2x-3x reboot-ol.
A terhelés sosincs 10% felett. A logokban semminek semmi nyoma. Csak azt látom, hogy minden üzemszerű volt és egyszer csak újraindul.
64bit Etch. AMD 3000+. 256 MB ram.
Igazából eddig a RAM-ra gyanakodtam mert bővíteni akartam és mindig rebbot volt. De már hülyének néznek a boltba, hogy a hatodik ramot viszem vissza.
Aki tud kérem, hogy segítsen!!
- 1732 megtekintés
Hozzászólások
Egyrészt, sürgősen felejtsd el még az egy felkijáltójelet is, nemhogy a sokat, mert esetleg többen idegesek lesznek, joggal.
Másrészt, a sarge alatt lehet, hogy még nem volt a kernelben alapból beforgatva a Machine check exception, etch-en viszont már igen, ez szokott MCE-vel reboot-olni.
- A hozzászóláshoz be kell jelentkezni
ELNÉZÉS! ! jel törölve.
És mit tudok ezellen tenni? Annyira profi nem vagyok így nem igazán értem, hogy mit írtál. :(
- A hozzászóláshoz be kell jelentkezni
kernelt kene forgatni hogy kivedd a machine check exeptiont.
Vagy valahogy letiltani de fogalmam sincs hogy lehet azt, de asszem az fixen a kernelbe fordul.
- A hozzászóláshoz be kell jelentkezni
erre én is gondoltam, de akkor sosem derül ki, hogy mi a baj :(
Most is cserélgetem a memóriákat, de most meg nem történik semmi.
- A hozzászóláshoz be kell jelentkezni
Ezért érdemes végignézni a logokat, mielőtt előveszed a fejszét és a shotgunt. :]
Nincs valami árulkodó jel a /var/log/syslog*, messages*-ban a rebootok környékén?
- A hozzászóláshoz be kell jelentkezni
Így viszont, talán marad valami nyoma az incidensnek. Ráadásul, ha amennyiben ez az MCE dolog jól működik (nem működhet jól, hiszen valami nyomot kellene hagynia, már ha tényleg ez az ok) akkor előbb újraindítja a cuccot mintsem a "katasztrófa" bekövetkezne, így azt sem tudni mi is a baj.
Esetleg, nincs környezeti probléma? - túlmelegedés, rázkódás ...
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Ennek az MCE (gyors kereséssel valami multimédiás szépséget találtam Linux -ra) nevű dolognak nem kellene valamit "pottyantani" a syslog -ba?
Nekem most dőlt be egy kis célgépem ahol sajnos nem indult újra a cucc, ehelyett szépe lassan lekornyadt, eleinte még lehetett pingelni, de ssh -ni nem, aztán az sem. Reszet, után a syslogban semmi értelmezhetőt nem találtam. A fő gyanusítottam a disk, kicseréltem, és "próbapadon" futtatva, szimulált terheléssel napokig ment, így gondolom tényleg a disk volt a hunyó. Van valami más napló szerűség amit meg lehet nézni ilyenkor? Esetleg ha hálózaton keresztül (ppp, plip vagy hasonló) naplóznánk? Így talán kiderülhetne mi fittyed le.
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Sehol semmi. Átnéztem az összeg logot. Fut a munin és a zabbix, hogy lássak is valamit.
CPU 30-35 °C
Fan1: cca 3700 RPM
Fan2: cca 2400 RPM
HDDTemp: 30 °C
Nincs terhelés. Átlag Load 0.8. És semmi sem szökik az egekbe reboot előtt.
- A hozzászóláshoz be kell jelentkezni
Ahan, 2.6.4-től kezdve nem jelennek meg az mce hisztik a kernel logban:
http://packages.debian.org/stable/admin/mcelog
"Starting with version 2.6.4, the Linux kernel for x86-64 no longer decodes and logs recoverable Machine Check Exception events to the kernel log on its own.
Instead, the MCE data is kept in a buffer which can be read from userpace via the /dev/mcelog device node.
You need this tool to collect and decode those events; it will log the decoded MCE events into /var/log/mcelog. Currently, mcelog can decode MCE from AMD K8 and Intel P4 (including Xeon) processors."
Érdemes lenne felrakni ezt is és nézegetni az mcelog-ot.
- A hozzászóláshoz be kell jelentkezni
Köszi.
Feltettem. De a log egyenlőre üres. :(
- A hozzászóláshoz be kell jelentkezni
Gyors kérdés:
konzol switch-en van a szerver?
- A hozzászóláshoz be kell jelentkezni
Nem.
- A hozzászóláshoz be kell jelentkezni
MCE log eddig nem segít. Azóta már 3x reboot volt, de az mcelog.log üres :(((
- A hozzászóláshoz be kell jelentkezni
Akkor nem az mce a hunyó. Mi tud úgy elszállni, hogy semmi nyoma nem marad? Ez akár sw hiba is lehet, akár hw. Nincs más hátra dugj neki egy live CD -t nézd meg azzal mit csinál. Ha ezzel is leáll, akkor valószínűbb a hw hiba, ha nem akkor nézz körül hogy mi fut és kapcsolj ki mindent, ami nem feltétlenül kell.
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
Reggel ismét reboot volt. Pedig senki sem dolgozott. Nem értem! :(
A logok persze üresek. Ami változott a gépen:
Korábban Sarge volt rajta 256 MB rammal 70GB SATA winyóval. Így tökéletesen üzemelt.
Most Etch a mem ua. HDD ua. + Samsung 750 GB SATA 32MB cache. Most szaraxik.
A kernel lehet hibás? A HDD ? Mért üresek a logok?
Senkinek sincs 5lete?
- A hozzászóláshoz be kell jelentkezni
Esetleg forgassak új kernelt?
- A hozzászóláshoz be kell jelentkezni
Áramellátás oldalról minden rendben? Megvan a feszültség, van-e UPS, jó a táp?
- A hozzászóláshoz be kell jelentkezni
Folyamatosan monitorozom a rendszer feszültségeit és minden jónak tűnik.
Van szünet mentes.
Most próbálok egy új kernelt forgat
Biztonság kedvéért holnap tápot cserélet
Ha ezek után sem lesz jó akkor lecserélem és soha többet Debian :(
- A hozzászóláshoz be kell jelentkezni
CONFIG_NETCONSOLE
Aztan hatha latsz valami olyan hibauzenetet, amit eddig nem lattal.
- A hozzászóláshoz be kell jelentkezni
Ez mire szolgál? Nem ismerem.
- A hozzászóláshoz be kell jelentkezni
Most masoljam ide a google elso talatanak szoveget?
- A hozzászóláshoz be kell jelentkezni
Ha visszaállítod a sarge alatti állapotot vasakban?
- A hozzászóláshoz be kell jelentkezni
Azt már nem tudom megtenni. És nem is akarom :)
- A hozzászóláshoz be kell jelentkezni
Na most talán sikerült valamit elkapni:
Egy könyvtár tartalmát szerettem volna másolni Mc-vel, de már másodperc után lefagyott a rendszer és a képernyőt tele írta:
Process kswapd0 (pid:175, threadinfo ffff81002f84e00, task ffff81002f60b000)
Stack:
Call tree:
[] jó pár sorba ilyesmiket írt.
És itt hivatkozott mbcache -re, kswapd, kthread
RIP [] isolate_lru_pages+0x76/0x1d9
És kész. Csak rezet gomb segített. Ez mond valakinek valamit?
Amúgy ami eddig is furcsa volt számomra:
738 MB RAM van most a gépbe. Ha végzek egy másolást akkor a szabad memória alig 4-5 MB.
Az 1GB swap -hoz viszont hozzá sem nyúl. Lehet itt valami bib?
Kernel frissítve 2.6.24-re
- A hozzászóláshoz be kell jelentkezni
/etc/fstab-ban benne van a swap bejegyzés?
swapon -a -v rendesen lefut?
A swap partíciód swap fájlrendszert tartalmaz? (érdemes lehet újraformázni, ha gondolod)
swapon -s mit mond?
- A hozzászóláshoz be kell jelentkezni
Természetesen fstab-ban benne van
swapon -a -v rendesen lefut. Ez alatt mit értesz?
mert nem csinál semmit
swapon -s megmondja, hogy hol van stb... ua. mint: cat /proc/swaps
- A hozzászóláshoz be kell jelentkezni
Ha van lehetoseg, csinalnek egy memtestet.
Meg jo lett volna egy kepernyokep a hibarol (mondjuk digitalis fenykepezovel). Ha esetleg elkapod megint, akkor csinalj, ha tudsz.
CONFIG_HIGHMEM van most a kernelben? Eddig is volt?
A dmesg-ben es a kernel logjaban valami? Bar ezen gondolom tul vagy mar.
Plusz amit feljebb ajanlottam:
If you want to log kernel messages over the network, enable this. See Documentation/networking/netconsole.txt for details.
- A hozzászóláshoz be kell jelentkezni
a baj az, hogy nem tudok kernelt fordítani mert fordítás közben lefagy a gép :(
- A hozzászóláshoz be kell jelentkezni
Szerintem fontold meg egy masik gep hasznalatat kernelforgatas celjara :)
- A hozzászóláshoz be kell jelentkezni
Neked mi a véleményed az össze-vissza szabdalt lent látható parícióról?
- A hozzászóláshoz be kell jelentkezni
Nem tudom ertelmezni a "particio szepsege" fogalmat es azt a mondatod, hogy "a cfdisk nem indult el a /dev/sda6 miatt". :)
De kulonben valoszinutlen, hogy ilyesmi okozza a bajt. Mar ha a diszk jo. fsck-zz egyet, aztan ha az lemegy, akkor en mashol keresnem a bajt.
- A hozzászóláshoz be kell jelentkezni
Még mindig nincs megoldás.
Éjszaka kicsit átalakítottam a partíciós táblát mert a cfdisk nem indult el a /dev/sda6 miatt.
Ez volt amúgy a swap partíció. Most fut a cfdisk nem nyavajog azóta még nem sikerült kikényszerítenem a reboot-ot.
Megpróbáltam saját kernel-t fordítani, de a kernel fordítása közben még mindig fagy. (nem indul újra)
Hülyét kapok. Az okozhat gondot, hogy a root partíció (sda1) nem az első szektoron kezdődik?
fdisk /dev/sda -> (p) kimenete:
sda1 3673 - 9729 83 Linux (/) Boot
sda2 1 - 2433 83 Linux
sda3 2434 - 3672 5 Extend
sda5 2434 - 3406 83 Linux
sda6 3407 - 3606 82 Swap
Lehet a gond okozója, hogy a tábla nem a legszebb?
- A hozzászóláshoz be kell jelentkezni
Nekem volt AMD 64 3000+ desktop, igaz nem server, és szundikkal sem omlott össze , meg nem rebootolt, bár a szundit (suspend_to_ram) nem volt egyszerű belőni.
A RAM/Swap aránya nem éppen a legszerencsésebb 256 MB/1024 swap?, de ez más kérdés. Elég ez egyáltalán ? Mennyit eszik a server? Látja a swapot a rendszer ? top kimenetben bentvan a swap ? Írtad hogy valamit itt kavartál.
A partíciós tábla nem oszt nem szoroz. Nekem pl. nincs hda2 :D. Egy régi partíció megszűnt, és egy régebbi megnőtt. A kutyát nem érdekli a partíciós tábla ha már bebootoltál.
A használt kernel configot (.config) esetleg feltölthetnéd egy dmesg kíséretében a pastebin.ca-ra vagy hasonlóra, hátha lesz itt valakinek ötlete. Mert így mindenki csak vaktában tapogatózik.
Én egy force ext(?) fájlrendszer ellenőrzést ráengednék, mert a sok fagyás miatt szerintem a fájlrendszer itt ott már odavan, és a journalt nem arra tervezték hogy állandó szabálytalan rebootolásoknál is állandóan üzemszerűen működjön.
Amíg nem áll helyre a rend egy tune2fs -c 1 (partíciót) léptetnék életbe az összes linuxos partíción.
A másik, hogy etch nél írták a relase infoban, hogy milyen extra fájlrendszer flag et célszerű rátenni a fájlrendszerre. debian.org/etch release doksi, már nem emléxem rá sajnos.
A harmadik, hogy smart al megnézném azért a vinyókat, ha lehetséges.
A negyedik, jó lenne tudni melyik "sata drivert" használod a kernelben , és melyik volt a sarge ban.
ha lehúzod a 750es vinyót akkor is fagy ?
Ha már vaktában lövünk, én kernel - SATA, vagy kernel - hálókártya problémára (kernel regresszió) tippelek, mert miért ne ? :)
-----------
r=1 vagyok, de ugatok...
- A hozzászóláshoz be kell jelentkezni
Haza hoztam a gépet. Most úgy működik mint egy desktop :)
Lehúztam a 750 -es vinyót. Azt hittem bekavar, de nem. Szóval most nincs hálózat rajta nincs 750 HDD.
Van 738MB RAM 2GB SWAP.
Most nem sikerül kényszríteni az újraindításra, de a kernel fordításnál lefagy.
- A hozzászóláshoz be kell jelentkezni
Nah. a 256 MB ből lett 738 mega ram. ezek szerint saccra van 2 v.3 modulod / tippre 2 256+512) + integrált videókártya.
Gondolom a 2 modul nem tökegyforma. további vaktában lövöldözés (még mindig semmi config, semmi dmesg) :
modprobe eeeprom. és az lm sensors csomagban van a share-doc ban egy decode-dimms.pl (perl) szkript. Az megmondja,
Ha nem tökegyformák, kezd el lehúzni a modulokat egyesével, hogy mi történik. A végén csak egy maradhat. :D
A vaktában lődözés most az, hogy az általad használt BIOS mem beállítások (auto) nem felelnek meg valamelyik modulnak. Az auto nem tud mit kezdeni eltérő mem. modulokkal.
-----------
r=1 vagyok, de ugatok...
- A hozzászóláshoz be kell jelentkezni
Mindenkeppen futtatnek egy memtestet. Nem gyors, de nekem is a memoria a leggyanusabb, tehat megeri az idot.
- A hozzászóláshoz be kell jelentkezni
tune2fs -c 1 /dev/sda1
tune2fs -c 1 /dev/sda1
OK.OK
tune2fs -c 1 /dev/sda6 (ez a swap)
tune2fs: Bad magic number in super-block while trying to open /dev/sda6
Couldn't find valid filesystem superblock.
És azt sem értem még midig, hogy egy egyszerű másolásnál is mért lesz 4-5MB free memóriám a 730MB-ből. Majd, ha végetért a művelet 200-300MB lesz free.
- A hozzászóláshoz be kell jelentkezni
tune2fs (8) - adjust tunable filesystem parameters on ext2/ext3 filesystems
Mondjuk ha arra gyanakszol, hogy a swap particiojaval van a baj, akkor kapcsold ki es csinalj swap-et file-bol ideiglenesen.
Az OOM killer nem killelget ki neked valami fontosat?
- A hozzászóláshoz be kell jelentkezni
Vagy csinalj ra ext-et es fsck-zd meg.
Esetleg badblocks.
- A hozzászóláshoz be kell jelentkezni
a swapot nem kell ellenőrzini., csak az ext3(?) kat. És azokat is csak azért, mert vélhetően a sok lefagyás már nem tett jót nekik.
----------------
r=1 vagyok, de ugatok...
- A hozzászóláshoz be kell jelentkezni
Most is behalt a kernel fordítása közben.
A képet a Képfeltöltés.hu tárolja. http://www.kepfeltoltes.hu
- A hozzászóláshoz be kell jelentkezni
Kikapcsoltam a swap partíciót és létrehoztam egy swap fájlt.
Most először sikeresen lefordult a kernel. Másodszor ismét a fenti hibával megállt a gép DE NEM fagyott le. Megy tovább! ??
Szólt a kernel, hogy javította a hibát, de szükséges az újraindítás.
?????
most 1db 512MB RAM van benne és 1GB SWAP file.
- A hozzászóláshoz be kell jelentkezni
Tolj mar egy memtestet plz...
...es egyszerre egy dolgot valtoztass, mert kulonben soha nem tudjuk meg, hogy mi volt a baj, ha egyszer megjavul.
- A hozzászóláshoz be kell jelentkezni
próbáltam ubuntu server-t telepíteni. nem sikerült.
Próbáltam más HDD-re más Rammal nem sikerült. Mindig ua. a hiba. Vagy lefagy, vagy reboot, vagy a fent látható kép fogad. :((((
Holnap reggel ennek a szervernek üzemelnie kell.
- A hozzászóláshoz be kell jelentkezni
Ha sem HDD sem memória hiba, első tippem szerint valami túlmelegszik. Ha van a közeledben egy házi ventillátor állítsd be a gép hasába teszt képpen.
- A hozzászóláshoz be kell jelentkezni
Igen, megnézném, hogy a procihűtő rendesen a helyén van-e.
Ha felmegy a load, akkor fekszik meg? SATA kábeleket cserélgetted? Próbáltad másik alaplapi csatlakozóra dugni?
Esetleg meg kéne hajtnai valami benchmark programmal (pl. bonnie++), mint Singer úr, hogy tényleg a diszk i/o növekedése fekteti-e meg.
Külön kipróbálnám a CPU-t is valami megfelelő progival hajtva. Pl. az nbench egész jó erre a célra: http://www.tux.org/~mayer/linux/bmark.html
- A hozzászóláshoz be kell jelentkezni
Egyáltalán mi olyat futtatsz amiért kell a swap? szerintem már ez is kicsit gyanus!
* Én egy indián vagyok. Minden indián hazudik.
- A hozzászóláshoz be kell jelentkezni
<OFF>
Erről az egészről a klasszikus zsidó vicc jut eszembe.
Kohn elpanaszolja a rabbinak, hogy döglenek a libái.
- Mivel eteted őket?
- Szemes kukoricával.
- Az a baj. Etesd ezután darával!
Kohn egy hét múlva ismét panaszkodik, hogy még mindig döglenek a libái, pedig darával eteti őket.
- Mert szamár vagy! - mondja a rabbi. - Zabbal etesd őket!
Pár nap múlva Kohn megint siránkozik, hogy hiába eteti zabbal a libáit, mégis pusztulnak.
- Ostoba fajankó vagy, miért nem árpával eteted őket?!
Másnap megint megy Kohn:
- Rabelében, hiába próbálkoztam az árpával, megdöglött az utolsó libám is!
- Most már egy libád sincs?
- Egyetlen egy se.
- Kár. Pedig még annyi jó ötletem lett volna...
</OFF>
- A hozzászóláshoz be kell jelentkezni
Mivel nem volt már időm a hiba keresgélésére így alaplap+cpu+mem csere lett a vége.
Remélem nem jelentkezik újra a hiba.
- A hozzászóláshoz be kell jelentkezni
nekem volt ilyesmi gondom, a kernelfordítós fagyást illetően. laptop-kernelforgat-közben reboot. feltettem egy könyvre a notit és lefordult a kernel. melegedett.
- A hozzászóláshoz be kell jelentkezni