Szoftver elszállás - magyarázkodás

Fórumok

Szoftver elszállás - magyarázkodás

Hozzászólások

mond azt hogy debugoltad es kijavitottad a kodot :)

[quote:51b5d90c66="thuglife"]mond azt hogy debugoltad es kijavitottad a kodot :)

Ja, ezt kellett volna... Marha kellemetlen volt ma, mert azt a választ kaptam vissza, hogy "gondoltam, hogy ezt fogja mondani!"

ulimit -c 10000000 mielőtt futtatod az adott démont, aztán egy debuggerrel lehet elemezni a core file-t, ha elszáll.

[quote:aa35dbc5dc="zsolt"]ulimit -c 10000000 mielőtt futtatod az adott démont, aztán egy debuggerrel lehet elemezni a core file-t, ha elszáll.

Izgi dolog ezt egy olyan daemonnal ezt eljatszani ami felevente 1x hasal el...

En finoman megkernem az okos kerdest feltevot, hogy legkozelebb a hiba jelentkezese elott kb. masfel oraval elobb szoljon nekem, akkor sokkal biztosabban tudnek valaszolni neki...

Én azt szoktam mondani, hogy nem tudok 100 %-os remdelkezésre
állást biztosítani. De tudok 99.6 %-osat. Ha ez megfelel, akkor
lesz üzlet, ha nem akkor nem. Egy mérnök ezt megérti.

Néha előfordul, hogy valamelyik szoftver elszáll Debian alatt - talán hardver-, talán szoftverhiba -, de nem túl gyakran, talán félévente egy.
Persze ez nem normális szerveren történik, hanem olyan gépeken, ahol sima pc-t használnak szerverként.
De ilyenkor egy bizonyos helyről mindig nagyon kényelmetlen kérdés fogad: mitől szállt el?

Megelőzvén a magyarázkodást én minden szervert hétfőn hajnali 1 órakor újraindítom cron-nal.

ELaci

Félévente egy, hm. Windowsnál meg napi 1-2. :D Szerintem ahhoz képest belefér. Mondd, hogy a free szoftverekben is van hiba, ha nem tetszik, vegyenek oprendszert jó drágáért (Novell linux, Solaris, stb), azokhoz van terméktámogatás. Erre tuti azt mondják, hogy akkor inkább belefér a féléves egy elszállás. :)

[quote:a3407480bf="norcrys"]
Persze ez nem normális szerveren történik, hanem olyan gépeken, ahol sima pc-t használnak szerverként.
De ilyenkor egy bizonyos helyről mindig nagyon kényelmetlen kérdés fogad: mitől szállt el?
Mit válaszoljak azon kívűl, hogy hümm, hümm?
Lehet azt mondani, hogy "ez normális ebben az esetben"?

A szakadt PC-én sem normális (bár sokszor lehet mellékelni az elfüstölt alkatrészt :) ), de megnyugtatásul a 100 milliós nagyságrendű rendszereknél is előfordul ilyesmi.
Nem véletenül sikerül eladni mindeféle redundáns, katasztrófatürő .... rendszereket.

[quote:fac1c91441="Beanie"] vegyenek oprendszert jó drágáért (Novell linux, Solaris, stb)

Kollega ne fudoljon. Solaris ingyen van, ha nem kell teljeskoru* tamogatas.

es ott azt mondod a core file-nak, hogy mdb, trukkozol nehany parancsot, es post mortem ki tudod deriteni, hogy mibe halt bele a demon (legtobbszor ugyebar kicimez valamiert a memoriateruletrol). Ha ez megvan, akkor meg ki kell deritnei, hogy miert cimzett ki. Pl hacking probalkozas, sikertelen buffer overflow tamadas (DoS), vagy csak valami egzotikus programhiba egy ritkan meghivodo programagban (rossz helyre rakott *)... vagy mondjuk alfa sugarzas miatt atbilleno bitek a CPU L2 cache-eben, ami egy memoriacimzest elcseszett...

*hogy ne legyen felreertheto

[quote:6dc0e34242="_Joel"][quote:6dc0e34242="Beanie"] vegyenek oprendszert jó drágáért (Novell linux, Solaris, stb)

Kollega ne fudoljon. Solaris ingyen van, ha nem kell tamogatas.

a korrektseghez hozzatartozik, h a mondat igy folytatodik:

[quote:6dc0e34242="Beanie"]azokhoz van terméktámogatás

[quote:29e494249d="LiRul"][quote:29e494249d="zsolt"]ulimit -c 10000000 mielőtt futtatod az adott démont, aztán egy debuggerrel lehet elemezni a core file-t, ha elszáll.

Izgi dolog ezt egy olyan daemonnal ezt eljatszani ami felevente 1x hasal el...

Az a helyzet, hogy mást tényleg nemigen lehet csinálni. Régebben (kb. 1998-ig) még alapértelmezett volt a Linux disztrókon, hogy elszálláskor engedték az alkalmazást core file-t generálni. Aztán a sok láma miatt (akik számára ez a core dolog teljesen feleslegesnek tűnt) a disztró-készítők ezt elkezdték default letiltani.
core file-ból egy debuggerrel igen sokat meg lehet állapítani, főleg, ha azt nem strippelt bináris generálta. Fejlesztőként is ezt szoktuk csinálni, ha valami rejtélyes hibát kell megtalálni. Teljesen normál bevett gyakorlat.

[quote:0bc0d5e714="_Joel"]Solaris ingyen van, ha nem kell tamogatas.

Tudtommal csak "evaluation", "personal" és "educational" felhasználási kategóriákra, de lehet rosszul tudom. Viszont jelen helyzet nem hinném, hogy idetartozik, mivel főnök-rendszergazda viszonyról van szó, gondolom valami kereskedelmi céges használatra kell.

[quote:31b5e81c3a="snq-"][quote:31b5e81c3a="_Joel"][quote:31b5e81c3a="Beanie"] vegyenek oprendszert jó drágáért (Novell linux, Solaris, stb)

Kollega ne fudoljon. Solaris ingyen van, ha nem kell tamogatas.

a korrektseghez hozzatartozik, h a mondat igy folytatodik:

[quote:31b5e81c3a="Beanie"]azokhoz van terméktámogatás

Igaz, de az ingyenes Solaris licenszhez is van tamogatas, csak alacsonyabb foku (biztonsagi patch-ek, negyedeves update-ek jarnak, csak a negyedevek kozotti nem biztonsagi patch-ek nem). Ami meg olyan tamogatas, hogy x oran belul jelenjen meg nalad valaki, az soha sehol senkinel nem lesz ingyen:)

beanie: rosszul tudod, Solaris 10 minden felhasznalasra ingyenesen hasznalhato barmelyik architekturan akarhany processzoron.

Akkor sry. Amúgy Beanie vagyok. A-val. :)

[quote:1f0aa192b5="Beanie"]Akkor sry. Amúgy Beanie vagyok. A-val. :)

bocs:) amilyen hibakat ma vetek mindenfele irasos anyagban...

Engem abszolút nem érdekel, miért szállt el (programhiba szerintem, ahogy látom), és nincs is időm debuggolni az egészet, főleg ha mondjuk egy sambaról, squid-ről vagy hasonló nagyobb lélegzetű dologról van szó. Csak azt nem tudom, mit mondjak egy cég tulajdonosának, aki nem műszaki végzettségű, hogy miért is volt a leállás (mindig pont akkor, amikor a LEGFONTOSABB anyagot készítette, persze mit gépezhet egy tulajdonos, de mind1...)?
Mondom: - "nem tudom, mi volt a hiba oka, szoftverhiba, de már nem is emlékszem, mikor volt utoljára"
- és mit tett az ügy érdekében?
- újraindítottam a szervert
- és rájött a hiba okára?
- nem
- szóval, nem tudja kideríteni, mi a hiba?
- nem is akarom, mert igen ritkán történik meg
- szóval megegyezhetünk abban, hogy ez normális dolog?
- igen, szerintem az
- hát, gondoltam, hogy ezt fogja mondani...
:twisted:

[quote:4b73dd48bd="norcrys"]
- és mit tett az ügy érdekében?
- újraindítottam a szervert
- és rájött a hiba okára?
- nem
- szóval, nem tudja kideríteni, mi a hiba?
:twisted:

Talan lehet celozni ra, hogy ido,energia ... == penz (adott esetben sok ) kerdese es ki lehet deriteni ......

[quote:bc4cddb8c6="norcrys"]
- és mit tett az ügy érdekében?
- újraindítottam a szervert
- és rájött a hiba okára?
- nem
- szóval, nem tudja kideríteni, mi a hiba?
- nem is akarom, mert igen ritkán történik meg
- szóval megegyezhetünk abban, hogy ez normális dolog?
- igen, szerintem az
- hát, gondoltam, hogy ezt fogja mondani...
:twisted:

A tipikusan soha nem hibazo ember.......

Azert azt nagyvonalakban elarulhatnad milyen jellegu az a ceg?
Hu de fel tud ..... az ilyesmi...

[quote:f479a2af2e="norcrys"]Engem abszolút nem érdekel, miért szállt el (programhiba szerintem, ahogy látom), és nincs is időm debuggolni az egészet, főleg.

Ha van tamogatasi szerzodesetek az OS-re (mivel Debian gondolom nincs), akkor egy ilyen hibat be kell jelenteni a supportnak. Kereskedelmi (akar nyilt, akar zart forrasu) OS-eknel legalabbis igy van (Debian-nal is lehetne igy, ha valaki elad hozza tamogatast, es megvan a megfelelo szakembergardaja az ilyen hibak felderitesere - mas kerdes, hogy a parezernyi csomag kozul azert valoszinuleg limitalni kellene, hogy melyek hibainak felderitesere vallalkozik az adott ceg - vagy piszok draga lenne a support:).

Mareszt ha egy alkalmazott Debiant telepit egy cegnel es az nem vesz hozza tamogatast senkitol, akkor ezzel az adott illeto vallalja, hogy o intezi annak a tamogatasat, hibafelderiteset, nem?

[quote:3deaa26e8c="_Joel"][quote:3deaa26e8c="norcrys"]Engem abszolút nem érdekel, miért szállt el (programhiba szerintem, ahogy látom), és nincs is időm debuggolni az egészet, főleg.

Ha van tamogatasi szerzodesetek az OS-re (mivel Debian gondolom nincs), akkor egy ilyen hibat be kell jelenteni a supportnak. Kereskedelmi (akar nyilt, akar zart forrasu) OS-eknel legalabbis igy van (Debian-nal is lehetne igy, ha valaki elad hozza tamogatast, es megvan a megfelelo szakembergardaja az ilyen hibak felderitesere - mas kerdes, hogy a parezernyi csomag kozul azert valoszinuleg limitalni kellene, hogy melyek hibainak felderitesere vallalkozik az adott ceg - vagy piszok draga lenne a support:).

Mareszt ha egy alkalmazott Debiant telepit egy cegnel es az nem vesz hozza tamogatast senkitol, akkor ezzel az adott illeto vallalja, hogy o intezi annak a tamogatasat, hibafelderiteset, nem?

Azert ez egy picit "ballisztikus raketaval a csotanyra" mgkozelites volt szvsz...
Az ilyen "igenyes" ugyfelnek egy tovabbkepzest kell javasolni a 0,9 es a 0,999999 feltetelek megismeresere...

[quote:0f0c3acae1="norcrys"]Néha előfordul, hogy valamelyik szoftver elszáll Debian alatt - talán hardver-, talán szoftverhiba -, de nem túl gyakran, talán félévente egy.
Persze ez nem normális szerveren történik, hanem olyan gépeken, ahol sima pc-t használnak szerverként.
De ilyenkor egy bizonyos helyről mindig nagyon kényelmetlen kérdés fogad: mitől szállt el?
Mit válaszoljak azon kívűl, hogy hümm, hümm?
Lehet azt mondani, hogy "ez normális ebben az esetben"?

Az hogy konkretan melyik vagy melyikek az ismetlodik vagy ugy veletlenszeruen? Ha "normalpc" akkor is lehet azert pl. ECC-s memoriat belepakolni vagy egyedileg forditott verziokkal probalkozni kernelbol (ha ebbol meg nem ilyet hasznalsz) vagy az adott demonbul. Mi is hasznalunk debiant erra-arra, normalpc-vel es komolyabb szerverrel egyarant, de ilyen titokzatos felevenkenti kihalast meg nem tapasztaltunk.

[quote:ce2e76a9e9="andrej_"]
Az hogy konkretan melyik vagy melyikek az ismetlodik vagy ugy veletlenszeruen? Ha "normalpc" akkor is lehet azert pl. ECC-s memoriat belepakolni vagy egyedileg forditott verziokkal probalkozni kernelbol (ha ebbol meg nem ilyet hasznalsz) vagy az adott demonbul. Mi is hasznalunk debiant erra-arra, normalpc-vel es komolyabb szerverrel egyarant, de ilyen titokzatos felevenkenti kihalast meg nem tapasztaltunk.

Lehet, ezért is mondtam egy szervercserét, és meg van oldva a dolog. Nem azt mondtam, hogy félévente (nem nézi a dátumot), hanem hogy max. félévente. Szerintem nem is kell vele foglalkozni, mert 10 perces leállás egy évben kétszer, nem nagy ügy ott, ahol más okok miatt nagyobbak is vannak (raktáros keresi az árut...)

[quote:3ebb80ac70="Toma_"]
Azert ez egy picit "ballisztikus raketaval a csotanyra" mgkozelites volt szvsz...
Az ilyen "igenyes" ugyfelnek egy tovabbkepzest kell javasolni a 0,9 es a 0,999999 feltetelek megismeresere...

Nyilvan nem KatiPeti bt-nel szamit a dolog:) De engem igenis zavarna, ha egy file szerver, amin mondjuk a napi szinten hasznalatos dokumentumaimat, uzleti terveimet, megrendeleseket, stb tarolom olyan hibakkal halna el (meg ha csak minden 5. teliholdat kovetoen is), amiket sem a rendszergazdam, sem a szallitomi nem tud megmagyarazni. Attol a szallitotol tobbet nem vennek semmit...

Csak gondolj bele abba, hogy van egy autod, ami kanyarban 70 felett valahol zorog. Elmesz a markaszervizbe, mire azt mondjak, hogy hat ez ilyen, miert nem vettel 15 millios BMW-t, holott neked azt mondta akitol kaptad/vetted, hogy mindenre jo, otthon szervizelheto (nyilt forraskod, ugye)... Santit a pelda, de azert nem annyira...

Nem levegobol beszelek, gnome 2.0 gconf es NFS-en tarolt home konyvtarok + NFS locking problemakorenek felderiteset csinaltam par hete egy ugyfelnel (300 felhasznalo, hetente kb 1-2-nel nem azonnal, hanem 2-3 perc varakozassal indul el a Gnome). Lehet azt mondani, hogy ritkan jelentkezik a hiba, meg nem erint mindenkit, de.

Mondjuk egy masik hibat mire felderitettunk volna, meg is szunt magatol. En meg remenykedek, hogy ha ujra jelentkezik, akkor elkapjuk (az X szerver support engineer-je kuldott jo kis scripteket meg binarisokat amiket abban a hibas helyzetben kell futtatni, csak azota nem sikerult reprodukalni a dolgot). Ja, a szindroma: standard munka kozben egyszercsak nem reagal a kattintasokra tobbe az eger. Billentyuzet mukodik tovabb, ha az adott alkalmazast kilovod, akkor az eger is megjavul. Alkalmazastol nem fugg a dolog, barmelyikkel elofordulhat (Mozilla, MagyarOffice, RDP kliens - kb ennyit hasznalnak Unix-rol).

[quote:a229d275d4="_Joel"]
Ja, a szindroma: standard munka kozben egyszercsak nem reagal a kattintasokra tobbe az eger. Billentyuzet mukodik tovabb, ha az adott alkalmazast kilovod, akkor az eger is megjavul. Alkalmazastol nem fugg a dolog, barmelyikkel elofordulhat (Mozilla, MagyarOffice, RDP kliens - kb ennyit hasznalnak Unix-rol).

Hmmm... Ismeros tunetek... Bugzik a Java?

[quote:81779012df="Toma_"][quote:81779012df="_Joel"]
Ja, a szindroma: standard munka kozben egyszercsak nem reagal a kattintasokra tobbe az eger. Billentyuzet mukodik tovabb, ha az adott alkalmazast kilovod, akkor az eger is megjavul. Alkalmazastol nem fugg a dolog, barmelyikkel elofordulhat (Mozilla, MagyarOffice, RDP kliens - kb ennyit hasznalnak Unix-rol).

Hmmm... Ismeros tunetek... Bugzik a Java?

Semmi koze Java-hoz, az nem fut az adott felhasznaloi session-ben. En gnome-ra vagy xlib-ekre es hold-bolygo-csillag egyuttallasra gyanakszom, de tobbet fogunk tudni, ha ujra elojon (az adatgyujto scriptek megvarjak:)

[quote:c1a586f946="_Joel"]
Nyilvan nem KatiPeti bt-nel szamit a dolog:) De engem igenis zavarna, ha egy file szerver, amin mondjuk a napi szinten hasznalatos dokumentumaimat, uzleti terveimet, megrendeleseket, stb tarolom olyan hibakkal halna el (meg ha csak minden 5. teliholdat kovetoen is), amiket sem a rendszergazdam, sem a szallitomi nem tud megmagyarazni. Attol a szallitotol tobbet nem vennek semmit...

Tegyük fel, hogy egy quad opteron reg ecc minden csilivilivel. Ilyet perpill neked keszen a SUN es a HUP szallit (ha joltom). Megveheto persze reszenkent is, de az ugye kevesbe szerencses. Szoval ez a masina mondjuk viszi a samba-t es a helyi 291+remote 131 user emailezeset, tehat van rajta minden foldi jo. Tehat mukodik minden szepen, de mivel a 7-dik telihold volt es a mars egyuttaltt a plutoval es reggel nem mutattok be aldozatot, ezert de. 11:37-kor elcrashel az imapd, cakkumpakk. Hiba 11:41-kor eszrevesz, imapd elindit es jo minden megint. Tehat _Joel ebbol azt derivalja, hogy ultrasuxx a HP vagy az adott SUN szervergep. Az operacios rendszer nem lehet hibas, a szoftver nem lehet hibas... Ez nekem kicsit meredek kovetkeztetes.

[quote:89a7351435="Beanie"]Félévente egy, hm. Windowsnál meg napi 1-2. :D

Ez szerintem Urban Legend...
Elég sok példát tudnék felhozni, de a legjobb talán az a BIX-nél lévő Windows NT-s gépünk volt, amelyiket 680 napos uptimenál kapcsoltak le. (Persze lyukas volt már mint az ementáli, de a szerencsés beállításoknak köszönhetően nem tudtak kárt tenni semmiben.)

[quote:c0c028891a="andrej_"][quote:c0c028891a="_Joel"]
De engem igenis zavarna, ha (..) olyan hibakkal halna el (...) amiket sem a rendszergazdam, sem a szallitoim nem tud megmagyarazni.

11:37-kor elcrashel az imapd, cakkumpakk. Hiba 11:41-kor eszrevesz, imapd elindit es jo minden megint. Tehat _Joel ebbol azt derivalja, hogy ultrasuxx a HP vagy az adott SUN szervergep. Az operacios rendszer nem lehet hibas, a szoftver nem lehet hibas... Ez nekem kicsit meredek kovetkeztetes.

Nem jol olvastal es felreertettel. Szallito != HW szallito. Miert ne lehetne az OS vagy az alkalmazas a hibas? Azt is szallitja valaki. Vagy ha nincs mogotte szallito, akkor a rendszergazdam legyen olyan tokos, hogy tudja support-alni. Ebben persze benne van, hogy inditsa ujra x percen belul, ha elhasalt es nincs watchdog a processzen, en meg legyek mar annyira literalt, hogy atlassam a kulonbseget egy banki penzugyi tranzakciokat kezelo rendszernek es a kis irodai halozat file szerverenek rendelkezesre allasi kovetelmenyei kozotti nagysagrendi kulonbsegrol.

En amugy azt derivalom, hogy elcrash-sel, es a coreadm beallitasoknak koszonhetoen van core file-om, valamint a Solaris service management framework-je emberi beavatkozas nelkul 11:37:01-kor ujra is inditotta a szolgaltatast, valamint kuldott egy SNMP trap-et a dologrol, hogy azert a rendszergazdak eszre is vegyek (a felhasznaloknak max ujra be kell lepniuk, de amugy talan eszre sem veszik a kiesest).

Az imapd core file megvan (hiszen coreadm beallitasok alapjan mukodunk), elkuldom a szallitojanak (tegyuk fel, hogy a Sun Java Enterprise system messaging server-enek imapd-je volt, es vettem ra supportot). Nagyon szeretnem, ha ebbol
a) a Sun bevenne a hibat a rendszerebe, es mondana ra olyat, hogy tedd fel XXXX patch-et, mert ismert hiba, es az mar javitja
b) vagy ha nem ismert hiba, akkor a core file-t elkuldene az engineeringnek akik foglalkoznanak vele, es elobb utobb lenne egy Bug ID meg egy Patch revision, amiben benne lenne a javitasal.
c) kiderulne, hogy valoszinusithetoen hardverhiba, es akkor kijonnenek es CPU-t, memoriat, alaplapot meg mindent cserelnenek a gepben

Termeszesetesen az ugyfel is maskepp all hozza a problemahoz, ha naponta 20szor tortenik ilyen, vagy ha evente 1szer (utobbi esetben egyutt lehet elni vele es extrem rendelkezesreallasi kovetelmenyek nem leven felkeszulni az elharitasara: pl az emlitett Solaris Service Management Framework szolgaltatasaval es a Solaris ctrun/contract rendszerevel). Attol meg a hiba hiba marad, ha ritka is, es egy IT uzemeltetesert felelos kozep vagy felsovezeto sem szereti ha ilyen van a rendszerben.

A pelda nem is annyira legbol kapott, bar ott imapd helyett az mta sms notifikacioert felelos gyari komponenseben volt hiba. Ugyfelnevet nem mondok, de idoben megvolt a patch (made in India of course).

[quote:815eef8b23="_Joel"][quote:815eef8b23="andrej_"][quote:815eef8b23="_Joel"]
De engem igenis zavarna, ha (..) olyan hibakkal halna el (...) amiket sem a rendszergazdam, sem a szallitomi nem tud megmagyarazni.

11:37-kor elcrashel az imapd, cakkumpakk. Hiba 11:41-kor eszrevesz, imapd elindit es jo minden megint. Tehat _Joel ebbol azt derivalja, hogy ultrasuxx a HP vagy az adott SUN szervergep. Az operacios rendszer nem lehet hibas, a szoftver nem lehet hibas... Ez nekem kicsit meredek kovetkeztetes.

Nem jol olvastal. Szallito != HW szallito. Miert ne lehetne az OS vagy az alkalmazas a hibas? Azt is szallitja valaki, nem?

En azt derivalom, hogy elcrash-sel, es a coreadm beallitasoknak koszonhetoen van core file-om, valamint a Solaris service management framework-ja emberi beavatkozas nelkul 11:37:01-kor ujra is inditotta a szolgaltatast, valamint kuldott egy SNMP trap-et a dologrol, hogy azert a rendszergazdak eszre is vegyek (a felhasznaloknak max ujra be kell lepniuk, de amugy talan eszre sem veszik a kiesest).

Az imapd core file megvan (hiszen coreadm beallitasok alapjan mukodunk), elkuldom a szallitojanak (tegyuk fel, hogy a Sun Java Enterprise system messaging server-enek imapd-je volt, es vettem ra supportot). Nagyon szeretnem, ha ebbol
a) a Sun bevenne a hibat a rendszerebe, es mondana ra olyat, hogy tedd fel XXXX patch-et, mert ismert hiba, es az mar javitja
b) vagy ha nem ismert hiba, akkor a core file-t elkuldene az engineeringnek akik foglalkoznanak vele, es elobb utobb lenne egy Bug ID meg egy Patch revision, amiben benne lenne a javitasal.
c) kiderulne, hogy valoszinusithetoen hardverhiba, es akkor kijonnenek es CPU-t, memoriat, alaplapot meg mindent cserelnenek a gepben

A pelda nem is annyira legbol kapott, bar ott imapd helyett az mta sms notifikacioert felelos gyari komponenseben volt hiba. Ugyfelnevet nem mondok, de egy heten belul megvolt a patch (made in India of course).

Igen az snmpd jogos, az kell. :oops: Az hogy ez solarison (amihez nem ertek abszolut) jol megy a szuppotz + javitas az egy jo dolog, de kerulhet a gepre debian, freebsd, windows vagy barmi ami !solaris. A pelda telleg nem legbol kapott teljesen, hasonlo celra elvileg szo van egy geprol, bar nagyon vacilalnak rajta. :)

Ja igen a szallito. Oszinten szolva azontul hogy felveszi mint hibajegyet es megnezi telleg nemsokat tud tenni.

[quote:65941c4e26="_Joel"]En azt derivalom, hogy elcrash-sel, es a coreadm beallitasoknak koszonhetoen van core file-om, valamint a Solaris service management framework-je emberi beavatkozas nelkul 11:37:01-kor ujra is inditotta a szolgaltatast, valamint kuldott egy SNMP trap-et a dologrol, hogy azert a rendszergazdak eszre is vegyek (a felhasznaloknak max ujra be kell lepniuk, de amugy talan eszre sem veszik a kiesest).

Nekem meg a daemontools szinten automatikusan ujrainditja, esetleg kuld rola egy mailt vagy sms-t, akar snmp trap-et is. Az ulimit beallitasok miatt meg ott lesz a core fájl. Természetesen saját maga is lescriptelheti az ember...

Windowson meg az ottani service menedzsment alkalmazás indítja újra (ha beállítom neki), akár a számítógépet is, ha valami kritikus cucc hal le, és küld róla e-mailt, vagy riasztást vagy akár snmp trap-et :)

[quote:19261871de="congo"]Windowson meg az ottani service menedzsment alkalmazás indítja újra (ha beállítom neki), akár a számítógépet is, ha valami kritikus cucc hal le, és küld róla e-mailt, vagy riasztást vagy akár snmp trapet :)

Akkor most adtunk nehany otletet a topikinditonak, hogy mit is kellene csinalnia ahhoz, hogy a kedves fonok eszre se vegye a leallast:)

[quote:fa4c78bad8="andrej_"]Ja igen a szallito. Oszinten szolva azontul hogy felveszi mint hibajegyet es megnezi telleg nemsokat tud tenni.

Valtozo. A Level 1 support nalunk core file-okat meg tud analizalgatni, meg osszevetni a gep patchlevel szintjet az idealissal, es tud eszkalalni a Level 2-hoz, ami viszont mar termekcsoportokra specializalodott, es idozonankent 2-2 ember legalabb van egy adott termek gondjainak ismeretere. O mar altalaban hozzafer a forraskodokhoz, es tud eszkalalni tovabb a Sustaining Engineering-nek, akik olyan programozok akik csak hibakat javitanak mar megjelent kodokon. Persze kozben a termeken dolgozo fejlesztok mar irjak a kovetkezo valtozatot, es arra is kulon ember van, hogy a regi valtozat hibajavitasait merge-lje a kovetkezo valtozat fejlesztesebe... Es persze kulon QA van a Sustaininghez is (a QA-n meg at nem ment patch-ket hivjak nalunk T-Patchnek ami csak akkor kerul ki egy ugyfelhez ha tenyleg kritikus a problema, es nem lehet bevarni amig a QA bolint vagy nem - kulonosen, hogy a QA-nak vizsgalnia kell azt is, hogy a javitas mast nem ront-e el es a test case-ek lefutasa napokig is eltarthat).

Néha előfordul, hogy valamelyik szoftver elszáll Debian alatt - talán hardver-, talán szoftverhiba -, de nem túl gyakran, talán félévente egy.
Persze ez nem normális szerveren történik, hanem olyan gépeken, ahol sima pc-t használnak szerverként.
De ilyenkor egy bizonyos helyről mindig nagyon kényelmetlen kérdés fogad: mitől szállt el?
Mit válaszoljak azon kívűl, hogy hümm, hümm?
Lehet azt mondani, hogy "ez normális ebben az esetben"?