Abban az esetben, ha az operációs rendszer vissza tudja állítani (rekonstruálni tudja) az elveszett adatokat, ez az alkalmazás-réteg számára ez transzparens lehet, a végrehajtás folyamatos maradhat. Ellenkező esetben az operációs rendszer dönthet úgy, hogy "feláldozza" az érintett felhasználói folyamato(ka)t annak érdekében, hogy a rendszer tovább működhessen.
A szerverrendszerek nem csak kapacitásban és sebességben "többek" desktop és mobil társaiknál. A szerverektől többet várunk el a rendelkezésre-állás területén is. Az MCA egy olyan mechanizmust kínál, amely érzékelni, izolálni és számos esetben javítani tudja a processzor és a platform hibáit.
Több hibaforrás is lehet egy számítógépes rendszer körül:
Elektromos hálózat / betáplálás egyenetlenségei
Ez ellen védekezhetünk megfelelően jó minőségű, az elektromos hálózati betáplálás egyenetlenségeit kiegyenlíteni képes szünetmentes tápegységgel (UPS).
Statikus elektromosság
Hatásai (elektrosztatikus kisülés) csökkenthetők számítógépház körültekintő tervezésével és speciális, elektrosztatikus feltöltődés lehetőségét csökkentő padlózat kialakításával.
Hő
Káros hatásai megelőzhetők megfelelő számítógépház tervezéssel, megfelelő szerverterem kialakítással, klímaberendezések alkalmazásával. A hardver is detektálhatja a túlzott hőtermelést és automatikusan válthat olyan üzemre (pl. kisebb órajel, kisebb feszültség) amely kisebb hőtermeléssel jár.
Radioaktivitás
Hatásai csökkenthetők egyrészt azáltal, hogy a rendszer gyártása / építése körültekintően megválasztott anyagok felhasználásával történik, másrészt megfelelő árnyékolás alkalmazásával.
Kölcsönhatás a kozmikus sugárzásból származó nagy energiájú részecskékkel
Védekezhetünk ellene árnyékolással (például a számítógépterem pincébe helyezésével), vagy a számítógépes rendszerek tervezésénél a magasan fekvő földrajzi helyek mellőzésével (például egy, a tengerszint feletti 1600 méteres magasságban levő földrajzi helyen négyszer nagyobb a kozmikus sugárzás intenzitása, mint egy tengerszinten fekvő területen)
Miért fontos ez?
Mert ugyan a hardverek egyéb szempontból egyre megbízhatóbbak lesznek, de (a már nanométeres) gyártástechnológia fejlődéséből adódóan az áramköri elemek egyre "sűrűbbek" lesznek, így egyre jobban ki vannak téve a részecskék negatív hatásainak (szélsőséges esetben egy adott részecske képes lehet bit(ek) átbillentésére). Továbbá a számítógépes klaszterekkel megtöbbszöröződik a hibalehetőség. Amíg valaki egy processzort alkalmaz nem olyan nagy problémaforrás ez, de ha valaki több ezer processzorból épít rendszert...
Amint az látszik, a fent felsorolt hibaforrások ellen lehet tenni, a belőlük származó káros hatásokat, a hibaarányt lehet csökkenteni. Azonban van úgy, hogy lehetetlen vagy túl drága lenne az összes hibaforrás kiküszöbölése, ezért a számítógéprendszereket úgy kell megtervezni, hogy az képes legyen detektálni, elszigetelni és lehetőség szerint javítani a bekövetkezett hibákat.
Az Itanium processzorokban található Machine Check Architekture biztosít egy olyan keretrendszert, amely többfajta hibát képes lekezelni logikusan és következetesen.¹
Szóval az Itanium MCA Recovery (valamilyen formában) része lesz a közeljövőben megjelenő Nehalem-EX processzoroknak. Ahogy az fentebb olvasható volt, az MCA Recovery igényli az operációs rendszer támogatását.
Az Intel-nél dolgozó Andi Kleen által beolvasztásra beküldött HWPoison patchkit a Nehalem-EX új hibajavító funkciójának támogatását készíti elő:
Upcoming Intel CPUs have support for recovering from some memory errors (``MCA recovery''). This requires the OS to declare a page "poisoned", kill the processes associated with it and avoid using it in the future.
This patchkit implements the necessary infrastructure in the VM.
A Nehalem-EX processzorban bemutatkozó MCA Recovery-ről bővebben itt.
- A hozzászóláshoz be kell jelentkezni
- 1967 megtekintés
Hozzászólások
a pdf helyesen itt.
- A hozzászóláshoz be kell jelentkezni
Mégiscsak jó lesz az a Xeon az SGI 4096 CPU-t tartalmazó gépébe. :)
- A hozzászóláshoz be kell jelentkezni
Bwahaha. :)
--
Wir sind erfasst, sind infiziert
Jedes Gespräch wird kontrolliert.
- A hozzászóláshoz be kell jelentkezni