Az MCA Recovery és a Linux x86

Címkék

Az Intel nemrég hivatalosan bejelentette, hogy 2010 elején érkezik a Nehalem-EX (kódnevén "Beckton") processzor, amelyet a vállalat "kimondottan a teljesítmény- és memóriaigényes nagyvállalati alkalmazások futtatására vagy virtualizációs, konszolidációs platformként pozicionál."

A Nehalem-EX - egyebek mellett - olyan RAS (reliability, availability, serviceability, megbízhatóság, rendelkezésre állás, szervizelhetőség) képességekkel gazdagodott, amelyek eddig (az Intel kínálatában) csak az Itanium vonalon voltak megtalálhatók. Ilyen képesség például a Machine Check Architecture (MCA) Recovery.

Az Itanium processzorokban található MCA Recovery mechanizmus lehetővé teszi különböző, a processzor és a chipset által detektált hardverhibák jelentését és javítását. Az egyszerűbb hibákat (1 bit) az ECC az operációs rendszer számára transzparensen javítja a hardver és a firmware segítségével, de az ennél összetettebb, adatvesztéssel járó hibák javításához már operációs rendszer támogatás is szükségeltetik.

Abban az esetben, ha az operációs rendszer vissza tudja állítani (rekonstruálni tudja) az elveszett adatokat, ez az alkalmazás-réteg számára ez transzparens lehet, a végrehajtás folyamatos maradhat. Ellenkező esetben az operációs rendszer dönthet úgy, hogy "feláldozza" az érintett felhasználói folyamato(ka)t annak érdekében, hogy a rendszer tovább működhessen.

A szerverrendszerek nem csak kapacitásban és sebességben "többek" desktop és mobil társaiknál. A szerverektől többet várunk el a rendelkezésre-állás területén is. Az MCA egy olyan mechanizmust kínál, amely érzékelni, izolálni és számos esetben javítani tudja a processzor és a platform hibáit.

Több hibaforrás is lehet egy számítógépes rendszer körül:

Elektromos hálózat / betáplálás egyenetlenségei

Ez ellen védekezhetünk megfelelően jó minőségű, az elektromos hálózati betáplálás egyenetlenségeit kiegyenlíteni képes szünetmentes tápegységgel (UPS).

Statikus elektromosság

Hatásai (elektrosztatikus kisülés) csökkenthetők számítógépház körültekintő tervezésével és speciális, elektrosztatikus feltöltődés lehetőségét csökkentő padlózat kialakításával.

Káros hatásai megelőzhetők megfelelő számítógépház tervezéssel, megfelelő szerverterem kialakítással, klímaberendezések alkalmazásával. A hardver is detektálhatja a túlzott hőtermelést és automatikusan válthat olyan üzemre (pl. kisebb órajel, kisebb feszültség) amely kisebb hőtermeléssel jár.

Radioaktivitás

Hatásai csökkenthetők egyrészt azáltal, hogy a rendszer gyártása / építése körültekintően megválasztott anyagok felhasználásával történik, másrészt megfelelő árnyékolás alkalmazásával.

Kölcsönhatás a kozmikus sugárzásból származó nagy energiájú részecskékkel

Védekezhetünk ellene árnyékolással (például a számítógépterem pincébe helyezésével), vagy a számítógépes rendszerek tervezésénél a magasan fekvő földrajzi helyek mellőzésével (például egy, a tengerszint feletti 1600 méteres magasságban levő földrajzi helyen négyszer nagyobb a kozmikus sugárzás intenzitása, mint egy tengerszinten fekvő területen)

Miért fontos ez?

Mert ugyan a hardverek egyéb szempontból egyre megbízhatóbbak lesznek, de (a már nanométeres) gyártástechnológia fejlődéséből adódóan az áramköri elemek egyre "sűrűbbek" lesznek, így egyre jobban ki vannak téve a részecskék negatív hatásainak (szélsőséges esetben egy adott részecske képes lehet bit(ek) átbillentésére). Továbbá a számítógépes klaszterekkel megtöbbszöröződik a hibalehetőség. Amíg valaki egy processzort alkalmaz nem olyan nagy problémaforrás ez, de ha valaki több ezer processzorból épít rendszert...

Amint az látszik, a fent felsorolt hibaforrások ellen lehet tenni, a belőlük származó káros hatásokat, a hibaarányt lehet csökkenteni. Azonban van úgy, hogy lehetetlen vagy túl drága lenne az összes hibaforrás kiküszöbölése, ezért a számítógéprendszereket úgy kell megtervezni, hogy az képes legyen detektálni, elszigetelni és lehetőség szerint javítani a bekövetkezett hibákat.

Az Itanium processzorokban található Machine Check Architekture biztosít egy olyan keretrendszert, amely többfajta hibát képes lekezelni logikusan és következetesen.¹

Szóval az Itanium MCA Recovery (valamilyen formában) része lesz a közeljövőben megjelenő Nehalem-EX processzoroknak. Ahogy az fentebb olvasható volt, az MCA Recovery igényli az operációs rendszer támogatását.

Az Intel-nél dolgozó Andi Kleen által beolvasztásra beküldött HWPoison patchkit a Nehalem-EX új hibajavító funkciójának támogatását készíti elő:

Upcoming Intel CPUs have support for recovering from some memory errors (``MCA recovery''). This requires the OS to declare a page "poisoned", kill the processes associated with it and avoid using it in the future.

This patchkit implements the necessary infrastructure in the VM.

A Nehalem-EX processzorban bemutatkozó MCA Recovery-ről bővebben itt.

Machine Check Recovery for Linux on Itanium® Processors)

Hozzászólások