A bűnös

1-GbE 331FLR FIO adapter (Broadcom) - 4-ports at 2 GB/s full duplex, baseT, BCM5719 chipset

Előzmények: RSOD. A HP szerviz ilyet még - állítása szerint - nem látott. A cserealaplap megérkezett, HP szerviz embere beépítette, azzal is jelentkezett a probléma egyből. A gyanúsított jelenleg a fenti 1-GbE 331FLR FIO (Broadcom) - 4-ports at 2 GB/s full duplex, baseT, BCM5719 chipset adapter.

Ma újra megkísérlik megjavítani a problémát.

Hozzászólások

Hasonlo Broadcom chipsettel Linux alatt sikerult kernel panicot eloidezni eleg specialis korulmenyek kozott: bonding+vlan komboval. Ott a driver frissitese megoldotta a dolgot.

Nem, gyárilag működött a szerver.

De - elmondás alapján tudom csak, mert hozzám már a RSOD-dal került - frissítették a szerveren az összes firmware-t. Az összes frissítés felment, de a fenti hálókártyára azt írta, hogy nem tudta megcsinálni. Ez mondjuk látszik is, mert se kép, se hang nincs rajta. Még link se.

Az viszont rejtély, hogy egy rossz hálókártya hogyan tud egy POST folyamatot így hazavágni. Normális szerver ha nem tud egy eszközt inicializálni, akkor azt letiltja és kész, a POST folyamat megy tovább, sőt, még az alja szerverek közt is van olyan, ami ki is írja, hogy melyik slot az, amiben a rossz kártya van.

De itt addig el sem jut.

--
trey @ gépház

Normális szerver ha nem tud egy eszközt inicializálni, akkor azt letiltja és kész, a POST folyamat megy tovább

Azért ez nem egészen így van... A kártyán van futtatható kód (a pci rom bar-ban), amit "oprom"-nak vagy "pci expansion rom"-nak szoktak nevezni. Ez lehet legacy bios kód, lehet uefi driver, illetve lehet olyan rom image, amely mindkettőféléből tartalmaz (kombinált rom). Most nem emlékszem pontosan (pedig hosszú órákat töltöttem vele...), de a PCI spec valamelyik részében le van írva, hogy mi merre.

Hmm, igen, talán ez az:

https://www.pcisig.com/specifications/conventional/pci_firmware/

Például a videokártyák egy részén ebben van a kártya saját POST kódja, illetve a VBE szolgáltatások implementációja. Hálókártyáknál a PXE boot implementáció szokott benne lenni, és így tovább.

Szóval, a kártyán tárolt cuccot egyszerűen futtatja a processzor; van neki entry point-ja, arra az alaplapi firmware jól ráugrik. Ha a kártyán tárolt kód bugos és mondjuk egy GPF-et vált ki, vagy valamilyen más exception-t,

http://wiki.osdev.org/Exceptions

akkor jó eséllyel az alaplapi firmware által behorgolt exception handler fog meghívódni, ami nem nagyon tud mást tenni, mint rád dobni egy register dump-ot -- amit látsz is. A képernyő tetején az Illegal OpCode felirat látható:

http://wiki.osdev.org/Exceptions#Invalid_Opcode

ami arra utal, hogy a kártyán tárolt bináris adatra, vagy simán csak szemétre ugrott, mint végrehajtandó kódra. A CS:EIP=0000:00000007 elég rondán néz ki. Nem tudom ugyan mi van a 0-ás segment descriptor-ban, de valószínűleg nem egy kódszegmenst határoz meg.

Egyszóval a kártya saját firmware-e bugos, és igen, az tud ilyeneket okozni.

(Az okosabbak esetleges korrekcióit előre is köszönöm.)

Kíváncsian várjuk a további fejleményeket.
A hálózati kártya cseréje melyik oldalon következik a szervízkönyvükben?

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

A szerviz egyszerre csak egy alkatrészt hozhat. Múlt héten pénteken bejelentette a kollégám a hibát. Kedden jöttek alaplapot cserélni (hétfőn is jöttek volna, de akkor nem volt nekünk megfelelő), kedden kiderült, hogy nem az alaplap a hibás. Elmentek hálókártyáért. Szerdán hívtak, hogy aznap nem kaptak kártyát. Azóta se kép, se hang.

--
trey @ gépház