HP Z440 NVME boot probléma

Sziasztok, van két napja egy HP Z440-es workstationöm ami egy Z Turbo Drive G2 kártya segítségével egy Samsung NVME SSD-ről bootol (hivatalosan támogatott konfig ez), a gépen Windows 10 Pro fut. A probléma az hogy a gépet nem lehet sikeresen újraindítani, csak a teljes leállítás / bekapcsolás működik. Újraindítás esetén reboot után a gép meghal a következő hibaüzenettel:

POST Error
928-Fatal PCle error.
PCle error detected
Surprise link down error Completion Timeout on Slot 4 Gferrsts: 0x40 Xpuncerrsts: 0x0 Uncerrsts:0x4020

Ebben a gépben a Turbo Drive-ot a 4-es és 5-ös PCIe slotokba lehet használni, mind a kettőben produkálja ezt a hibát. Próbáltam a használt PCIe slot paramétereit állítgatni, BIOS-t frissítettem, Windows is naprakész (bár szvsz a tünetek alapján a használt OS-nek nem sok ráhatása van a jelenségre) , de nem segített semmi. Próbáltam rákeresni is a jelenségre, nem igazán találtam releváns infót. Végszükség esetén együtt lehet ezzel élni, csak macerás(abb) adott esetben a frissítések/akármilyen installok utáni újraindítás - valakinek ötlete hogy mi okozhatja?

Hozzászólások

Trey majd jól elmondja, hogy brand workstation-t kell használni, támogatott komponensekkel, akkor majd minden jó lesz.
Vagy jön a chewbacca védelemmel...

 

Egyébként a bájos a legfrissebb?

a konkrét SSD-ről csak annyit tudunk, hogy NVME, de azt egyelőre nem, hogy az a HP által támogatott-e (a Z Turbo Drive G2-ben)... azaz treynek igaza is lehet ebben az esetben is...

szerkesztve: lent írja, hogy egy RX6600 van a gépben, ilyen videokártyával meg a HP sosem szállította ezt a típust, és nem is támogatott, lévén az x8 PCie Gen4-es, az alaplapon meg csak max. Gen3-as PCIe slot van, a visszafele kompatibilitást "felejtsük el", szóval treynek igaza van, ha azt mondja, hogy brand gép, de nem támogatott komponens van benne, ezért ne csodálkozz...

Első körben firmware/bios update vonalon indulnék el. A "mi okozhatja"-t sosem fogjuk megtudni valszin.

Szerkesztve: 2023. 08. 08., k – 19:42

Köszi a válaszokat, de a felvetett kérdésekre ott volt az infó a nyitó hozzászólásban: HP Z440 -> brand workstation szerintem: https://support.hp.com/us-en/document/c04506309 , illetve ott van az is hogy a BIOS-t is frissítettem.

"PCle error detected Surprise link down error Completion Timeout on Slot 4 Gferrsts: 0x40 Xpuncerrsts: 0x0 Uncerrsts:0x4020"

Energia gazdálkodási beállítások a BIOS-ban? Nincs valamilyen superlowpower opció gyárilag belőve?

Lehet az egész nem ér annyit, hogy erre jobban rápörögj, és egy SATA SSD-ről kéne bootolni. Vagy jön valaki, és puff megmondja, vagy "végtelen" időt lehet az ilyen jellegű hibakereséssel tölteni.

Valószínüleg máshogy történik az eszköz inicializáció, például túl hamar akarja a PCIe buszon keresni az NVMe eszközt.

https://h30434.www3.hp.com/t5/Business-PCs-Workstations-and-Point-of-Sa…

Ez mondjuk másik hiba, de egy kártya "reseat", és másik slotban megpróbálás, illetve link állítás sem tűnik rossz ötletnek. Lehet valójában csak konkrét slotban szereti az NVMe rebootot.

Ezt a fórumtémát én is megtaláltam, de sajnos nem segített a másik slotba átrakás / igazgatás. Még kipróbálom egy másik videokártyával meg egy live Linux disztróval is, bár nem fogom lecserélni a mostanit (egy RX6600) akkor sem ha ez lenne a ludas. Vagy veszek egy nagy levegőt és teszek bele egy SATA bootdiszket, csak az elcseszett időt sajnálom erre :)

Még bepróbálkoztam a Clover / USB kombóval (beállítottam alapértelmezettnek, bekapcsolás után megy is rendesen), de úgy néz ki nem számít hogy honnan bootolok - a hiba a reboot után egy olyan korai boot fázisban jelentkezik, amikor még esélye sem volt a default boot eszköznek elindulnia, ergo hiába tennék be egy SATA SSD-t. Ha lesz érkezésem, még eljátszódok majd a különböző PCIe slotokkal, hátha valamelyik mix megoldja a reboot utáni fagyást.

Szerkesztve: 2023. 08. 09., sze – 05:20

a HP oldalán nem találtam leírást, csak itt: https://www.bhphotovideo.com/lit_files/116531.pdf , a leírás 2015 májusi, még nem említik benne a Windows 10-et, ami 2015. július 29.-én jelent meg, eredetileg 256 ill. 512 GB-os SSD-vel szállították, de ugye írják ezt is: "We expect to be able to offer higher capacity devices in the future as they become available in the industry.", ezek alapján nem hinném, hogy gondot okozna, ha nagyobb kapacitású SSD-vel használnád, de ugye anno gyárilag tesztelve nem lett...

gondolom az SSD új, esetleg nem PCIe Gen4-es? a kártya ugye Gen3-as, ami elméletileg nem kellene, hogy gondot okozzon a visszafele kompatibilitás miatt, de lehet, hogy ez "kavar be"...

szerkesztve: http://h10032.www1.hp.com/ctg/Manual/c04823811 most az RX6600-as a 2-es slotban van? ha jól látom, akkor az, meg az 5-ös a "x16 PCIe Gen 3"-as? (nálam is egy Gen4-es kártya van egy Gen3-as slotban, mert a GPU memória miatt "beáldoztam" a sebességet, azaz nem akartam egy új munkaállomást venni az új videokártyához, ezt azért írom, mert az RX6600 is Gen4-es, ugye?), habár a fenti leírásban azt írják, amit te is, hogy a 4-es, és 5-ös slotban támogatott a kártya (a Z Turbo Drive G2), én lehet, hogy megpróbálnám a 2-esben, az RX6600-ot meg átraknám az 5-ösbe, ha elfér...

Szia!

Én is hasonló porblémába ütköztem.... sikerült bármi megoldást találnod rá?

Az utóbbi években legalább száz Z440/Z640 ment át a kezeim között. Soha nem volt ilyen probléma, pedig nem mindig a Z Turbo Drive G2-t használtam (bármilyen noname is tökéletesen megfelelt) és nem mindig a gyári NVMe SSD-ket. Most pont egy olyannal lett probléma. Mindezt úgy, hogy előtte működött minden rendesen, csak egy 500GB-os Samsung 970 EVO Plus-t vettem ki és helyére egy gyári Samsung PM981(A?) 256GB-os SSD-t raktam, ami előtte hibátlanul ment egy másik gépben. A csere óta pedig az általad leírt probléma van....

 

Thanks

nekem volt problemam raid vezerlovel, amit csak minden 5. ujraindulaskor tudott a kernel inicializalni (a bios a kernelt es initrd-t betoltotte a raidrol), szerencsere a xenserver akkori verzioja olyan volt, hogy ha nem talalta a gyoker fajlrendszert akkor timeout utan ujraindult, igy csak ki kellett varni, mig kiujrainditgatja magat, utana jol mukodott.

azota nem veszek raid vezerlot. debian es szoftveres raid1 van a xen alatt.

neked aztan fura humorod van...

Ha más is belefutna ebbe a hibába, akkor maga az SSD az, ami ezt a jelenséget okozza, nem az alaplap, nem a kártya - bár valószínűleg ezek együttes hatása miatt van.

Noname és Samsung 970 EVO, Samsung 970 EVO Plus, PM981A SSD-kel gond nélkül működik, nem jelzi a hibát. (Az utolsón kívül ezek nem HP OEM termékek.)
A gyári HP SSD (PM981), amit ajánlanak hozzá, azzal pedig előjön az említett hiba.

Érdekes, mert ugyan az az SSD, amivel a hibát okozza, nem HP Z Turbo Drive G2-essel pedig szintén gond nélkül boot-olható....

Most nincs előttem a gép, majd valamikor este férek hozzá de úgy emlékszem valamilyen Samsung SSD van a Turbo Drive-ra rápattintva.

Edit: nem olvastam végig/elég figyelmesen a hozzászólásodat, pedig csak pár mondat. PM981 van a kártyán hogy pusztulna meg :) Illetve még annyit fűznék hozzá hogy a cold boot megy gond nélkül, csak az újraindítás fáj neki.

BIOS-ban ASPM (PCIE link power management) kulcsszavakra kerestél már?

Az SSD firmware-t is nézted h. up-to-date? (nem elég csak a bios update, gyakorlatilag minden alkatrésznek van külön saját firmware-je amiket jobb esetben lehet updatelni szintén ilyen jellegű elismert hibák esetén)

Én kb. 6-8 órát csesztem el azzal, hogy a különböző power management és egyéb beállításokat állítgattam a bios-ba, ráadásul triplán, mert 2 másik PCIe slotban is végig csináltam. Nem nyert egyik sem.

Firmware-t az SSD-hez próbáltam keresni, mert szerintem is ott van a fő probléma, de ehhez a típushoz nem találtam szinte semmit: csak egy olyat, amit a Lenovo update-elt a saját rendszereihez, de azt nem mertem feltenni (ráadásul csak linux alól lehet, az meg nem volt kéznél).

Nálam a pontos típus amúgy: Samsung PM981 (MZVLB256HAHQ-000H2), HP P/N_L11634-501.

Ebből (PM981) csak ez az egy darab van, így több tesztet nem tudtam csinálni, viszont a PM981A, 970 EVO, Pro, Plus, stb.-ből volt/van jópár, azok hibátlanul mentek benne, ill. most is valamelyik gépben.

OEM SSD-t azért nem jó ötlet használni más (nem-OEM) gépben, mert azok az SSD-k csak az OEM által kiadott firmware-t fogadják el. Updatelni is csak az OEM tool-jaival lehet, konzumer tool-okkal nem. Pl az általad írt Samsung PM981A az egy Lenovo által kiadott SSD hiába Samsung (is) van a nevében. Így a PM981A szóba sem áll a  Samsung Magician-al, ami a szokványos consumer 970, 980, 990 SSD-ket kezeli.Csak a Lenovo saját SSD management/update tool-jával. Szóval ehhez a PM981A-hoz Lenovo oldalán kellene nézni fw update-t. Ha van, akkor reménykedni h. lefut a tool nem-lenovo gépen is, és ténylegesen megcsinálja az update-t.