EMC VNXe 3150 nem indul

Sziasztok!

Van egy VNXe3150-ünk, ami nem igazán akar elindulni. Support már nincs rá, illetve nem is túl acélos, de azért jó lenne megmenteni.

Röviden a történet:
Néhány hónapja le lett ürítve és el lett dobozolva, akkor még hibátlanul működött. Néhány napja előszedtük, és szerettük volna elindítani. Ekkor az egyik controller indult csak el, a másik megállt boot közben (a LEDek alapján). Fél lábbal teljesen jól működött, gondoltuk semmi baj, nézünk bele egy vezérlőt. Azonban tegnap már el sem értük csak service módban.
Próbáltuk újraindítani először a unisphere-t, majd az egész dobozt, de innentől egyáltalán nem értük el.
Konzolon sikerült belőle kicsalogatni a boot folyamatot, de sajnos nekem ez ahhoz kevés, hogy meg tudjam állapítani helyreállítható-e.
Látott már valaki ilyet? Illetve van esély a helyreállításra, vagy tegyem veszélyes hulladékba?

Minden ötletet / segítséget szívesen veszek.

Köszönöm!

A konzol kimenete: https://pastebin.com/wdv3xrxs

Hozzászólások

Próbáld meg kikapcsolt állapotban reseatelni (kihúz - bedug) az összes mozdítható komponensét, diszkeket, kontrollereket, stb. mindent az eredeti helyére dugj vissza, ezután bekapcsolni.
A konzol kimeneten ssd-re warningol, de az nem feltétlenül gond. Más hiba szerintem nincs benne.
Installáltam már ilyet, de most nem igazán találtam doksit, amiben pl. reimage-ről lenne szó... pedig biztosan újra lehet telepíteni, ha annyira megborult volna.
Ping-re egyébként válaszol, vagy már arra sem?

Ok, akkor ötletelek tovább :)

Ezeket nézd meg esetleg, hátha előrébb visz valamelyik (értelemszerűen mivel csak konzol kapcsolatod van, a CLI részek relevánsak).
Ha sehogy sem tudsz belépni, én még megpróbálnám féllábasan elindítani: csak az SPA legyen bedugva, vagy ha pont annak világít az alert ledje akkor az SPB

https://community.emc.com/docs/DOC-40085
https://community.emc.com/thread/123026?start=0&tstart=0
https://community.emc.com/docs/DOC-40315

Az SSD hibára találtam bejegyzést, ez viszont mégis lehet probléma. Az SP-k hátulján (valamelyiken) világít az alert led?
https://community.emc.com/thread/201576?start=0&tstart=0

Esetleg ha valahogy sikerül belépni rá, érdemes lenne egy service data-t legyűjteni róla, abból több minden kiderülne:
https://emcservice.force.com/CustomersPartners/kA2j0000000QVcgCAG

Még ez jutott eszembe, nem lehet, hogy töröltétek a konfigot, és felbootolt a storage, csak várná a konfig fájlt?:
https://community.emc.com/thread/225221?start=0&tstart=0

https://www.youtube.com/watch?v=9Py_ZEoHlMo

Egyelőre úgy néz ki, hogy félsiker. Néhány re-seat és reboot után az egyik SP (spb) elindult, és login promptig jutott. svc_diag közölte, hogy service módban van, míg a peer (spa) unreachable.
svc_dc nem járt sikerrel. Látszólag rendben lefut, de a végén elmozgatja a filet, és azt már nem találom a filerendszeren. Olyan, mintha nem mozgatná, hanem törölné.

svc_reimage után spb elindult normal módban, IP nélkül. Adtam neki IP-t (svc_network), majd ismét próbálkoztam egy svc_dc-vel, de az eredmény hasonló. Jelenleg SP status: spb-normal; peer-unreachable.

Egyelőre itt tartok. A unisphere azonban továbbra sem megy, csak az SSH port van nyitva rajta, illetve a másik sp nem ad életjelet magáról.
SPB-n a status led villog, ami a HIG szerint két dolgot jelenthet:
1. Operating system driver started
2. Fault, a system error has occurred, causing some
storage resources to become unavailable. The SP
is not operating and the status LED is blinking
(see Note)

A másik SP állapota viszont változatlan.

Szerk.:
majd egy fél úrával később magától újraindult az spb, és service módba került. A beállított IP-t eldobta, és 38-as load van rajta.
svc_diag:
======== Now executing basic state ========
* System Friendly Host Name is: (none)
* System Serial Number is: -----------------
* Current Software version: NeoMain-2.4.4.22283-MAGNUM-RETAIL
* Unisphere IP address(es): Unable to determine IP address
* SSH Status: SSH is disabled on this system.
* Boot Mode: Rescue_Mode
* Post Faults: No faults detected. (code 0x0000)
* Backend Faults: No faults detected. (code 0x0000)
* Boot Control Faults: There is a problem with the system software on this Storage Processor (ADMIN). To attempt to correct this problem: Run Data Collection, check all cables, reboot each SP, and lastly try Reimaging each Storage Processor (SP). If a Service Code is shown below and is set to 0xFC12CDD1, some part of the system is Cache Dirty so contact support for resolution. (code 0x1102)
* Rescue Reason: There is a problem with the system software on this Storage Processor (ADMIN). To attempt to correct this problem: Run Data Collection, check all cables, reboot each SP, and lastly try Reimaging each Storage Processor (SP). If a Service Code is shown below and is set to 0xFC12CDD1, some part of the system is Cache Dirty so contact support for resolution. (code 0x1102)
* Hint Code: Dart root LUNs are cache dirty, escalate to fix cache dirty (code 0xFC12CDD1)
* SP Service Hint Code: 0xFC12CDD1

Na, ez már haladás, van egy service code, amire ezt találtam (bár unanswered, de hátha):
https://community.emc.com/thread/217045?start=0&tstart=0
SSH into the each SP and run the following: svc_cdca --list-cdca (list all cache dirty luns of current SP) svc_cdca --clear (clear all the cache dirty luns for current SP, prepare any system luns for auto fsck.) And that should do the trick...

svc_dc kimenetnek elvileg itt kellene lenni:
/EMC/backend/service/data_collection/

Esetleg service mode-ból próbáld meg kivenni:
https://community.emc.com/docs/DOC-40085
These command must be executed on a per SP basis.
To bring SP into normal mode again, run following commands in sequence:
service@spa spa:~>svc_rescue_state -c
service@spa spa:~>svc_shutdown -r

Ha nem segít, a korábbi linkek között volt egy, ami a Manual Install-t taglalja, esetleg azt nem próbáltad, USB stick-ről megetetve vele a konfig fájlt?
https://community.emc.com/thread/225221?start=0&tstart=0

Alakul a dolog. Az egyik oldal már működik (spb). Megy az ssh, unisphere, látja a diskeket.
A másik oldal viszont nem megy. Még mindig unreachable állapotban van. Unisphere és a CLI-s toolok sem látják, valamint konzolon sem kapok promptot.
Időközben megjött a controller amit rendeltünk hozzá. Megpróbálom a jelenleg hibásnak jelöltet kicserélni. Minden leírás azt mondja, hogy az SSD-t is tegyem át az új SP-ba. Mivel azonban arra ír hibát, így én ezt a lépést kihagyom (A 'replace SSD' leírás meg azt mondja, hogy tegyem service módba -> nem tudom). Gondolom valamilyen inkonzisztens állapotba fog kerülni a két SP. El tudok ebben az állapotában indítani valamit, ami gyári állapotra hozza mindkét SP-t? Igazából adat nincs rajta, tehát talán ez lenne a legtisztább.

Más:
Az svc_dc kimenetének a helyét megtaláltam, de nincs ott a file, amit el kellett volna készítenie. Sőt, a készítés során használt tmp könyvtárban sincs.

Ok, haladunk :) Az SP replacementben van jópár komponens, amit át kell rakni az új SP-be (memóriák, IO modulok, stb.) Ezeket meg kell nézni, hogy abban, amit most rendeltetek, benne vannak-e.

Ha nem cseréled ki a korábbi hibás SSD-re, akkor az jelenleg olyan, mintha a rosszat kicserélnéd egy jóra, erről az SSD replacement guide-ban van egy ilyen rész:
Reboot the SP:
Once you have installed the replacement solid state disk and returned the SP assembly to
the chassis, reboot the recently serviced SP to ensure that it leaves Service mode:
1. From Unisphere, select Settings, then Service System.
2. Log in with your service password.
3. In the System Components column, select the storage processor (SP A or SP B)
associated with the replacement solid state disk.
4. Under Service Actions, select Reboot, then Execute service action.
It may take up to 12 minutes for the system to complete its reboot to return to Normal
mode and restart the servers.
5. Refresh your browser, or follow the on-screen instructions, to bring the software out of
Service mode and restore full-function Unisphere

Az svc_dc -ről nem vagyok meggyőződve, hogy Service mode-ban is működik-e, mintha a manual azt írta volna, hogy Normal mode-ban megy csak, lehet, hogy ezért nincs meg a fájl. Viszont ha Unisphere megy, akkor abban már le tudod gyűjteni:
Collecting from Unisphere GUI (Recommended Method):

1) Log in to the Unisphere GUI with admin credentials.
2) Click on Settings and then on Service system.
3) Enter service password.
4) Under "System Components" highlight "Storage System".
5) Select "Collect Service Information " under "Service Actions."
6) Click "Execute service action."
7) This message is displayed: "The service data has previously been collected and is available for download. Do you want to download this existing service data or start a new process to collect new service data? Click Yes to download the existing service data file or No to start a new collection of service data."
8) Select Yes or No as appropriate to your situation.
9) Click Yes to save the files to your hard drive.

Egy negyed lépéssel ismét közelebb. Kicseréltem a SP-t, és valamivel jobb a helyzet. Jelenleg mindkét SP megy, látják egymást (egyik sem mondja a másikra, hogy unknown / unreachable), viszont mindkettő service módban van, és nem tudom belőle kivenni őket. Az spb-t csak konzolon érem el, az spa-t csak ssh-n.
Az alábbiakat próbáltam meg mindkettőn:
svc_reimage
svc_reinit
svc_shutdown (-r, --halt, --system-halt, --system-halt --force)

Boot közben az spb (az egyik eredeti controller) azt mondja, hogy "Invalid peer SP type error".

Ezt mondja az svc_diag:
SPA: https://pastebin.com/926Du8NF
SPB: https://pastebin.com/iydajYT3
És ezt az svc_sysstat:
SPA: https://pastebin.com/FmE7LxB0
SPB: https://pastebin.com/Usjwa4sZ

Kb idáig jutottam, és elfogytak az ötleteim. Valami hardware eltérés lesz, de nem tudom, hogy mi. Ezt nem tudom kiíratni valahol? A hibakódra sem találtam semmi értelmeset.

Közben még az éjjel megtaláltam, hogy más hardware rev a kettő, így a most érkezett sp-al nem is próbálkozom tovább.
Helyette áttettem az ssd-t belőle a régibe, de eddig nem sok siker. Most megpróbálom mindkettőt külön-külön reimage és reinit után elindítani (ötlet1).

Viszont az egyik guideban találtam egy érdekes részt, ami talán előrébb vihet. Azt mondja a status led alapján, hogy "cache-dirty condition has occured". Ilyenkor az történik, hogy vár a peer-re (tehát az spb-re) 1 órát, hogy megoldja a problémát. Amennyiben nem sikerül, elvileg elindul service módban.
Itt arra hivatkoznak, hogy több infoért keressek rá az "emc263713" -ra a knowledgebaseben. Én erre sajnos nem találtam semmit, csak két doksit az egész support oldalon. Mindkét doksi arra hivatkozik, hogy keressek rá erre.
Az egyik hivatkozik még egy svc_cache parancsra, amim nekem viszont nincs (szerintem normal módban próbáltam, ezért nem volt).
Megpróbálom este még egyszer service és normal módban is elérni ezt a parancsot, és valahogyan felparaméterezni, így segítve a másik oldal elindulását (ötlet2).

Normal módban egyébként valóban jól lefutott a dc, este kirakom valahová a kimenetét.

Nagyon köszönöm az eddigi segítségedet is, sokat lendítettél a dolog előre menetelén.
Bár már nagyon gondolkodom rajta, hogy belököm az egészet veszélyes hulladékba (ötlet3)... :)

Az a KB többek közt erre hivatkozik (nem tudom, van-e a support oldalhoz hozzáférésed, azért belinkelem):
https://emcservice.force.com/CustomersPartners/articles/Break_Fix/emc28…
https://emcservice.force.com/CustomersPartners/kA2j0000000R6myCAC

Itt a Dirty Cache törléséről van szó, amiből a lényeget korábban írtam:
"SSH into the each SP and run the following: svc_cdca --list-cdca (list all cache dirty luns of current SP) svc_cdca --clear (clear all the cache dirty luns for current SP, prepare any system luns for auto fsck.) And that should do the trick..."

Dirty Cache lehet System LUN-ra és User LUN-ra is, mindegyikre más a megoldás, a fenti linkekben elvileg mindkettő benne van.

Semmiképp ne dobd veszélyes hulladékba, mert biztosan menthető (olyan nincs, hogy nincs :) ). Ha semmi nem jön össze, akkor még lesz egy ötletem.

További ötletem nem nagyon van. Esetleg, ha tudtok megfelelő (a jelenlegivel azonos) part numberrel rendelkező SP-t szerezni bele, akkor azzal még lehet tenni egy próbát.

A végső ötlet az lett volna, hogy megkérdezem a kollégákat, bevállalják-e eseti alapon, de azt mondták, hogy nagy valószínűséggel be kellene vonni az EMC supportot, és az anyagilag nem érné meg, így szerintük felejtős.

Nem mélyedtem el a témában, de olyat próbáltál, hogy a működő vezérlőt a másik oldalra dugod be? Hátha így sikerül lokalizálni valamit.
Nem tudom, mennyit vagy hajlandó áldozni rá, de ha küldesz részletet, próbálok Neked keresni egy vezérlőt, aztán eldöntöd.