"Cannot connect to storage"

1

Pár napja előjött az a probléma, hogy az éjszakai mentések idején az egyik iSCSI storage-on levő datastore-t rövid időre elveszítették az ESX(i) hostok. Úgy tűnt, hogy mindig ugyanannak a kontrollernek két portja tűnt el. Négy redundáns úton látszik minden LUN, így kettő marad még. A probléma az, hogy a logok szerint volt olyan is, hogy a másik kettő path is elszállt és kb. 10 másodpercre a datastore is eltűnt a hostok látóteréből. Érdekesség, hogy ebből a hostokon futó virtuális gépek és a rajtuk futó guest OS-ek semmit sem vettek észre. Rákeresve a problémára, számtalan helyen, számtalan konfiggal (iSCSI, FC storage, különböző ESX verziók) előforduló hibajelzés ez, de valós hibát sehol sem okozott (legalábbis, amelyik postot olvastam, ott mindig arról számoltak be, hogy valós problémát nem láttak).

Az egyik szálban olvastam, hogy a datastore útválasztásnál a "Fixed (VMware)" path selection policy megoldotta az exotikus problémát. Ez eddig is így volt a problémás datastore-nál beállítva, de elosztottam az utakat a kontrollerek közt igazságosabban és azóta a probléma nem jelentkezett.

Érdekes, hogy a fórumpostok közt volt olyan, akinél hosszú ideje megy ez így, de problémát nem okozott neki. Lehet, hogy ez csak valami bug, ami valójában nem is bug? Vagy lehet, hogy valami timeout számláló van kicsire állítva alapértelmezetten és nagyobb terhelés esetén tol egy warning-ot? A fórumokban megoldás - az fent említett egy kivételével - nem nagyon volt a problémára.

Hozzászólások

Ismerem, en is lattam mar joparszor, de nem lattam, hogy barmi hiba lett volna igy ment ignore az uzenetekre. FC & ISCSI egyarant mutatta.

http://karikasostor.hu - Az autentikus zajforrás.

Ez siman lehet. Erosen guest fuggo, hogy milyen SCSI opcode-okat hasznal es milyeneket nem. Pl IET-s iSCSI targetet totalisan ki lehet fektetni, ha win2008 vagy ujabb guest fut rajta. Viszont ha nem fut win2008, akkor egesz jol elvan.

Az ESX(i) iSCSI initiator egyebkent eleg jol meg van csinalva. Siman tulel teljes halozatszakadast, target leallitast, restartot stb. Sot volt mar olyan esetem, hogy kb 5 sec iras utan a target crashelt, majd 10-20sec utan ujraindult, ezt igy periodikusan egymas utan. Csak azt vettem eszre, hogy erosen balassult az iras a guestbol, egyebkent minden hibatlanul mukodott. A vmkernel logokbol latszott csak, hogy valojaban mekkora is a baj. (Itt is IET volt a ludas, azt hiszem ekkor szantam el magam az IET vegleges felszamolasara, helyenek soval, ill. SCST-vel valo behintesere)
---
Régóta vágyok én, az androidok mezonkincsére már!