Pár napja előjött az a probléma, hogy az éjszakai mentések idején az egyik iSCSI storage-on levő datastore-t rövid időre elveszítették az ESX(i) hostok. Úgy tűnt, hogy mindig ugyanannak a kontrollernek két portja tűnt el. Négy redundáns úton látszik minden LUN, így kettő marad még. A probléma az, hogy a logok szerint volt olyan is, hogy a másik kettő path is elszállt és kb. 10 másodpercre a datastore is eltűnt a hostok látóteréből. Érdekesség, hogy ebből a hostokon futó virtuális gépek és a rajtuk futó guest OS-ek semmit sem vettek észre. Rákeresve a problémára, számtalan helyen, számtalan konfiggal (iSCSI, FC storage, különböző ESX verziók) előforduló hibajelzés ez, de valós hibát sehol sem okozott (legalábbis, amelyik postot olvastam, ott mindig arról számoltak be, hogy valós problémát nem láttak).
Az egyik szálban olvastam, hogy a datastore útválasztásnál a "Fixed (VMware)" path selection policy megoldotta az exotikus problémát. Ez eddig is így volt a problémás datastore-nál beállítva, de elosztottam az utakat a kontrollerek közt igazságosabban és azóta a probléma nem jelentkezett.
Érdekes, hogy a fórumpostok közt volt olyan, akinél hosszú ideje megy ez így, de problémát nem okozott neki. Lehet, hogy ez csak valami bug, ami valójában nem is bug? Vagy lehet, hogy valami timeout számláló van kicsire állítva alapértelmezetten és nagyobb terhelés esetén tol egy warning-ot? A fórumokban megoldás - az fent említett egy kivételével - nem nagyon volt a problémára.