[HPC2009] aufs + nfs.. csak egy honap kuzdelem

Volt egy honapja egy security upgrade kernelugyileg, ami utan a 44 node nem akart felbootolni, csak 40.

Ez egy olyan pont, ahol jol latszik, hogy az uzemelesert felelos ember, es a biztonsagert felelos ember erdekei egymasnak ellentmondanak, ennelfogva nem szerencses, ha ez a ket feladat egyetlen pozicio. Ugyanis, ha nekem az az elsodleges feladatom, hogy a cluster 100%-ban uzemeljen, akkor felrakom a regi kernelt (amihez ismert exploit van). Ha az az elsodleges feladatom, hogy biztosan ne torjek fel a cuccost, akkor meg lekapcsolom az egeszet.

Szoval, a jelenseg az volt, hogy nehany node nem bootolt: a kernel betoltodott, az initrd betoltodott, es az initrd nem tudta megfogni az nfsroot -ot: server not responding, trying vagy milyen hibauzenettel.

A tcpdump elepzesebol az tunt ki, hogy az nfs szerver (nfs-kernel-server) teljesen szabalyos NFS3ERR_JUKEBOX (avagy NFSERR_JUKEBOX avagy EJUKEBOX) uzenetet kuld, amire a kliens eloirasszeruen var, de egy teljesen felrevezeto, hasznalhatatlan hibauzenetet ir a konzolra.

Szerver syslogban semmi info. A debian changelog szerint a patch bosegesen erinti a nfs szervert. Kicsit dumpolgattam. Kicsit olvasgattam az NFS szerver forrasat. Nezegettem a patchsetet. Vegul ugy lattam, hogy nincs hiba az EJUKEBOX kornyeken az nfsd-ben, hatarozottan az underlying layer mond neki EGAIN vagy EIO -t.
Itt az nfsroot eseteben azunderlying layer az aufs. Az aufs (legalabbis a debian altal szallitott 1-es verzio) viszont borzalom, sot, ugy latom, hogy egyaltalan az maga az unionfs koncepcio nehany lepese egyaltalan nem oldhato meg biztonsaggal, elegansan unix rendszerek alatt. Na mindegy. Matattam az aufs -sel.
kepzeljetek, unexport nfsroot; dismount aufs; mount aufs; export nfsroot kombinacio utan a kliensek szepen felbootoltak. '-o remount' nem volt elegendo.

Hozzászólások

Note1: aufs1 is NOT maintained since Jan 2009.

Forrás: http://aufs.sourceforge.net/
Érdemes lehet upgrade -elni a Squeeze -re, abban a 2.6.32 -es kernel + aufs 2.1 van. Ha meg szívatni akarod magad, akkor mind a 44 node -on forgatsz saját kernelt, az új aufs patchsettel. :)