Rejtélyes hiba F15-re történt upgrade után - timeout; HEEELP
hola mindenki,
már lassanként beleőszülök ebbe a problémába, a neten nem találok hozzá semmit, viszont elég durva hiba.
szóval: van öt szerverünk, ezek közül egy kapásból friss F15-öt kapott, egy F12-essel megy (és már nem is lesz jobb, nyugdíjazásra váró hardverről van szó), a maradék hármat múlt csütörtökön upgradeeltem F13-ról F15-re.
mióta megtörtént az upgrade, a három upgrade-elt szerver közül kettő a következő jelenséget mutatja NÉHÁNY gépen: weboldal betöltés (vagy IMAP kapcsolat létrehozása, néha SSH login) közben időnként, eléggé sokszor, timeoutba fut bele. ha megtörténik egy ilyen timeout, utána néhány (tíz) másodpercig a szerver arról a gépről elérhetetlen. a weblapoknál gyakori, hogy az első pár elemet (pl. alap htm, css) rendben leszedi, aztán a képek letöltése közben kiakad, és nem tölt tovább, ezután egy másik linkre kattintva a site-on már jön a timeout azonnal.
és itt jön a feketeleves: *bizonyos* klienseknél van ez így. eddig három kliensgépet találtam, különböző hálózatokon, ahol ez a jelenség előfordul. mindegyik windows xp, mindegyik router mögött. és hogy szórjunk még egy kis kávét is a feketelevesbe: UGYANAZON router mögött bizonyos gépeken nincs hiba. az egyik hálózaton egy wifin csatlakoztatott gép nem megy, és a kábeles igen, a másik hálózaton egy csatlakoztatott és egy wifis gép nem megy, egy wifis xp-s notebook és egy android telefon tökéletesen.
és amitől teljesen elszáll az agyam: a három gép közül az egyik tökéletesen megy, igaz, az egy xeon, és azon az upgrade processz f15-ös részének post-upgradejénél volt egy váratlan újraindulás, tehát valami nem futott le rendesen, és emiatt maradt működőképes.
10+ éve vagyok rendszergazda, de ilyen szinten érthetetlen problémával még nem találkoztam.
amire eddig jutottam:
- amikor a tcp alapú protokollok timeoutolnak a "rossz" klienseken, a ping változatlanul működik, tehát a dhcp megy... és mivel nem csak az apache érintett, hanem a dovecot, a vsftpd és néha az openssh is, ezért arra gyanakszom, hogy valami a tcp layeren szabódott el (de mi? az MTU maradt a régi, nem a NetworkManager kontrollálja az eth0 interface-t, stb...).
- ifconfiggal nézve nincs se RX, sem TX hiba az eth0-n.
- apache error logokban nézegetve nincs error.
- maillogban nézve a hibás gépekről néha olyat látok, hogy Disconnected (no auth attempts), más hibát nem ír.
- a timeout a szerver oldalon úgy látszik, hogy a kliens gépről megnyitott kapcsolatok TIME_WAIT állapotban állnak egy ideig, aztán elhalnak.
- az upgrade után egyik gépen sem futott a cron daemon, ez valami fedora upgrade hiba lehetett; azon a gépen, ami jól működik, még pénteken észrevettem a hibát, és beindítottam a cron daemont, a másik kettőn, ami még mindig hibás, csak tegnap este vettem észre és indítottam el a crond-t. ez viszont semmit nem javított a helyzeten.
- megnéztem, hogy az egyik hibát produkáló kliensgép (amihez elérésem volt) nem vírusos-e. F14 livecd-ről bebootolva, nod32 v4-et letöltve és lefuttatva a C:-re nem talált vírust. ettől még lehet vírus, de még nem találkoztam olyannal, ami átcsúszna mind a nod32-n, mind az aktívan működő SAV-on, és ilyen problémákat produkálna.
- mindhárom gépnél a sysctl.conf-on keresztül komolyan át van állítva sok kernel paraméter (a nagyobb network teljesítmény kedvéért + a tempfs maximális méretének növeléséért). ez az egyik szervernél (ahol a legnagyobb a forgalom) nem okoz gondot, a másik kettőnél igen. megpróbáltam a "gyári" sysctl.conf-ot alkalmazni az egyiken, semmi nem változott.
- próbáltam lekapcsolt és felkapcsolt tűzfallal is, ugyanaz a helyzet (gyanakodtam a conntrack-os stateful packet szűrésre, de akkor tűzfal nélkül működnie kellett volna rendesen... nem működött)
- próbáltam közös dolgokat találni a "rossz" és a helyesen működő gépek között, de semmi. ami még a leginkább valószínű volt, hogy háromból két gépen működik egy-egy logitech hd270-es webcam, de már hónapok óta, és csak a F15 upgrade óta van ez a probléma.
az eddigi kutatás alapján nagyon kevés kliens-gépet érint a probléma (a szerverek forgalma jobbára változatlan), de mivel spec nekem ezekre a szerverekre kéne fejlesztenem, és a fejlesztő desktop gépem az egyik érintett "rossz" gép, eléggé szar a helyzet, nem tudok dolgozni rendesen.
valaki valami ötlet? hasonló dolgokba belefutottatok már? vagy van valakinek ilyen tapasztalata F15 upgrade után?
- Tovább (Rejtélyes hiba F15-re történt upgrade után - timeout; HEEELP)
- 1409 megtekintés