Javítást készített a Samsung a Linux kernellel kapcsolatos szoftver RAID + TRIM adatvesztés problémára

 ( trey | 2015. július 23., csütörtök - 9:07 )

Június közepén blogolt az Algolia arról, hogy SSD-t használva adatvesztést tapasztalt Linux alatt szoftver RAID + TRIM használata mellett. Hosszas hibakeresés kezdődött, amelybe bevonták a Samsung szakembereit is.
A hibakeresés sokáig nem vezetett eredményre, mert a Samsung nem tudta reprodukálni az Algolia által leírt hibát, az Algolia pedig nem adhatta át a programját és a sérült adatokat a Samsung részére, mert abban érzékeny információk szerepeltek. Végül az Algolia írt egy tesztkódot, amellyel a Samsung nekiállhatott a hibakeresésnek.

Végül a Samsung mérnökeinek sikerült a hibát reprodukálniuk az Algolia által részükre átadott binárissal. A Samsung végül arra a következtetésre jutott, hogy a hiba nem a Samsung meghajtóival vagy az Algolia szoftverével, hanem a Linux kernellel kapcsolatos. A hibára a Samsung alkalmazásában álló Seunguk Shin küldött javítást a linux-raid levlistára.

Felmerülhet a kérdés, hogy a probléma miért nem okozott eddig szélesebb körben gondot. A probléma Linux alatt szoftver RAID-be (linear, RAID0 és RAID10) szervezett SSD-kkel jelentkezik TRIM alkalmazása mellett, ami nem a leggyakoribb alkalmazási területe a SATA SSD-knek.

Az idevágó linux-raid levlista szál itt olvasható egészében.

Érdemes megjegyezni, hogy az Algolia szerint (és mások szerint) ennek a hibának nincs köze a HUP-on korábban megjelent Samsung 8xx firmware / queued TRIM mizériához, ami miatt a Samsung 800 sorozatú eszközök feketelistára kerültek queued TRIM szempontból, amíg a probléma okát a kernelfejlesztők a Samsunggal nem tisztázzák.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

jó. de akkor miért nem volt gond az Intel meghajtókkal?

Mert csak ritka felállásban fordul elő a bug, és azon belül is nehezen reprodukálható. Szerintem.

--

Le a kalappal, ez az igazi kemény meló, egy ilyet felderíteni.

--
robyboy

"Gondolkozni nehéz, ezért legtöbben ítélnek." - Márai Sándor

Csodálkozok is rajta, hogy tovább tudtak jutni az első first line supportos, előre megírt, bullshit emailnél. "Thank you for contacting us and we're sorry to hear about your issue. Please check your cables and try turning it off and on again. I hope it helps."

A levelezésben (http://marc.info/?l=linux-raid&m=143741678313051&w=2) azért ott egy megjegyzés, hogy szokatlan dolog SSD-t RAID 0 illetve variánsaival használni. Nyilván ezért nem is volt tesztelve. Ettől persze még a bug az bug.

Azert szerintem annyira nem szokatlan, pl. eldobhato feladatot vegzo szervereknel (media encoding/encrypting) mi is raid0-ban hajtjuk az ssd-ket (4db-ot) hogy az osszes cpumag kihasznalasanal (4 jail per fizikai gep) ne az IO legyen a szuk keresztmetszet.

Teljesen jogos alkalmazás. De van egy rossz hírem: semmi sincs ingyen, még a Linux sem. Elég nagy fejlesztői és tesztelői költségei vannak. Ha ti és a hozzátok hasonló médiafeldolgozást végző cégek nem hozzátok elő és teszteltetitek le valakivel a use case-eiteket, akkor abból nagy pofára esés lehet. Vagy ahogy a tesztelők mondják, egy szoftver (illetve rendszer a mindenféle komponenseivel) azt tudja, amit a tesztekkel bizonyított. A többi csak remény.

tehat boszen kerestek a queued TRIM bug kivalto okat, es kozben kipottyant egy linux raid bug?

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Szerintem több trim bug is van, ők kerestek valamit, és meg is találták azt. Van egy másik, a queued trimmel kapcsolatos, azt passzolom, hogy mi van vele.

--