Deduplikáció szoftveresen, rsync-kel együtt

Fórumok

...van ilyen megoldás valahol?

Hozzászólások

Mi az, hogy egyutt?
Mit is szeretnel konkretan? rsync-kel backupolni?

tompos

Akkor viszont nem ertem, mi a problemad.

- Lehet zfs-re rsync-kkel masolni?
- Lehet.

- Lehet rsync-elt adatokra deduplikaciot alkalmazni?
- Lehet.

A ketto egymasolt teljesen fuggetlen. Mas kerdes, h mindegyikkel meg lehet valositani deduplikaciot. Az egyutt kifejezesnek itt nincs ertelme, mert nincsenek egymasra hatassal (tudtommal...).

tompos

freenas + zfs + dedup + compress.

dedupot csak fs szinten tudsz megvalósítani, ha nem jó akkor ...
kliensen meg ami van.

Freenas? Ez nekem uj. Milyen zfs verzio is van benne? Miota tud az dedupot?

freebsd 8.2-STABLE -ben van egy ideje, v28 ZFS kell hozza.

Ha menteni akarsz, és unixokat (linuxokat) unix (linux) szerverre akkor nézd meg a BackupPc-t-

Ugyan nem blokk dedup, de azért nézd meg a dirvish-t.

Valaki pont mostanában feszegette ezeket a kérdéseket.
Két módon lehet deduplikációt megoldani:
- fájl szinten (hardlinkek)
- blokk szinten

Az rsync képes a hardlinkek előállítására. Az a kérdés, hogy nálad szóba jöhet-e.
Ezt kell nézegetni: --link-dest

Linuxscripting

A file szintű deduplikációval kapcsolatban lenne kérdésem.

Ha készítek egy hardlinkes másolatot eképpen cp -al a.txt b.txt akkor a fájlrendszeren készül egy olyan bejegyzés ami egy b.txt nevű fájlt reprezentál de az a.txt fájl adatblokkjaira mutat. Így valóban helyspórolás történik mert csak egyszer szerepelnek az adatok.

Ha letörlöm az a.txt fájlt akkor az adatok nem vesznek el mert a b.txt fájlon keresztül továbbra is elérhető.

Mi van akkor ha módosítom az a.txt fájlt? Ez esetben módosul a b.txt is hiszen ugyanazokat az adatblokkokat használja és nem szűnik meg hardlinknek lenni továbbra sem.

Ha mindez igaz akkor adatmentésre nem kimondottan jó ez a megoldás mert csak a file törlése esetén működik helyesen. Miszerint a letörölt file visszahozható a másolat segítségével.
Ha a file tartalma változik akkor nem lehet egy előző állapotot visszaállítani mert az a.txt módosítása esetén módosul a másolat tartalma is.

A kérdésem az, hogy jól látom a dolgokat vagy félreértem a hardlink működését? Esetleg van valami módszer arra, hogy hardlinkeket használva mégis teljeskörűen használható mentés készüljön deduplikációval?

--
maszili

A hardlink csak arra jó, hogy adott i-node több néven is elérhető legyen. Pont. Ennek célja sokféle lehet (multifunkcionális bináris - az, hogy mit csinál, az attól függ, hogy milyen néven hivatkozol rá), de pont mentés nem.
A "ha letörlöm az a.txt fájlt" - nem törlöd le. Legalábbis magát a fájlt - csak a könyvtárbejegyzést hajítod ki a directory-fájlból, és az adott i-node -ra mutató linkek száma csökken egyel. Ha ez nullára esik, akkor a fájl blokkjai felkerülnek a szabad blokkok listájára. A törlés még ekkor sem történik meg, csak a következő olyan allokációt követő íráskor, amely ezeket a blokkokat fogja írni. Bővebben a Kernighan Pike: UNIX könyvben.

A deduplikáció nevű buzzword bedobása a köztudatba legalább 30 évvel a hardlink "megszületése" után történt :-)

Légyszíves mond el pontosan mit is szeretnél a deduplikáció szó használata nélkül.