( XMI | 2009. 05. 03., v – 20:47 )

A deduplikáció sosem úgy működik, hogy a hash alapján eldönti, hogy azonos-e vagy sem, csak a cikk szövegében nincs külön kiemelve ez a részlet. A hash csak arra kell, hogy gyorsan megtalálja, hogy mely blokkok esetén merül fel egyáltalán az egyezés gyanúja, utána van azért egy komparálás is, ami alapján eldől, hogy valóban egyeznek-e. A hash számítás gyorsítása miatt egyébként többnyire SHA512-nél _lényegesen_ kissebb értékkészletű hash függyvényeket használnak, így viszonylag kicsi az index táblázat is, amiben az eddigi hash-eket és a hozzájuk tartozó blokkokat gyűjtik. Mindig egy kompromisszum kérdése, hogy mennyire költséges végigszámolni a hash-et, mennyi a hash ütközések aránya, illetve mennyire költséges egy "hamis" egyezés esetén a komparálás. Nincs rá igazából teljesen általános recept.
---
Linux is bad juju.