Perl script - deduplikáció

Van egy külső hdd-m amire többen rengeteg képet másoltunk föl, nem túl rendezett struktúrában :) Egy csomó kép legalább kétszer került fel a hdd-re, ezért adódott az igény, hogy az azonos képekből csak egy példány legyen. Erre írtam egy rövid perl scriptet, ami megkeresi azokat a fileokat amire a megadott regexp illik (pl ".*\.jpg"), ezeket méret szerint csoportosítja, és ha egy csoporton beül több fájl is van, akkor azokat csoportosítja md5 hash szerint. Az egyező md5 hash-el rendelkező fájlokat kilistázza. Körübelül ennyi, a kimenet alapján már lehet redukálni az azonos fájlokat.

Akinek esetleg szintén jól jönne, itt megtalálja: link

A futtatáshoz szükség van a Digest::MD5::File perl modulra. Ubuntun telepíteni így kell: sudo apt-get install libdigest-md5-file-perl

Safi blogja
A hozzászóláshoz be kell jelentkezni
1038 megtekintés

Ügyes, ha már eddig eljutottál, a végén törölhetné is a felesleget, nem?

--
http://neurogadget.com/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Lehetne törölni is egyből, de kérdés hogy melyiket az azonosak közül. Ha nem szamít melyiket, akkor siman meg lehet hagyni az elsőt a többit meg törölni. Én azért szeretném ezt egy picit jobban kontrollálni, hogy melyik maradjon meg.

0 szavazat

A hozzászóláshoz be kell jelentkezni

fdupes?

Szerk.: nekem olyan jutott eszembe egyszer, hogy az ImageMagick compare cuccával vagy mással összehasonlítani a képeket, és a nagyon hasonlókat listázni vagy azokból a kisebb méretűt felajánlani törlésre - ráadásul úgy lenne jó megírni szerintem, hogy a felbontás és a nyújtás ne számítson az összehasonlításnál.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sejtettem, hogy létezik már ilyen, de gondoltam jó gyakorlás írni egyet :)
Amúgy nem hülyeség a byte to byte ellenőrzése az azonos md5-el rendelkező fájloknak, ez az enyémből kimaradt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sőt, a (saját) script megoldások még platform függetlenség szempontjából is jobbak néha. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

a byte2byte ellenorzes felesleges, ha pl. sha1-et hasznalsz. Ket fajl hashe nagyon ritkan esik egybe, kulon kuzdeni kell erte.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ket(+) eltoro jofele hash fuggveny, ill. meret + hash gyakorlatban gyakran eleg , de miert biznek meg egyetlen hashben ?

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha nem kritikus alkalmazasrol van szo, altalaban eleg egyetlen hash is. Amit nyersz vele, az a gyorsasag, plane, ha sok fajllal kell dolgozni. Mondjuk a meret + hash talan meg a leggyorsabb, bar sha1-nel tenyleg nagyon kell kuzdeni az egybeesesert.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

0 szavazat

A hozzászóláshoz be kell jelentkezni

pont tokugyanilyen, es ugyanigy mukodo scriptet irtam en is par eve hogy megtalaljam a duplikalt ebookjaimat :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

sub

0 szavazat

A hozzászóláshoz be kell jelentkezni

köszi, ezt beteszem a fa alá :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez tipikus feladat, amire szinte mindig van valami jó ötlet commandlinefu-éknál :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

Több komponens is linux… 2025-09-06T09:06:17+0200
Nem. Úgy értem, hogy a… 2025-09-06T09:03:17+0200
Mindenesetre érdekes, hogy… 2025-09-06T08:49:31+0200
Az egykulcsos ado osztonzo,… 2025-09-06T08:47:13+0200
Ha nem jut el a fogyasztóig,… 2025-09-06T08:45:15+0200
"Ez most jó hosszú volt, egy… 2025-09-06T08:43:56+0200
a veled való vitatkozás… 2025-09-06T08:05:13+0200
Alapvetően ezeknek a… 2025-09-06T08:00:33+0200
Nem tudtam hogy van ilyen,… 2025-09-06T07:53:44+0200
Nekem a középiskolám nem… 2025-09-06T07:52:07+0200

Perl script - deduplikáció

Hozzászólások