( SzBlackY | 2016. 10. 07., p – 15:09 )

Elvileg igen, nagyon-nagyon-...-nagyon kicsit az ütközés esélye... ha biztosra akarsz menni, hogy ütközéskor is helyesen dolgott, csinálhatod azt, hogy valahova ledobálod a text fájlokat (akár óránként külön mappába, mindegy), és symlinkeket csinálsz rájuk a hash nevével, opcionális könyvtárakba dobálva (hash[0:1]/hash[2:3]/hash[4:5]/hash), így az első három szinten lesz 256 (x[0:1] az x string 0. és 1. karaktere, feltételezem a hash-t a 16-os számrendszerbeli megfelelőjével tárolod) mappád egy-egy könyvtárban és szépen szétterítetted őket. Aztán egy PDF beérkezésekor átküldöd a pdf2text-en, kiszámolod a hash-ét, megnézed, hogy létezik-e a megfelelő hash. Ha létezik, összehasonlítod a két fájlt, ha egyezik, a PDF kuka. Ha nem egyezik, találtál egy collissiont, a PDF nem kuka, feldolgozod. Ha nem létezett, létrehozod a symlinket, és küldöd tovább a PDF-et feldolgozásra.

Szerk.: hogy mennyire nagyon-nagyon-nagyon kicsi... igazából simán mondanám, hogy ne foglalkozz vele, de ennél a nagyságrendnél (100/nap) bőven ráérsz összenézni a fájlokat, és akkor garantáltan helyes leszel.

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)