PDF auto rename a tartalom alapján

Fórumok

30-40000 random nevu pdf-et kéne átneveznem a benne lévő content alapján.
Az A-PDF Rename-t találtam, de nem működik rendesen, a nem szedi ki a megadott tartalmat.

Valaki csinált már ilyet?

Hozzászólások

Csináltam: a pdftotext kimenetéből kiemeltem az első 1-2száz sort, és azokra illesztettem mintát, amely vagy tényleg rátalált a szerzőre és címre vagy nem.
Igazi rémálom-meló az ilyesmi.

4-5 fajta pdf generálódik. Méret alapján nem lehet őket megkülönböztetni, viszont a benne lévő tartalom alapján igen, de egyenként nyilván nem tudom átnézni őket.

A pdf-eknek nincs előzménye, viszont van amelyik típus fontos, van ami nem. Valahogyan szét kell őket válogatnom, erre a megoldásra gondoltam elsőre.

- később akkor is más szempont alapján kell válogatni
- automata átnevezéssel sok gond lehet (érvénytelen karakter, egyező név, "láthatatlan" név, ...)
- előbb úgyis egy szövegfájlt generálsz hogy mit mire nevezel át hogy legalább szemre átfusd (de ezt is szkripttel kell ellenőrizni)

szumma: úgyis lesz legalább ezen szövegfájlod (pl soronként "mv 123.pdf blalba.pdf" tartalommal) "adatbázisként", később is ugyanígy akarod majd mondjuk könyvtárba rendezni, aztán meg újra..?
inkább az xml-ből metainfokat gysűjts mondjuk sqlite-ba vagy txt-be vagy oracle-be, ahogy tetszik, és azzal dolgozz szerintem

Kiderítettem az első hibát, a pdf-ek embedded fonttal készültek, gyk képek.
Nincs más megoldás mint az OCR-ezés.

mi az hogy embedded font? ha már van benne font akkor szövegnek is kel lenni, még ha képnek is néz ki, pdf-ben gyakori hogy egy ocr már történt rajta de mivel biztosra akarnak menni a képet hagyják meg, a szöveg kereshetőség miatt van benne, illetve sok bitmap betűként jobban tömöríthető még ha egy betűnek ezer változata is van
tehát például kijelölés vagy az xpdf sem működik azokon a képes pdf-eken?

Az embeded font azt jelenti, hogy nem csak a szöveget, de a fontot is elhelyezték a pdf fájlban, így az olvasó pont ugyanazt látja, mint a készítő. Még akkor is, ha az olvasó gépére egyébként nincs telepítve az adott font.

A hiba(?) inkább az, hogy a pdf fájl készítésekor letiltották a másolást.

-----
Dropbox tárhely igénylése: https://www.getdropbox.com/referrals/NTI2MzM2MjA5