PDF auto rename a tartalom alapján

Segédprogramok

30-40000 random nevu pdf-et kéne átneveznem a benne lévő content alapján.
Az A-PDF Rename-t találtam, de nem működik rendesen, a nem szedi ki a megadott tartalmat.

Valaki csinált már ilyet?

1429 megtekintés

Csináltam: a pdftotext kimenetéből kiemeltem az első 1-2száz sort, és azokra illesztettem mintát, amely vagy tényleg rátalált a szerzőre és címre vagy nem.
Igazi rémálom-meló az ilyesmi.

0 szavazat

A hozzászóláshoz be kell jelentkezni

nem csináltam még ilyet de txt-vé alakítástól azért az xml nyerőbb:
http://www.foolabs.com/xpdf/download.html

(vagy ha kényelmes vagy ugyanez körítve:
http://www.mobipocket.com/dev/pdf2xml/ )

(egyébként nem értem az átnevezés szükségességét, ennyi pdf-nél úgysem fájlnév alapján keresel, valami "adatbázisszerűségből" keresed úgyis)

0 szavazat

A hozzászóláshoz be kell jelentkezni

4-5 fajta pdf generálódik. Méret alapján nem lehet őket megkülönböztetni, viszont a benne lévő tartalom alapján igen, de egyenként nyilván nem tudom átnézni őket.

A pdf-eknek nincs előzménye, viszont van amelyik típus fontos, van ami nem. Valahogyan szét kell őket válogatnom, erre a megoldásra gondoltam elsőre.

0 szavazat

A hozzászóláshoz be kell jelentkezni

- később akkor is más szempont alapján kell válogatni
- automata átnevezéssel sok gond lehet (érvénytelen karakter, egyező név, "láthatatlan" név, ...)
- előbb úgyis egy szövegfájlt generálsz hogy mit mire nevezel át hogy legalább szemre átfusd (de ezt is szkripttel kell ellenőrizni)

szumma: úgyis lesz legalább ezen szövegfájlod (pl soronként "mv 123.pdf blalba.pdf" tartalommal) "adatbázisként", később is ugyanígy akarod majd mondjuk könyvtárba rendezni, aztán meg újra..?
inkább az xml-ből metainfokat gysűjts mondjuk sqlite-ba vagy txt-be vagy oracle-be, ahogy tetszik, és azzal dolgozz szerintem

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha a pdf fájlban ki van töltve a title mező, akkor a pdfinfo-val kinyerhető belőle. Tapasztalatom szerint sokszor nem adják meg.

-----
Dropbox tárhely igénylése: https://www.getdropbox.com/referrals/NTI2MzM2MjA5

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nincs mező kitöltve, a benne lévő tartalom alapján kell megoldanom.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kiderítettem az első hibát, a pdf-ek embedded fonttal készültek, gyk képek.
Nincs más megoldás mint az OCR-ezés.

0 szavazat

A hozzászóláshoz be kell jelentkezni

mi az hogy embedded font? ha már van benne font akkor szövegnek is kel lenni, még ha képnek is néz ki, pdf-ben gyakori hogy egy ocr már történt rajta de mivel biztosra akarnak menni a képet hagyják meg, a szöveg kereshetőség miatt van benne, illetve sok bitmap betűként jobban tömöríthető még ha egy betűnek ezer változata is van
tehát például kijelölés vagy az xpdf sem működik azokon a képes pdf-eken?

0 szavazat

A hozzászóláshoz be kell jelentkezni

kijeloles mukodik, de kimásolni nem lehet.

0 szavazat

A hozzászóláshoz be kell jelentkezni

adobeal próbáltad?
ha igen, próbáld valami gagyival, az talán figyelmen kívül hagyja hogy nincs rá joga?
xpdf-el próbáltad?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Semmivel nem lehetett kimásolni a szöveget.
Úgyhogy jómunkásemberként baltával faragtam ki:

Írtam egy szép scriptet ami egyenként képet csinált a pdfekből, beocrezte őket, majd grep 'pattern' és szétválogatta könyvtárakba a fileokat.
Futott pár napig de működött.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az embeded font azt jelenti, hogy nem csak a szöveget, de a fontot is elhelyezték a pdf fájlban, így az olvasó pont ugyanazt látja, mint a készítő. Még akkor is, ha az olvasó gépére egyébként nincs telepítve az adott font.

A hiba(?) inkább az, hogy a pdf fájl készítésekor letiltották a másolást.

-----
Dropbox tárhely igénylése: https://www.getdropbox.com/referrals/NTI2MzM2MjA5

0 szavazat