30-40000 random nevu pdf-et kéne átneveznem a benne lévő content alapján.
Az A-PDF Rename-t találtam, de nem működik rendesen, a nem szedi ki a megadott tartalmat.
Valaki csinált már ilyet?
- 1429 megtekintés
Hozzászólások
Csináltam: a pdftotext kimenetéből kiemeltem az első 1-2száz sort, és azokra illesztettem mintát, amely vagy tényleg rátalált a szerzőre és címre vagy nem.
Igazi rémálom-meló az ilyesmi.
- A hozzászóláshoz be kell jelentkezni
nem csináltam még ilyet de txt-vé alakítástól azért az xml nyerőbb:
http://www.foolabs.com/xpdf/download.html
(vagy ha kényelmes vagy ugyanez körítve:
http://www.mobipocket.com/dev/pdf2xml/ )
(egyébként nem értem az átnevezés szükségességét, ennyi pdf-nél úgysem fájlnév alapján keresel, valami "adatbázisszerűségből" keresed úgyis)
- A hozzászóláshoz be kell jelentkezni
4-5 fajta pdf generálódik. Méret alapján nem lehet őket megkülönböztetni, viszont a benne lévő tartalom alapján igen, de egyenként nyilván nem tudom átnézni őket.
A pdf-eknek nincs előzménye, viszont van amelyik típus fontos, van ami nem. Valahogyan szét kell őket válogatnom, erre a megoldásra gondoltam elsőre.
- A hozzászóláshoz be kell jelentkezni
- később akkor is más szempont alapján kell válogatni
- automata átnevezéssel sok gond lehet (érvénytelen karakter, egyező név, "láthatatlan" név, ...)
- előbb úgyis egy szövegfájlt generálsz hogy mit mire nevezel át hogy legalább szemre átfusd (de ezt is szkripttel kell ellenőrizni)
szumma: úgyis lesz legalább ezen szövegfájlod (pl soronként "mv 123.pdf blalba.pdf" tartalommal) "adatbázisként", később is ugyanígy akarod majd mondjuk könyvtárba rendezni, aztán meg újra..?
inkább az xml-ből metainfokat gysűjts mondjuk sqlite-ba vagy txt-be vagy oracle-be, ahogy tetszik, és azzal dolgozz szerintem
- A hozzászóláshoz be kell jelentkezni
Ha a pdf fájlban ki van töltve a title mező, akkor a pdfinfo-val kinyerhető belőle. Tapasztalatom szerint sokszor nem adják meg.
-----
Dropbox tárhely igénylése: https://www.getdropbox.com/referrals/NTI2MzM2MjA5
- A hozzászóláshoz be kell jelentkezni
Nincs mező kitöltve, a benne lévő tartalom alapján kell megoldanom.
- A hozzászóláshoz be kell jelentkezni
Kiderítettem az első hibát, a pdf-ek embedded fonttal készültek, gyk képek.
Nincs más megoldás mint az OCR-ezés.
- A hozzászóláshoz be kell jelentkezni
mi az hogy embedded font? ha már van benne font akkor szövegnek is kel lenni, még ha képnek is néz ki, pdf-ben gyakori hogy egy ocr már történt rajta de mivel biztosra akarnak menni a képet hagyják meg, a szöveg kereshetőség miatt van benne, illetve sok bitmap betűként jobban tömöríthető még ha egy betűnek ezer változata is van
tehát például kijelölés vagy az xpdf sem működik azokon a képes pdf-eken?
- A hozzászóláshoz be kell jelentkezni
kijeloles mukodik, de kimásolni nem lehet.
- A hozzászóláshoz be kell jelentkezni
adobeal próbáltad?
ha igen, próbáld valami gagyival, az talán figyelmen kívül hagyja hogy nincs rá joga?
xpdf-el próbáltad?
- A hozzászóláshoz be kell jelentkezni
Semmivel nem lehetett kimásolni a szöveget.
Úgyhogy jómunkásemberként baltával faragtam ki:
Írtam egy szép scriptet ami egyenként képet csinált a pdfekből, beocrezte őket, majd grep 'pattern' és szétválogatta könyvtárakba a fileokat.
Futott pár napig de működött.
- A hozzászóláshoz be kell jelentkezni
Az embeded font azt jelenti, hogy nem csak a szöveget, de a fontot is elhelyezték a pdf fájlban, így az olvasó pont ugyanazt látja, mint a készítő. Még akkor is, ha az olvasó gépére egyébként nincs telepítve az adott font.
A hiba(?) inkább az, hogy a pdf fájl készítésekor letiltották a másolást.
-----
Dropbox tárhely igénylése: https://www.getdropbox.com/referrals/NTI2MzM2MjA5
- A hozzászóláshoz be kell jelentkezni
Windows alatt szerintem egy Totalcmd-es tartalom pluginnal lenne érdemes próbálkozni.
Forrás is rendelkezésre áll:
http://ghisler.fileburst.com/content/wdx_xpdfsearch_source.zip
- A hozzászóláshoz be kell jelentkezni