Keresek olyan programot, ami a PDF-ek különböző metaadatait hajlandó mejeleníteni (még jobb lenne, ha szerkeszteni is lehetne, de az a kevésbé érdekes). Win/Lin/FreeBSD :-) egyaránt jöhet.
Magyarázat: belefutottam egy Java-ban írt alkalmazásba, amely PDF-et generál. Sajnos a tesztek azt mutatják, hogy Windows alatt és Linux alatt valami karakterkódolási probléma miatt nem ugyanolyan lesz az eredmény, Szeretném viszonylag pontosan kideríteni, hogy mi az eltérés, hogy az ismeretlen fejlesztőnek kellően precíz hibajegyet küldjek.
Sajnos az Evince semmi olyat nem mutat amiben eltérnek, az Adobe Reader legalább annyit mutat, hogy a wines verzió saját kódolást használ (de hogy mit azt már nem), míg a linuxos ANSI-kódolású. A pdftk dump_data paraméterrel szintén nem mutat semmi érdemlegeset. Több ilyen eszköz sajnos nem jutott eszembe. (Példát sajnos nem tudok prezenálni.)
- 5481 megtekintés
Hozzászólások
Van valami nem publikus azokban a pdf-ekben?
Ha nincs, esetleg küldj belőle két mintát, hátha... (kipróbálnám a tippem, mielőtt az idődet pocsékolom vele)
update:
https://github.com/haa-zee/python-sandbox/blob/master/probak/pdfmetadat…
Hátha ezzel is tudsz mit kezdeni. :)
- A hozzászóláshoz be kell jelentkezni
nekem valami exception-t dobott :-(
- A hozzászóláshoz be kell jelentkezni
Nem csak azt a pdfminer csomagot hiányolja, amiről az egyik commentben megemlékeztem?
Igaz, csak négy vagy öt fájlon próbáltam ki.
- A hozzászóláshoz be kell jelentkezni
Nem, az a hvatalos módon fel lett téve. De majd még tesztelem.
- A hozzászóláshoz be kell jelentkezni
Hm. Akkor bugreport.
(Úgy értem, a pdfminer fejlesztőjének :)) - de ha az exceptiont megosztanád velem, talán lenne ötletem. Bár amilyen primitív körítést tettem hozzá, kicsi az esély, hogy nálam van a hiba)
- A hozzászóláshoz be kell jelentkezni
Elnézést benéztem. Nem dob exceptiont. De mondjuk nem is működik.
$ pdfmetadata.py samples/simple4.pdf
Traceback (most recent call last):
File "/home/zgabor/bin/pdfmetadata.py", line 9, in
from pdfminer.pdfparser import PDFParser, PDFDocument
ImportError: cannot import name PDFDocument
(A pdfminer saját vackai működnek. Fenti FreeBSD-ről jön, de ugyanez volt tegnap Linuxon.)
- A hozzászóláshoz be kell jelentkezni
Milyen Python? (2.x? 3.x?)
Kicsit hiányosnak tűnik a pdfminer ahhoz képest, amit én ismerek. A hiányolt alkatrész a pdfminerhez tartozik.
Egyébként valószínűleg ezzel sem vagy kinn a vízből. Nem fog többet mutatni, mint a céleszközök.
- A hozzászóláshoz be kell jelentkezni
FreeBSD-n a Python az 2.7.x (fejből nem tudom), a linuxos pedig 2.6.9. A PDFminer pedig a legfrisebb, tegnap illetve ma reggel töltve az oldaláról. (Sem a süsün, sem a FreeBSD-n nem láttam repóban.)
- A hozzászóláshoz be kell jelentkezni
Köszi, meg fogom nézni. Nálam valami debian korcson (xubuntu talán) repoból ment fel és ott működik is.
update: megnéztem a githubon. Tavaly novemberi dátummal találtam pár megjegyzést, hogy "kissé" átalakították a PDFDocument működését (és el is költözött az eredeti helyéről)
Szóval ezzel dolgozni kellene egy kicsit, hogy nálad is működjön, viszont tartok tőle, hogy nem tudna annyit mondani, mint mondjuk az adobe reader...
A jelenlegi, ami a régi verzióra épül, a töredékét sem mutatja meg (pl. a fontokról úgy látom, mélyen hallgat :( )
update2: gányolás rulZ jelszóval, készítettem egy olyan verziót, ami működik az újabb pdfminer-rel.
https://github.com/haa-zee/python-sandbox/blob/master/probak/pdfmetadat…
- A hozzászóláshoz be kell jelentkezni
Foxitreader?
A pdftk/GuIpdftk mit nem mond meg?
---
--- A gond akkor van, ha látszólag minden működik. ---
---
- A hozzászóláshoz be kell jelentkezni
A Foxit-ot mint tippet köszönöm, rá fogok vele nézni. A pdftk pl egy hangot nem írt a kódolásról.
- A hozzászóláshoz be kell jelentkezni
Pdftk-val tömörítsd ki, és akkor egészen olvasható lesz szabad szemmel is.
- A hozzászóláshoz be kell jelentkezni
Esetleg a Xpdf-ben lévő pdfinfo program meta kapcsolójával nézd meg a kérdéses állományt.
- A hozzászóláshoz be kell jelentkezni
No ez a pdfinfo jól el van dugva, erről eddig nem is tudtam. Kösz az ötletet.
- A hozzászóláshoz be kell jelentkezni
poppler-utils (bár ez is xpdf kódbázisú, de bindelhető mindenféle scriptnyelven)
- A hozzászóláshoz be kell jelentkezni
http://meta-extractor.sourceforge.net/
metadata-extraktor:
http://sourceforge.net/projects/meta-extractor/files/latest/download?so…
Az ex traktornak doksija is van:
https://docs.google.com/viewer?url=http://meta-extractor.sourceforge.ne…
online extraktor:
http://www.extractmetadata.com/
Vagy ez:
http://www.lesbonscomptes.com/recoll/recoll_XMP/index.html
---
--- A gond akkor van, ha látszólag minden működik. ---
---
- A hozzászóláshoz be kell jelentkezni
Köszi, ha az xpdf és a Foxit nem ad használható infót, ezt is megnézem.
- A hozzászóláshoz be kell jelentkezni
Tipp: nincs beagyazva a betutipus amit hasznal, es a masik OS-eken nincs az a karakter/kodolas benne abban a betutipusban, amit probal hasznalni.
Egyebkent anno a php-s fpdf-et hasznaltunk, mikor pdf-et kellett generalnunk.
- A hozzászóláshoz be kell jelentkezni
Sajnos a fontok be vannak ágyazva. Abba meg nincs beleszólásom, hogy a fejlesztők mit használnak a pdf előállítására. Én csak belefutottam ebbe a hibába. És miután már jó időt eltöltöttem azzal, ogy a win-re megírt Java-alkalmazás jó lenne ha futna Linuxon (és mondjuk nem úgy hogy Wine-ban futtatom a wines JRE-t :-) ), nagyon örültem, mire eljutottam idáig. És eléggé zavar, hoyg látszólag ez az egyetlen hibája van :-(
- A hozzászóláshoz be kell jelentkezni
Fontproblémákra a metadatok nem fognak választ adni.
Nézd meg, hogy a felhasznált fontok mindkét rendszeren azonosak-e, ha nem, az okozhat gondokat. Szintén problémás lehet ha a program nem Unicode szerint dolgozik, akkor a default codepage szerinti karaktereket fogja használni, csak éppen a PDF kódolását elfelejtik.
PDF-ek tartalmának elemzésére a PDFSharp Explorer demóprogramját tudom javasolni. (Én Windowson használom, fogalmam sincs, hogy Monóval lefordul-e. Mármint az Explorer, maga a PDFSharp biztos megy, használjuk.)
- A hozzászóláshoz be kell jelentkezni
A fontok biztosan ugyanazok. Fizikailag. Amúgy pont ilyen default codepage vs PDF-kódolás jellegű szerintem a hiba, de mivel a kódot nem én írtam, nincs a kezemben, csak vakon tapogatózok és elindulok arra, amerre tudok.
- A hozzászóláshoz be kell jelentkezni
Akkor a locale környékén keresgess...
- A hozzászóláshoz be kell jelentkezni
Az exiftool program is metaadatokat szed ki. PDF-en kívül számos egyéb fájlformátumot is támogat. Az exiftool a libimage-exiftool-perl csomagban található.
- A hozzászóláshoz be kell jelentkezni
Esetleg ez?
https://java.net/projects/pdfvole
- A hozzászóláshoz be kell jelentkezni
"belefutottam egy Java-ban írt alkalmazásba, amely PDF-et generál"
Ez melyik program?
- A hozzászóláshoz be kell jelentkezni
Sajnos ezt nem mondhatom meg. Itthon fejlesztik, egy szakigazgatási szerv belső alkalmazása. Pont ugyanezen okokból nem mutathatok tesztadatot, mert nem-publikus infók vannak benne. De mivel én csak harmadkézről látom, sem jogom, sem lehetőségem nincs magával a fejlesztő céggel felvenni a kapcsolatot direktben. (Most folynak a megbeszélések, hogy a lehetne-e láncot kihagyva eljuttatnom legalább a javaslataimat és eredményeimet a fejlesztőknek; esetleg én - aki működésre bírtam Linux alatt -, beszélhessek a fejlesztővel.)
- A hozzászóláshoz be kell jelentkezni