PDF-metaadat-turkálót keresek

Segédprogramok

Keresek olyan programot, ami a PDF-ek különböző metaadatait hajlandó mejeleníteni (még jobb lenne, ha szerkeszteni is lehetne, de az a kevésbé érdekes). Win/Lin/FreeBSD :-) egyaránt jöhet.
Magyarázat: belefutottam egy Java-ban írt alkalmazásba, amely PDF-et generál. Sajnos a tesztek azt mutatják, hogy Windows alatt és Linux alatt valami karakterkódolási probléma miatt nem ugyanolyan lesz az eredmény, Szeretném viszonylag pontosan kideríteni, hogy mi az eltérés, hogy az ismeretlen fejlesztőnek kellően precíz hibajegyet küldjek.
Sajnos az Evince semmi olyat nem mutat amiben eltérnek, az Adobe Reader legalább annyit mutat, hogy a wines verzió saját kódolást használ (de hogy mit azt már nem), míg a linuxos ANSI-kódolású. A pdftk dump_data paraméterrel szintén nem mutat semmi érdemlegeset. Több ilyen eszköz sajnos nem jutott eszembe. (Példát sajnos nem tudok prezenálni.)

5481 megtekintés

Van valami nem publikus azokban a pdf-ekben?
Ha nincs, esetleg küldj belőle két mintát, hátha... (kipróbálnám a tippem, mielőtt az idődet pocsékolom vele)

update:
https://github.com/haa-zee/python-sandbox/blob/master/probak/pdfmetadat…

Hátha ezzel is tudsz mit kezdeni. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

nekem valami exception-t dobott :-(

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem csak azt a pdfminer csomagot hiányolja, amiről az egyik commentben megemlékeztem?
Igaz, csak négy vagy öt fájlon próbáltam ki.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem, az a hvatalos módon fel lett téve. De majd még tesztelem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hm. Akkor bugreport.
(Úgy értem, a pdfminer fejlesztőjének :)) - de ha az exceptiont megosztanád velem, talán lenne ötletem. Bár amilyen primitív körítést tettem hozzá, kicsi az esély, hogy nálam van a hiba)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Elnézést benéztem. Nem dob exceptiont. De mondjuk nem is működik.
$ pdfmetadata.py samples/simple4.pdf Traceback (most recent call last): File "/home/zgabor/bin/pdfmetadata.py", line 9, in from pdfminer.pdfparser import PDFParser, PDFDocument ImportError: cannot import name PDFDocument
(A pdfminer saját vackai működnek. Fenti FreeBSD-ről jön, de ugyanez volt tegnap Linuxon.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Milyen Python? (2.x? 3.x?)
Kicsit hiányosnak tűnik a pdfminer ahhoz képest, amit én ismerek. A hiányolt alkatrész a pdfminerhez tartozik.
Egyébként valószínűleg ezzel sem vagy kinn a vízből. Nem fog többet mutatni, mint a céleszközök.

0 szavazat

A hozzászóláshoz be kell jelentkezni

FreeBSD-n a Python az 2.7.x (fejből nem tudom), a linuxos pedig 2.6.9. A PDFminer pedig a legfrisebb, tegnap illetve ma reggel töltve az oldaláról. (Sem a süsün, sem a FreeBSD-n nem láttam repóban.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszi, meg fogom nézni. Nálam valami debian korcson (xubuntu talán) repoból ment fel és ott működik is.

update: megnéztem a githubon. Tavaly novemberi dátummal találtam pár megjegyzést, hogy "kissé" átalakították a PDFDocument működését (és el is költözött az eredeti helyéről)
Szóval ezzel dolgozni kellene egy kicsit, hogy nálad is működjön, viszont tartok tőle, hogy nem tudna annyit mondani, mint mondjuk az adobe reader...
A jelenlegi, ami a régi verzióra épül, a töredékét sem mutatja meg (pl. a fontokról úgy látom, mélyen hallgat :( )

update2: gányolás rulZ jelszóval, készítettem egy olyan verziót, ami működik az újabb pdfminer-rel.
https://github.com/haa-zee/python-sandbox/blob/master/probak/pdfmetadat…

0 szavazat

A hozzászóláshoz be kell jelentkezni

Foxitreader?
A pdftk/GuIpdftk mit nem mond meg?

---
--- A gond akkor van, ha látszólag minden működik. ---
---

0 szavazat

A hozzászóláshoz be kell jelentkezni

A Foxit-ot mint tippet köszönöm, rá fogok vele nézni. A pdftk pl egy hangot nem írt a kódolásról.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Pdftk-val tömörítsd ki, és akkor egészen olvasható lesz szabad szemmel is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Esetleg a Xpdf-ben lévő pdfinfo program meta kapcsolójával nézd meg a kérdéses állományt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

No ez a pdfinfo jól el van dugva, erről eddig nem is tudtam. Kösz az ötletet.

0 szavazat

A hozzászóláshoz be kell jelentkezni

poppler-utils (bár ez is xpdf kódbázisú, de bindelhető mindenféle scriptnyelven)

0 szavazat

A hozzászóláshoz be kell jelentkezni

http://meta-extractor.sourceforge.net/
metadata-extraktor:
http://sourceforge.net/projects/meta-extractor/files/latest/download?so…
Az ex traktornak doksija is van:
https://docs.google.com/viewer?url=http://meta-extractor.sourceforge.ne…

online extraktor:
http://www.extractmetadata.com/

Vagy ez:
http://www.lesbonscomptes.com/recoll/recoll_XMP/index.html

---
--- A gond akkor van, ha látszólag minden működik. ---
---

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszi, ha az xpdf és a Foxit nem ad használható infót, ezt is megnézem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Tipp: nincs beagyazva a betutipus amit hasznal, es a masik OS-eken nincs az a karakter/kodolas benne abban a betutipusban, amit probal hasznalni.
Egyebkent anno a php-s fpdf-et hasznaltunk, mikor pdf-et kellett generalnunk.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sajnos a fontok be vannak ágyazva. Abba meg nincs beleszólásom, hogy a fejlesztők mit használnak a pdf előállítására. Én csak belefutottam ebbe a hibába. És miután már jó időt eltöltöttem azzal, ogy a win-re megírt Java-alkalmazás jó lenne ha futna Linuxon (és mondjuk nem úgy hogy Wine-ban futtatom a wines JRE-t :-) ), nagyon örültem, mire eljutottam idáig. És eléggé zavar, hoyg látszólag ez az egyetlen hibája van :-(

0 szavazat

A hozzászóláshoz be kell jelentkezni

Fontproblémákra a metadatok nem fognak választ adni.
Nézd meg, hogy a felhasznált fontok mindkét rendszeren azonosak-e, ha nem, az okozhat gondokat. Szintén problémás lehet ha a program nem Unicode szerint dolgozik, akkor a default codepage szerinti karaktereket fogja használni, csak éppen a PDF kódolását elfelejtik.
PDF-ek tartalmának elemzésére a PDFSharp Explorer demóprogramját tudom javasolni. (Én Windowson használom, fogalmam sincs, hogy Monóval lefordul-e. Mármint az Explorer, maga a PDFSharp biztos megy, használjuk.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

A fontok biztosan ugyanazok. Fizikailag. Amúgy pont ilyen default codepage vs PDF-kódolás jellegű szerintem a hiba, de mivel a kódot nem én írtam, nincs a kezemben, csak vakon tapogatózok és elindulok arra, amerre tudok.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor a locale környékén keresgess...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az exiftool program is metaadatokat szed ki. PDF-en kívül számos egyéb fájlformátumot is támogat. Az exiftool a libimage-exiftool-perl csomagban található.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Esetleg ez?
https://java.net/projects/pdfvole

0 szavazat

A hozzászóláshoz be kell jelentkezni

"belefutottam egy Java-ban írt alkalmazásba, amely PDF-et generál"

Ez melyik program?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sajnos ezt nem mondhatom meg. Itthon fejlesztik, egy szakigazgatási szerv belső alkalmazása. Pont ugyanezen okokból nem mutathatok tesztadatot, mert nem-publikus infók vannak benne. De mivel én csak harmadkézről látom, sem jogom, sem lehetőségem nincs magával a fejlesztő céggel felvenni a kapcsolatot direktben. (Most folynak a megbeszélések, hogy a lehetne-e láncot kihagyva eljuttatnom legalább a javaslataimat és eredményeimet a fejlesztőknek; esetleg én - aki működésre bírtam Linux alatt -, beszélhessek a fejlesztővel.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

Úgy-úgy! Közlönnyel kezdünk,… 2025-10-01T04:50:33+0200
De azt is elhitted, ugye? :) 2025-10-01T04:06:06+0200
Ja ez az, amikor azt… 2025-10-01T03:20:38+0200
Nekem vannak. Neked mid van?… 2025-10-01T03:17:53+0200
Fuss, olvasd el a napi… 2025-10-01T03:19:41+0200
Át lettem verve.
10.000… 2025-10-01T03:11:58+0200
Parszor mar emlitettem egy… 2025-10-01T02:22:32+0200
Ha egyesevel pakolgatod az… 2025-10-01T01:20:13+0200
Europeans, he argued on… 2025-10-01T01:19:37+0200
9.5-9.6-ig dolgoztam vele … 2025-10-01T01:01:39+0200

PDF-metaadat-turkálót keresek

Hozzászólások