pdf csatolmányok kibontása

Adott egy konténer pdf fájl, amiben különböző fájlok vannak "becsomagolva".

 

A dokumentum kvázi egy fedlapból amin hivatkozással jelennek meg  a becsomagolt fájlok.

Pl.

"A konténer 2 db fájlt tartalmaz. A dokumentumokat az Adobe Reader Csatolmányok ablakából megnyitva tekinthető meg."

 

Csatolmányok

minta.docx

minta.xlsx

 

Kérdés: hogyan lehet automatikusan (Python vagy Bash szkripttel) ebből a konténer pdf fájlból a fájlokat kinyerni?

 

Köszi az ötleteket.

Hozzászólások

Szerkesztve: 2020. 05. 01., p – 20:27

Ilyen csatolmányokat tartalmazó PDF-et honnan szerez az ember, illetve mivel lehet ilyet csinálni? (Nekem már a kérdéstől is jojózott a szemem, mert erről még csak nem is hallottam.)

 

Szerk: azt már megtaláltam, hogy a pdftk attach_files parancsával csinálhatnék. De valami általánosságban is használt alkalmazás is tud ilyet?

Egyszer próbáld ki az AVDH hitelesítést. Az eredménye egy olyan PDF fájl, amibe bele van csatolva egy másik PDF fájl (ebben van a hivatalos igazolás az aláíróról) és ezen becsatolt PDF-be bele van csatolva egy XML fájl, amiből kinyerhetőek a hitelesítő adatok.

Bírtad követni? :)

A poppler-utils csomagból a pdfattach és pdfdetach lehet még a barátod.