PDF fájlok tömeges átnevezése

Segédprogramok

Nem tudom mások is igy vannak-e ezzel, de sok helyről sokféle pdf anyagot szoktam beszerezni, amelyek az esetek túlnyomó többségén igen rusnyán vannak elnevezve, ilyen document8787834 meg af_gjkd_wioa_8727 és hasonló nevekkel. Erre dobtam össze gyorsan egy olyan szkriptet ami végigbányássza elsődlegesen PyPDF2-vel a metainfókat, majd a szöveget, ha az nem kinyerhető akkor pedig pdftoppm/Tesseract OCR segitségével próbál valami értelmeset kinyerni az első mondatokból.

Gondoltam mielőbb mélyebben beleásom magam abba, hogy milyen szempontok alapján lehetne mérlegelni a szöveget pontosabb cim/fájlnév tippeléshez csak rákérdezek, hogy van-e erre valami létező megoldás? A Calibre mintha tudná a történetet GUI alapon ha van metaadat, mást nem ismerek.

Köszönöm!

193 megtekintés

ez a PyPDF2 mennyire jo? amikor nekem kellett 1-2 eve pdf parser pythonban ezeket talaltam megfelelonek: pdfminer, pdftotext

(sok egyebet is megneztem de valamiert nem voltak jok, a pypdf2-re nem emlexem, hogy kozte volt-e)

mondjuk azota irtam sajat pdf parsert de az csak a JS es URL objecteket szedi ki, es az embedded fileokat, a tobbi nem erdekelt :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem ehhez, hogy csak szöveget dolgozok fel jelenleg megfelelőnek tűnik, de amire neked kellett parser azt úgy látom nem igazán támogatja: https://pypdf2.readthedocs.io/en/latest/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mi pontosan ugyanerre hasznaltuk ezt a progit:

https://www.filecenter.com/filecenter-overview.html

Voltak szallitoleveleink (szabvanyos formatumban) kijeloltunk egy teruletet a pdf en amit OCR-ez a progi (a szallitolevel szama) ebbol csinaltunk egy templateet es ezt huztuk ra arra a konyvtarra, ahova beesik a scannelt doksi. A progi megnezi az adott teruletet, ki OCR-ezi a szamot es atnevezi a pdf-et erre a szamra. De persze sok egyeb lehetoseg is van (fix prefix, timestamp, etc...)

1 szavazat

A hozzászóláshoz be kell jelentkezni

PDF fájlok tömeges átnevezése

Hozzászólások