PDF fájlok tömeges átnevezése

Fórumok

Nem tudom mások is igy vannak-e ezzel, de sok helyről sokféle pdf anyagot szoktam beszerezni, amelyek az esetek túlnyomó többségén igen rusnyán vannak elnevezve, ilyen document8787834 meg af_gjkd_wioa_8727 és hasonló nevekkel. Erre dobtam össze gyorsan egy olyan szkriptet ami végigbányássza elsődlegesen PyPDF2-vel a metainfókat, majd a szöveget, ha az nem kinyerhető akkor pedig pdftoppm/Tesseract OCR segitségével próbál valami értelmeset kinyerni az első mondatokból.

Gondoltam mielőbb mélyebben beleásom magam abba, hogy milyen szempontok alapján lehetne mérlegelni a szöveget pontosabb cim/fájlnév tippeléshez csak rákérdezek, hogy van-e erre valami létező megoldás? A Calibre mintha tudná a történetet GUI alapon ha van metaadat, mást nem ismerek.

Köszönöm!

Hozzászólások

ez a PyPDF2 mennyire jo? amikor nekem kellett 1-2 eve pdf parser pythonban ezeket talaltam megfelelonek: pdfminer, pdftotext

(sok egyebet is megneztem de valamiert nem voltak jok, a pypdf2-re nem emlexem, hogy kozte volt-e)

mondjuk azota irtam sajat pdf parsert de az csak a JS es URL objecteket szedi ki, es az embedded fileokat, a tobbi nem erdekelt :)

Szerkesztve: 2022. 08. 18., cs – 13:17

Mi pontosan ugyanerre hasznaltuk ezt a progit:

 

https://www.filecenter.com/filecenter-overview.html

 

Voltak szallitoleveleink (szabvanyos formatumban) kijeloltunk egy teruletet a pdf en amit OCR-ez a progi (a szallitolevel szama) ebbol csinaltunk egy templateet es ezt huztuk ra arra a konyvtarra, ahova beesik a scannelt doksi. A progi megnezi az adott teruletet, ki OCR-ezi a szamot es atnevezi a pdf-et erre a szamra. De persze sok egyeb lehetoseg is van (fix prefix, timestamp, etc...)