Nem tudom mások is igy vannak-e ezzel, de sok helyről sokféle pdf anyagot szoktam beszerezni, amelyek az esetek túlnyomó többségén igen rusnyán vannak elnevezve, ilyen document8787834 meg af_gjkd_wioa_8727 és hasonló nevekkel. Erre dobtam össze gyorsan egy olyan szkriptet ami végigbányássza elsődlegesen PyPDF2-vel a metainfókat, majd a szöveget, ha az nem kinyerhető akkor pedig pdftoppm/Tesseract OCR segitségével próbál valami értelmeset kinyerni az első mondatokból.
Gondoltam mielőbb mélyebben beleásom magam abba, hogy milyen szempontok alapján lehetne mérlegelni a szöveget pontosabb cim/fájlnév tippeléshez csak rákérdezek, hogy van-e erre valami létező megoldás? A Calibre mintha tudná a történetet GUI alapon ha van metaadat, mást nem ismerek.
Köszönöm!
Hozzászólások
ez a PyPDF2 mennyire jo? amikor nekem kellett 1-2 eve pdf parser pythonban ezeket talaltam megfelelonek: pdfminer, pdftotext
(sok egyebet is megneztem de valamiert nem voltak jok, a pypdf2-re nem emlexem, hogy kozte volt-e)
mondjuk azota irtam sajat pdf parsert de az csak a JS es URL objecteket szedi ki, es az embedded fileokat, a tobbi nem erdekelt :)
Nekem ehhez, hogy csak szöveget dolgozok fel jelenleg megfelelőnek tűnik, de amire neked kellett parser azt úgy látom nem igazán támogatja: https://pypdf2.readthedocs.io/en/latest/
[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS
Mi pontosan ugyanerre hasznaltuk ezt a progit:
https://www.filecenter.com/filecenter-overview.html
Voltak szallitoleveleink (szabvanyos formatumban) kijeloltunk egy teruletet a pdf en amit OCR-ez a progi (a szallitolevel szama) ebbol csinaltunk egy templateet es ezt huztuk ra arra a konyvtarra, ahova beesik a scannelt doksi. A progi megnezi az adott teruletet, ki OCR-ezi a szamot es atnevezi a pdf-et erre a szamra. De persze sok egyeb lehetoseg is van (fix prefix, timestamp, etc...)