PDF kereshetővé tétele

Mik azok az eszközök, amivel egy szkennelt oldalakból álló sok száz oldalas, azonos belső szöveges struktúrájú PDF feldolgozhatóvá tehető?

Ez alatt azt értem, hogy könnyen kereshető legyen, rendezhető, szűrhető bizonyos "mezők" szerint.

Mivel automatizálni szeretném a nagy részét, ezért nekem logikus módon CLI-ben gondolkodom - de lehet, hibásan és van erre jó GUI-tool. Felmerül most a PDFtk, a muPDF-féle mutool, a QPDF, és persze a poppler-utils; gondolom kéne valami OCR (tesseract tűnt a számomra elérhetők közül a legjobbnak magyar szövegre); meg persze a szokásos *X CLI-toolkit. De vajon van-e ezeknél jobb, vagy van-e ilyesmire már kész eszköz? (Én - értelemszerűen - FreeBSD-n ugranék neki, de Linuxos, esetleg egyéb, elérhető eszközök is érdekelnek. Helyben ugranék neki, de ha valaki tudna publikusan elérhető AI-t és hozzá megfelelő promptot, és meg is osztja az infókat, attól se zárkóznék el.)

Hozzászólások

Google drive-ra feltöltött PDF-eket automatikusan OCR-ezi a Google és a kereső tartalomra is működik.

Aláírás _Franko_ miatt törölve. 
RIP Jákub.
neut @

Kicsit félrevezető a cím. PDF nem feltétlen áll szkennelt képekpből, hanem inkább normál szövegből. Ami linuxon pdftotext pdftohtml stb programokkal konvertálható és adatbázisba beilleszthető, majd full text search-csel keresehetővé tehető. Ilyen módon pl egy havilap sok évre visszamenő számait pdf formátumból kereshetővé lehetett tenni. Szerencsétlenebb eset ha a PDF képekből van összeállítva, ami képeken a szöveg található. Ez esetben nem a PDF formátuma okozza a problémát, a képekre bontására linuxon pl pdftoppm v. pdfimages is alkalmas, hanem a képekről a szöveg elolvasása, ami viszont OCR programot igényel.

"antiegalitarian, antiliberal, antidemocratic, and antipopular"

kinyomtatod, es naps2-vel visszaszkenneled:)

(eleg jo az ocr benne)

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

Tudtommal a naps2 a Tesseractot használja, szóval lehet megspórolnám ezt a kört a direkt OCR-ezéssel. :-)

Igazából az a bajom, hogy attól, hogy megvan szöveges formában, még kicsit tovább kellene tupírozni; pl. hogy felismerje az azonos belső tartalmak elejét és végét, aztán felismerje az egyes mezőket. És itt kicsit elvesztem.

Na ezen a ponton kezdtem el érezni a topicban, hogy nem tudunk eleget a feladatról. Akkor ezek szerint nem elég, ha a nyers szöveg megvan, hanem te fel is szeretnéd dolgozni, nem csak becsűrni a nyers szöveget egy ElasticSearch-nek és rábízni a keresgélést, hanem célzott, strukturált keresést szeretnél. Mondjuk, ezek befektetési kötvények publikus archív közleményei, és neked nem elég, hogy meg lehet találni bennük a "bank" szót, hanem le akarod kérni, hogy X évben mely kötvényeknek volt Y% felett a hozama? Ilyesmi a végcél? Mert ha igen, akkor nem úszod meg a kódolást valószínűleg, valahogy be kell ingestelni az adatbázisnak.

Blog | @hron84

valahol egy üzemeltetőmaci most mérgesen toppant a lábával 

via @snq-

naps2-vel szkennelt dokumentumot ha elmented pdf-be (es ugye van rajta automata ocr), akkor a pdf keresheto, es kijeloli azt, amire kerestel, es oda is ugrik.

Penztari blokkot is probaltam, es eleg jol oda tudott ugrani a szamokhoz is.

De sima A4-es standard dokumentumban is jol keresett.

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....