PDF kereshetővé tétele

Mik azok az eszközök, amivel egy szkennelt oldalakból álló sok száz oldalas, azonos belső szöveges struktúrájú PDF feldolgozhatóvá tehető?

Ez alatt azt értem, hogy könnyen kereshető legyen, rendezhető, szűrhető bizonyos "mezők" szerint.

Mivel automatizálni szeretném a nagy részét, ezért nekem logikus módon CLI-ben gondolkodom - de lehet, hibásan és van erre jó GUI-tool. Felmerül most a PDFtk, a muPDF-féle mutool, a QPDF, és persze a poppler-utils; gondolom kéne valami OCR (tesseract tűnt a számomra elérhetők közül a legjobbnak magyar szövegre); meg persze a szokásos *X CLI-toolkit. De vajon van-e ezeknél jobb, vagy van-e ilyesmire már kész eszköz? (Én - értelemszerűen - FreeBSD-n ugranék neki, de Linuxos, esetleg egyéb, elérhető eszközök is érdekelnek. Helyben ugranék neki, de ha valaki tudna publikusan elérhető AI-t és hozzá megfelelő promptot, és meg is osztja az infókat, attól se zárkóznék el.)

Zahy blogja
A hozzászóláshoz be kell jelentkezni
955 megtekintés

Google drive-ra feltöltött PDF-eket automatikusan OCR-ezi a Google és a kereső tartalomra is működik.

1904.04.08.
RIP Jákub.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

SharePoint ugyanez pepitaban. Indexeles utan keresheto a tartalom.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mivel felsorolásodból arra következtetek, hogy nyílt forráskódú szoftvert keresel, ezért:

https://github.com/zendalona/lios

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://telex.hu/belfold/2025/03/09/vagyonnyilatkozat-keresheto-pdf-par…

"Normális ember már nem kommentel sehol." (c) Poli

0 szavazat

A hozzászóláshoz be kell jelentkezni

Vicces. Pont ez jutott nekem is eszembe.

“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”

― Philip K. Dick

0 szavazat

A hozzászóláshoz be kell jelentkezni

tesseract + ocrmypdf

3 szavazat

A hozzászóláshoz be kell jelentkezni

Ez miben tér el a pdfsandwich nevű alkalmazástól? Ha jól olvasom, mind a kettő csinál egy szöveges "réteget"-

tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kicsit félrevezető a cím. PDF nem feltétlen áll szkennelt képekpből, hanem inkább normál szövegből. Ami linuxon pdftotext pdftohtml stb programokkal konvertálható és adatbázisba beilleszthető, majd full text search-csel keresehetővé tehető. Ilyen módon pl egy havilap sok évre visszamenő számait pdf formátumból kereshetővé lehetett tenni. Szerencsétlenebb eset ha a PDF képekből van összeállítva, ami képeken a szöveg található. Ez esetben nem a PDF formátuma okozza a problémát, a képekre bontására linuxon pl pdftoppm v. pdfimages is alkalmas, hanem a képekről a szöveg elolvasása, ami viszont OCR programot igényel.

"antiegalitarian, antiliberal, antidemocratic, and antipopular"

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ezt használom egy ideje:
https://docs.paperless-ngx.com/

Elérhető API és elvileg CLI is:
https://docs.paperless-ngx.com/api/
https://github.com/marcelbrueckner/paperless-ngx-cli

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ezzel nem csak kereshetove valik, hanem konyvtarazhato, rendezheto, tagelheto - teljes dokumentum management es raadasul nem csak PDF-et tud... dobhatsz neki barmit OCR-ezi...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igen, sok mindent tud. Regex -> label, ... Az eredeti kér(d)ést szerintem lefedi.

0 szavazat

A hozzászóláshoz be kell jelentkezni

kinyomtatod, es naps2-vel visszaszkenneled:)

(eleg jo az ocr benne)

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat

A hozzászóláshoz be kell jelentkezni

Tudtommal a naps2 a Tesseractot használja, szóval lehet megspórolnám ezt a kört a direkt OCR-ezéssel. :-)

Igazából az a bajom, hogy attól, hogy megvan szöveges formában, még kicsit tovább kellene tupírozni; pl. hogy felismerje az azonos belső tartalmak elejét és végét, aztán felismerje az egyes mezőket. És itt kicsit elvesztem.

tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Na ezen a ponton kezdtem el érezni a topicban, hogy nem tudunk eleget a feladatról. Akkor ezek szerint nem elég, ha a nyers szöveg megvan, hanem te fel is szeretnéd dolgozni, nem csak becsűrni a nyers szöveget egy ElasticSearch-nek és rábízni a keresgélést, hanem célzott, strukturált keresést szeretnél. Mondjuk, ezek befektetési kötvények publikus archív közleményei, és neked nem elég, hogy meg lehet találni bennük a "bank" szót, hanem le akarod kérni, hogy X évben mely kötvényeknek volt Y% felett a hozama? Ilyesmi a végcél? Mert ha igen, akkor nem úszod meg a kódolást valószínűleg, valahogy be kell ingestelni az adatbázisnak.

Blog | @hron84

valahol egy üzemeltetőmaci most mérgesen toppant a lábával

via @snq-

1 szavazat

A hozzászóláshoz be kell jelentkezni

naps2-vel szkennelt dokumentumot ha elmented pdf-be (es ugye van rajta automata ocr), akkor a pdf keresheto, es kijeloli azt, amire kerestel, es oda is ugrik.

Penztari blokkot is probaltam, es eleg jol oda tudott ugrani a szamokhoz is.

De sima A4-es standard dokumentumban is jol keresett.

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

0 szavazat