PDF kereshetővé tétele

Mik azok az eszközök, amivel egy szkennelt oldalakból álló sok száz oldalas, azonos belső szöveges struktúrájú PDF feldolgozhatóvá tehető?

Ez alatt azt értem, hogy könnyen kereshető legyen, rendezhető, szűrhető bizonyos "mezők" szerint.

Mivel automatizálni szeretném a nagy részét, ezért nekem logikus módon CLI-ben gondolkodom - de lehet, hibásan és van erre jó GUI-tool. Felmerül most a PDFtk, a muPDF-féle mutool, a QPDF, és persze a poppler-utils; gondolom kéne valami OCR (tesseract tűnt a számomra elérhetők közül a legjobbnak magyar szövegre); meg persze a szokásos *X CLI-toolkit. De vajon van-e ezeknél jobb, vagy van-e ilyesmire már kész eszköz? (Én - értelemszerűen - FreeBSD-n ugranék neki, de Linuxos, esetleg egyéb, elérhető eszközök is érdekelnek. Helyben ugranék neki, de ha valaki tudna publikusan elérhető AI-t és hozzá megfelelő promptot, és meg is osztja az infókat, attól se zárkóznék el.)

Zahy blogja
A hozzászóláshoz be kell jelentkezni
265 megtekintés

Google drive-ra feltöltött PDF-eket automatikusan OCR-ezi a Google és a kereső tartalomra is működik.

Aláírás _Franko_ miatt törölve.
RIP Jákub.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mivel felsorolásodból arra következtetek, hogy nyílt forráskódú szoftvert keresel, ezért:

https://github.com/zendalona/lios

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://telex.hu/belfold/2025/03/09/vagyonnyilatkozat-keresheto-pdf-par…

"Normális ember már nem kommentel sehol." (c) Poli

0 szavazat

A hozzászóláshoz be kell jelentkezni

tesseract + ocrmypdf

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez miben tér el a pdfsandwich nevű alkalmazástól? Ha jól olvasom, mind a kettő csinál egy szöveges "réteget"-

tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kicsit félrevezető a cím. PDF nem feltétlen áll szkennelt képekpből, hanem inkább normál szövegből. Ami linuxon pdftotext pdftohtml stb programokkal konvertálható és adatbázisba beilleszthető, majd full text search-csel keresehetővé tehető. Ilyen módon pl egy havilap sok évre visszamenő számait pdf formátumból kereshetővé lehetett tenni. Szerencsétlenebb eset ha a PDF képekből van összeállítva, ami képeken a szöveg található. Ez esetben nem a PDF formátuma okozza a problémát, a képekre bontására linuxon pl pdftoppm v. pdfimages is alkalmas, hanem a képekről a szöveg elolvasása, ami viszont OCR programot igényel.

"antiegalitarian, antiliberal, antidemocratic, and antipopular"

0 szavazat