Ez alatt azt értem, hogy könnyen kereshető legyen, rendezhető, szűrhető bizonyos "mezők" szerint.
Mivel automatizálni szeretném a nagy részét, ezért nekem logikus módon CLI-ben gondolkodom - de lehet, hibásan és van erre jó GUI-tool. Felmerül most a PDFtk, a muPDF-féle mutool, a QPDF, és persze a poppler-utils; gondolom kéne valami OCR (tesseract tűnt a számomra elérhetők közül a legjobbnak magyar szövegre); meg persze a szokásos *X CLI-toolkit. De vajon van-e ezeknél jobb, vagy van-e ilyesmire már kész eszköz? (Én - értelemszerűen - FreeBSD-n ugranék neki, de Linuxos, esetleg egyéb, elérhető eszközök is érdekelnek. Helyben ugranék neki, de ha valaki tudna publikusan elérhető AI-t és hozzá megfelelő promptot, és meg is osztja az infókat, attól se zárkóznék el.)
- Zahy blogja
- A hozzászóláshoz be kell jelentkezni
- 265 megtekintés
Hozzászólások
Google drive-ra feltöltött PDF-eket automatikusan OCR-ezi a Google és a kereső tartalomra is működik.
Aláírás _Franko_ miatt törölve.
RIP Jákub.
neut @
- A hozzászóláshoz be kell jelentkezni
Mivel felsorolásodból arra következtetek, hogy nyílt forráskódú szoftvert keresel, ezért:
- A hozzászóláshoz be kell jelentkezni
"Normális ember már nem kommentel sehol." (c) Poli
- A hozzászóláshoz be kell jelentkezni
tesseract + ocrmypdf
- A hozzászóláshoz be kell jelentkezni
Ez miben tér el a pdfsandwich nevű alkalmazástól? Ha jól olvasom, mind a kettő csinál egy szöveges "réteget"-
- A hozzászóláshoz be kell jelentkezni
Kicsit félrevezető a cím. PDF nem feltétlen áll szkennelt képekpből, hanem inkább normál szövegből. Ami linuxon pdftotext pdftohtml stb programokkal konvertálható és adatbázisba beilleszthető, majd full text search-csel keresehetővé tehető. Ilyen módon pl egy havilap sok évre visszamenő számait pdf formátumból kereshetővé lehetett tenni. Szerencsétlenebb eset ha a PDF képekből van összeállítva, ami képeken a szöveg található. Ez esetben nem a PDF formátuma okozza a problémát, a képekre bontására linuxon pl pdftoppm v. pdfimages is alkalmas, hanem a képekről a szöveg elolvasása, ami viszont OCR programot igényel.
"antiegalitarian, antiliberal, antidemocratic, and antipopular"
- A hozzászóláshoz be kell jelentkezni
Ezt használom egy ideje:
https://docs.paperless-ngx.com/
Elérhető API és elvileg CLI is:
https://docs.paperless-ngx.com/api/
https://github.com/marcelbrueckner/paperless-ngx-cli
- A hozzászóláshoz be kell jelentkezni