Ez alatt azt értem, hogy könnyen kereshető legyen, rendezhető, szűrhető bizonyos "mezők" szerint.
Mivel automatizálni szeretném a nagy részét, ezért nekem logikus módon CLI-ben gondolkodom - de lehet, hibásan és van erre jó GUI-tool. Felmerül most a PDFtk, a muPDF-féle mutool, a QPDF, és persze a poppler-utils; gondolom kéne valami OCR (tesseract tűnt a számomra elérhetők közül a legjobbnak magyar szövegre); meg persze a szokásos *X CLI-toolkit. De vajon van-e ezeknél jobb, vagy van-e ilyesmire már kész eszköz? (Én - értelemszerűen - FreeBSD-n ugranék neki, de Linuxos, esetleg egyéb, elérhető eszközök is érdekelnek. Helyben ugranék neki, de ha valaki tudna publikusan elérhető AI-t és hozzá megfelelő promptot, és meg is osztja az infókat, attól se zárkóznék el.)
- Zahy blogja
- A hozzászóláshoz be kell jelentkezni
- 937 megtekintés
Hozzászólások
Google drive-ra feltöltött PDF-eket automatikusan OCR-ezi a Google és a kereső tartalomra is működik.
Aláírás _Franko_ miatt törölve.
RIP Jákub.
neut @
- A hozzászóláshoz be kell jelentkezni
SharePoint ugyanez pepitaban. Indexeles utan keresheto a tartalom.
- A hozzászóláshoz be kell jelentkezni
Mivel felsorolásodból arra következtetek, hogy nyílt forráskódú szoftvert keresel, ezért:
- A hozzászóláshoz be kell jelentkezni
"Normális ember már nem kommentel sehol." (c) Poli
- A hozzászóláshoz be kell jelentkezni
Vicces. Pont ez jutott nekem is eszembe.
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
tesseract + ocrmypdf
- A hozzászóláshoz be kell jelentkezni
Ez miben tér el a pdfsandwich nevű alkalmazástól? Ha jól olvasom, mind a kettő csinál egy szöveges "réteget"-
- A hozzászóláshoz be kell jelentkezni
Kicsit félrevezető a cím. PDF nem feltétlen áll szkennelt képekpből, hanem inkább normál szövegből. Ami linuxon pdftotext pdftohtml stb programokkal konvertálható és adatbázisba beilleszthető, majd full text search-csel keresehetővé tehető. Ilyen módon pl egy havilap sok évre visszamenő számait pdf formátumból kereshetővé lehetett tenni. Szerencsétlenebb eset ha a PDF képekből van összeállítva, ami képeken a szöveg található. Ez esetben nem a PDF formátuma okozza a problémát, a képekre bontására linuxon pl pdftoppm v. pdfimages is alkalmas, hanem a képekről a szöveg elolvasása, ami viszont OCR programot igényel.
"antiegalitarian, antiliberal, antidemocratic, and antipopular"
- A hozzászóláshoz be kell jelentkezni
Ezt használom egy ideje:
https://docs.paperless-ngx.com/
Elérhető API és elvileg CLI is:
https://docs.paperless-ngx.com/api/
https://github.com/marcelbrueckner/paperless-ngx-cli
- A hozzászóláshoz be kell jelentkezni
Ezzel nem csak kereshetove valik, hanem konyvtarazhato, rendezheto, tagelheto - teljes dokumentum management es raadasul nem csak PDF-et tud... dobhatsz neki barmit OCR-ezi...
- A hozzászóláshoz be kell jelentkezni
Igen, sok mindent tud. Regex -> label, ... Az eredeti kér(d)ést szerintem lefedi.
- A hozzászóláshoz be kell jelentkezni
kinyomtatod, es naps2-vel visszaszkenneled:)
(eleg jo az ocr benne)
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....
- A hozzászóláshoz be kell jelentkezni
Tudtommal a naps2 a Tesseractot használja, szóval lehet megspórolnám ezt a kört a direkt OCR-ezéssel. :-)
Igazából az a bajom, hogy attól, hogy megvan szöveges formában, még kicsit tovább kellene tupírozni; pl. hogy felismerje az azonos belső tartalmak elejét és végét, aztán felismerje az egyes mezőket. És itt kicsit elvesztem.
- A hozzászóláshoz be kell jelentkezni
Na ezen a ponton kezdtem el érezni a topicban, hogy nem tudunk eleget a feladatról. Akkor ezek szerint nem elég, ha a nyers szöveg megvan, hanem te fel is szeretnéd dolgozni, nem csak becsűrni a nyers szöveget egy ElasticSearch-nek és rábízni a keresgélést, hanem célzott, strukturált keresést szeretnél. Mondjuk, ezek befektetési kötvények publikus archív közleményei, és neked nem elég, hogy meg lehet találni bennük a "bank" szót, hanem le akarod kérni, hogy X évben mely kötvényeknek volt Y% felett a hozama? Ilyesmi a végcél? Mert ha igen, akkor nem úszod meg a kódolást valószínűleg, valahogy be kell ingestelni az adatbázisnak.
- A hozzászóláshoz be kell jelentkezni
naps2-vel szkennelt dokumentumot ha elmented pdf-be (es ugye van rajta automata ocr), akkor a pdf keresheto, es kijeloli azt, amire kerestel, es oda is ugrik.
Penztari blokkot is probaltam, es eleg jol oda tudott ugrani a szamokhoz is.
De sima A4-es standard dokumentumban is jol keresett.
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....
- A hozzászóláshoz be kell jelentkezni