Fórumok
A feladat a következő: több 100 jpeg képből szeretnék kereshető pdf, vagy doc fájlt előállítani. Van-e erre ingyenes linuxos alternatíva? Vagy egy egyszerű convert paranccsal csináljak belőle pdf-et és töltsem fel bármelyik online ocr alkalmazásba? A szöveg nem érzékeny (privacy tekintetében), tehát akár online megoldás is szóba jöhet.
Köszönöm a javaslatokat!
Hozzászólások
gscan2pdf nem szuper, de képböl kereshető pdf készitésre nekem eddig bejött. Betöltöd a képeket egyszerre es Tools menü, OCR menüpont majd a végén kimented pdf-be.
gImageReaderrel épp a napokban csináltam ilyet. Mondjuk nekem csak a képeken szereplő plain textre volt szükségem, de a program tud pdf kimenetet is.
Jónak tűnik, de sajnos magyar nyelvet nem tudtam telepíteni. Tudnál segíteni?
Bocsi. Béna voltam. Két perc angol szöveg olvasásával és 3 csomag telepítésével meg is oldottam a problémát.
Sokat számít, milyen disztrót használsz. Az okosabbb "szoftverboltok" a gimagereader nevére keresve rögtön feldobják a nyelvi csomagokat is, meg az esetleges plugin-eket is. Ez némileg értékesebb, mint egy sima csomagfüggőség helyes lekezelése.
Én is a gImageReadert használom hosszú ideje, ami egy grafikus felület a tesseract-ocr-hez.
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html használható parancssorból is.
https://www.pdf24.org/hu/
Én ezt használtam erre legutóbb, nekem nagyon bejött, behúzod az összes képet, rá nyomsz az "Indítás"-ra, és megcsinálja mindet, a végén PDF-be menthető a végeredmény.
Ez még jobb. Köszönöm. ez vált be. Csak ez windows only, de nem baj...
anyam a kde-s okulart hasznalja erre, marmint pdf-ben levo kep szovegge alakitasara. kijeloli benne melyik reszet szeretne szovegkent a vagolapra tenni.
a hatterben lehet hogy egy ocr program is telepitve van, es az okular csak azt hasznalja.
neked aztan fura humorod van...
Oké, de itt az alapprobléma nem a pdf-ből szöveg kinyerése, hanem jpg-ből szöveg kinyerése. Azzal meg sajnos az Okular nem boldogul.
"Pdf-ben levő képből szöveg kinyerése." Ha az Okular nem eszi meg a natív JPG-t, kb egymillió másik szoftver ágyazza be ezt PDF-be kb fél kilobájtnyi infó megfelelő helyre bepakolásával.
tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?
valami beágyazott dologból szedi, random képből nem csinál szöveget.
ezt beneztem :)
ezert tudja szovegkent kimasolni, az OCR resznel irja:
https://www.arcanum.com/hu/technologiak/konyvdigitalizalas/
ettol meg el tudnam kepzelni az okularrol hogy meghiv egy ocr-t.
neked aztan fura humorod van...
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html
sudo apt-get install ocrmypdf tesseract-ocr-hun
Ez pdf-ből pdf-et csinál és parancssoros.