A feladat a következő: több 100 jpeg képből szeretnék kereshető pdf, vagy doc fájlt előállítani. Van-e erre ingyenes linuxos alternatíva? Vagy egy egyszerű convert paranccsal csináljak belőle pdf-et és töltsem fel bármelyik online ocr alkalmazásba? A szöveg nem érzékeny (privacy tekintetében), tehát akár online megoldás is szóba jöhet.
Köszönöm a javaslatokat!
- 490 megtekintés
Hozzászólások
gscan2pdf nem szuper, de képböl kereshető pdf készitésre nekem eddig bejött. Betöltöd a képeket egyszerre es Tools menü, OCR menüpont majd a végén kimented pdf-be.
- A hozzászóláshoz be kell jelentkezni
gImageReaderrel épp a napokban csináltam ilyet. Mondjuk nekem csak a képeken szereplő plain textre volt szükségem, de a program tud pdf kimenetet is.
- A hozzászóláshoz be kell jelentkezni
Jónak tűnik, de sajnos magyar nyelvet nem tudtam telepíteni. Tudnál segíteni?
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
Bocsi. Béna voltam. Két perc angol szöveg olvasásával és 3 csomag telepítésével meg is oldottam a problémát.
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
Sokat számít, milyen disztrót használsz. Az okosabbb "szoftverboltok" a gimagereader nevére keresve rögtön feldobják a nyelvi csomagokat is, meg az esetleges plugin-eket is. Ez némileg értékesebb, mint egy sima csomagfüggőség helyes lekezelése.
- A hozzászóláshoz be kell jelentkezni
Én is a gImageReadert használom hosszú ideje, ami egy grafikus felület a tesseract-ocr-hez.
https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html használható parancssorból is.
- A hozzászóláshoz be kell jelentkezni
Én ezt használtam erre legutóbb, nekem nagyon bejött, behúzod az összes képet, rá nyomsz az "Indítás"-ra, és megcsinálja mindet, a végén PDF-be menthető a végeredmény.
- A hozzászóláshoz be kell jelentkezni
Ez még jobb. Köszönöm. ez vált be. Csak ez windows only, de nem baj...
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
anyam a kde-s okulart hasznalja erre, marmint pdf-ben levo kep szovegge alakitasara. kijeloli benne melyik reszet szeretne szovegkent a vagolapra tenni.
a hatterben lehet hogy egy ocr program is telepitve van, es az okular csak azt hasznalja.
neked aztan fura humorod van...
- A hozzászóláshoz be kell jelentkezni
Oké, de itt az alapprobléma nem a pdf-ből szöveg kinyerése, hanem jpg-ből szöveg kinyerése. Azzal meg sajnos az Okular nem boldogul.
- A hozzászóláshoz be kell jelentkezni
"Pdf-ben levő képből szöveg kinyerése." Ha az Okular nem eszi meg a natív JPG-t, kb egymillió másik szoftver ágyazza be ezt PDF-be kb fél kilobájtnyi infó megfelelő helyre bepakolásával.
- A hozzászóláshoz be kell jelentkezni
valami beágyazott dologból szedi, random képből nem csinál szöveget.
- A hozzászóláshoz be kell jelentkezni
ezt beneztem :)
ezert tudja szovegkent kimasolni, az OCR resznel irja:
https://www.arcanum.com/hu/technologiak/konyvdigitalizalas/
ettol meg el tudnam kepzelni az okularrol hogy meghiv egy ocr-t.
neked aztan fura humorod van...
- A hozzászóláshoz be kell jelentkezni
sudo apt-get install ocrmypdf tesseract-ocr-hun
Ez pdf-ből pdf-et csinál és parancssoros.
- A hozzászóláshoz be kell jelentkezni