OCR, ami tud magyarul

Fórumok

Sziasztok,

keresek OCR(karakterfelismerő)-progit ubuntura, ami tényleg tud magyarul. Nem jött be ocrad meg a gocr sem, mert bénák. Próbálkoztam még a tesseract-ocr-rel, de ott gondok vannak a nyelvi fájlokkal, s egyébként is jó lenne vmi GUI rá.
Persze, a legjobb az Abbyy, de annak nincs linuxos változata.
Tud valaki segíteni? Előre is köszönöm.

Hozzászólások

Nincs ötlet? Senki sem használ ilyesmit?

Hm. OCR szoftvert/motort keresel? Nos lássuk, miből élünk... Feltúrtam a régi remasteres jegyzeteimet, és a googlét - ezeket találtam.

gOCR - gtk felületű mezei karakterfelismerő. Anno a Mandriva 2007 Spring része volt. - Tcl/tk GUI, de parancssoros.

Clara - parancssor nélküli alkalmazás, de muszáj sokat foglalkozni vele, hogy egyre precízebben betanuljon, katasztrofális GUI-val. - http://www.geocities.com/claraocr/

Ocre - gyakorlatilag az előző kettő kombinációja technikailag, jelenleg masszív fejlesztés alatt - http://lem.eui.upm.es/ocre.html

Ocrad - kőkeményen parancssoros, elég komoly felismerési aránnyal (98%), egyetlen gondja maga az 'é' karakter, de folyamatosan fejlesztik - http://www.gnu.org/software/ocrad/ocrad.html

Gamera - SF-es project ez is, ahol egy python-vigra lib alapú OCR keretrendszert alkot. Tutorial és gzip itt: http://ldp.library.jhu.edu/projects/gamera/

Tesseract - HP is készített ingyenes GNU-s OCR programot, ami jelenleg a Google Code-ban nyert új otthont, pár független fejlesztő révén, a használata kicsit macerás, ImageMagic is jó ha kéznél van tiff konvertáláshoz. Picit nyers program, de gyakorlatilag csak vizszintes szöveget képes olvasni - viszont azt iszonyat precízen. Parrancssoros guruknak ideális. Viszont létezik hozzá egy wrapper is, amit oCube-nak hívnak. - http://code.google.com/p/tesseract-ocr/

Ocropus - Ha elégedett vagy a Tesseract-al, akkor ezzel méginkább. Ez ugyanis a továbbfejlesztése annak, amit már a google is támogat. Ugyanazok a hibák, hibás é karakter, viszont komoly fejlesztés alatt, érdemes SVN kódot használni fordításkor - http://code.google.com/p/ocropus/

Nagyjából ennyi. Zárásul csak annyit még, hogy a legreménytelibb az utolsó, és az előtte álló program, de ezekkel is max 4-600 DPI-vel, és 12-14-es betűméretnél nagyobbat egyre csökkenő sikerességi aránnyal ismerik fel. Betűtípusból, az alávágottal, és a szűkítettekel többet kell túrázni, de a legjobb eredményt Times, Arial, és Liberation betűkke lehet elérni. Érdemes pnm, pbm fájlok helyett tömörítetlen tiff formátumot használni és szöveggé konvertálni egy bash scripttel, ha az ImageMagic telepítve van.

Fizetősekből is van jópár, de ezek közül csak a jobbakat írnám le: Finereader (wine-ban futásképes!), CuneiForm, ReadIris, VueScan pl.
Szkenner GUI-nak pl. Kde-s Kooka (csak az első 2 OCR motort kezeli), XSane javasolt.

Üzleti felhasználásra is léteznek OCR szoftverek mint pl. Mentalix féle Pixel Engine OCR, de ez speciálisan csak holo- és natív vonalkódokkal működik. A darab licensze eléggé durva áron fut. 1k dollár körül.

Remélem segítettem.

Köszönöm, sokat segítettél. A Gamerát és az Ocropust leszámítva mindegyikkel volt dolgom (a Tesseractot még nem láttam működni). Egyelőre úgy néz ki, hogy a Finereader megy wine-ra, mert 1. a kollégák azt ismerik a legjobban, 2. a magyar nyelv rendesen támogatott, 3. mert gyors megoldásnak az a legjobb.
És köszi a hasznos linkeket.

Még az sem gond, ha parancssoros, amennyiben gyors és hatékony. Namármost az ilyen konvertálgatások eléggé lelassítják az embert.

És még hozzátenném, hogy többségében 19. századi nyomtatványokkal dolgozunk, amik eléggé fura karaktertípusokat tudnak tartalmazni. A gocr és ocrad pl. simán fel tudják mondani a szolgálatot ilyen szövegek esetén.

Tesseract-ról jókat hallani. Szerintem megér még egy kis utánaolvasást. Fél szemmel magam is figyelgetem. Bár most per pillanat nincs szükségem ocr-re, azért elő szokott fordulni. Régebben a Recognitát használtam a má$ik gépről, a szkennert úgyis csak az támogatta.