Egy ismerős problémája kapcsán került hozzám a kérdés: otthoni használatra legálisan használható OCR program kellene (nem, a szkennerhez nincs). Nyomtatott anyag, szerencsére kézírásfelismeréssel nem kell küzdeni. Feltúrtam a netet, elkeserítő tapasztalattal. Mindenhol a Tesseract-alapra építkező FreeOCR-t dobják ki lehetséges találatként, millió helyről letölthető a 2.x és a 3.0 (meg tán a 3.1-es) verziója. Sajnos jó szokás szerint ez csak egy előke, ami a telepítés során netről letölti a valódi programot. Sajnos miután letölt kb 10-12 fájlt, a telepítés elhal. Ha az ember kézzel megpróbálja elérni a letöltendő dolgokat, folyton hibaüzenetet kap. És ha belenézek azokba a fájlokba, amiket ő töltött le, azok is kivétel nélkül a hibaüzenetet tartalmazzák :-( Kérdések:
- nincs-e valakinek belőle full példány (amit aztán nekem felajánlana)
- tud-e valaki full letöltési oldalról (asszem valami 157K-s a jelenleg letölthető, de ez nem jó)
- tud-e valaki egyéb Win alatt (is) futó grafikus előtétről a Tesseract-hoz - egyelőre a gImageReader-t találtam, annak rövid tesztecske alatt jól működött a wines verziója (amúgy GTK-s); sajnos első ránézésre nem találtam módszert a betűméret átállítására, és ez bizony probléma
- tud-e valaki egyéb Win alatt működő free OCR-t? linkek és tapasztalatok is érdekelnek.
- 6185 megtekintés
Hozzászólások
65-ös CHIP CD, Recognita 3.2? A CD-t még túrom, mert mintha meglenne valahol... Próbálkoztam a http://www.simpleocr.com/ free cuccal is, de az is régen volt...
- A hozzászóláshoz be kell jelentkezni
Bakker, hogy milyen agyad van. Ez a CD nekem megvan, meg is találtam ellenben itt most elakadtam:
"A program telepítése során szüksége lesz egy ingyenes CD-kódra (CD-key), amelyet a Recognita Információs Központtól (RIK) kérhet telefonon keresztül. Arra kérjük, hogy hívja fel a RIK-et, regisztrálja Recognita Plus 3.2-es termékét. Ezzel Ön jogosultá válik arra, hogy kedvezményesen frissíthesse programját az újabb Recognita Plus verziókra, ha a programfrissítés szándékában áll."
- A hozzászóláshoz be kell jelentkezni
Nem nekem :) Csak arra emlékeztem, hogy recognita meg chip CD, aztán a Google segített, hogy hol van - Elő kéne keresnem a cédét, mert emélékeim szerint ráírtam a kapott kódot...
- A hozzászóláshoz be kell jelentkezni
Ha jol tudom akkor az MS Officeban is van (alapbol nem telepul azert nem tudnak sokan rola). Mintha csak tiff bementet kezelne de aposom a multkor eleg jo sikerrel tudta hasznalni.
--
FeZo
- A hozzászóláshoz be kell jelentkezni
Microsoft Office Document Imaging a neve, mdi-t és tiff-et kezel (előbbi a saját formátuma). Tényleg jól használható, már csak amiatt is, hogy kapásból ki lehet exportálni word dokumentumba, és akkor a nem felismert részeket képként illeszti be (pl. a dokumentumban levő képeket). Meg mintha felismerés közben ráeresztené a helyesírás ellenőrző szólistáját is, így javítva a felismerést.
De szerintem ez nem lesz jó a topicnyitónak, mivel ő ingyenest keres, emiatt viszont subscribe. :)
--
Don't be an Ubuntard!
- A hozzászóláshoz be kell jelentkezni
Tudom, azert irtam mert lehet, hogy van az illetonek Officeja, csak eppen nem tud errol a modulrol.
Mintha remlene, hogy guglinak is van a googledocson valami online OCR felismeroje?
--
FeZo
- A hozzászóláshoz be kell jelentkezni
Onlineról nem tudok, de van valami házi ocr szoftverük. Egy időben foglalkoztatott a téma, kipróbáltam pár szoftvert, de windowson egyértelműen a microsoft féle a legjobb. Volt még egy szoftver, ha jól emlékszem valami orosz fejlesztés volt, az se volt rossz.
Linuxon ha jól emlékszem valami 3 vagy 4 szoftver jöhetett számításba, ha jól emlékszem, nekem az ocrad jött be a legjobban. A névben nem vagyok biztos, de abban igen, hogy a kooka 3 ocr backendet támogatott, a gocr és az ocrad köztük volt, és ha jól emlékszem, a gocr nem jól kezelte az ékezeteket.
--
Don't be an Ubuntard!
- A hozzászóláshoz be kell jelentkezni
Jol emlekeztem!
Szepen beilleszti a kepet (jpg, gif, png) a dokumentum elejere, aztan alatta ott a felismert szoveg.
Itt az eredmeny.
--
FeZo
- A hozzászóláshoz be kell jelentkezni
van ilyen máshol is... pl:
http://www.free-ocr.com/
- A hozzászóláshoz be kell jelentkezni
http://code.google.com/p/ocropus/
Apple MacBook C2D 2.2Ghz 2x2G Intel X3100
- A hozzászóláshoz be kell jelentkezni
Nem egészen kérdésedre válasz, de hátha segít.
Szkenner gyártó oldalát is alaposan megnéztétek? Noname esetén azt is megpróbáltatok kideríteni, esetleg mily márkás szkenner utánzata akar lenni? Csak azért, mert azokon tökéletesen mennek a "nagy tesó" oldaláról esetlegesen letölthető dolgok.
Gyakran sallangnak tűnő (szívecskés képkeretező és kifestős, webmegosztó vidámság és blabla, boldog család virtuális virágakármije - ázsiaiaknak valami fura névadási logikájuk van vagy egyszerűen szar a kínai-angol biogép fordítójuk) programok (esetleg azok funkciói) közé szoktak rakni érdekes és használható dolgokat.
Normálisabb gyártó esetleg a szkenner driver csomagjába szokott pakolni meglepően jó dolgokat.
--
Solaris Express
Opera
- A hozzászóláshoz be kell jelentkezni
IrfanView-hez van ilyen plugin, pár éve próbáltam, szépen felismerte a nyomtatott könyről készült képet.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Sajnos csak angol vagy német nyelvű plugin van. Az angolnak nem csak a kezelőfelülete angol, hanem a felismert nyelv is az. Gondolom a német is hasonló, bár az jóval nagyobb méretű.
--
Tertilla; Tisztelem a botladozó embert és nem rokonszenvezem a tökéletessel! Hagyd már abba és kész!
- A hozzászóláshoz be kell jelentkezni
öö este benéztem. Főleg, hogy ez a funkció nem is olyan régi. Amit anno próbáltam az az Office talán 2003-as verziójában lévő funkció volt. A bescannelt könyv valami enciklopédia szerűség volt tif formátumban, valami bölcsész jegyzet volt.
- A hozzászóláshoz be kell jelentkezni
Ha elindítod a Kadmos-t (F9), akkor a "Manage classifiers and dictionaries" gombra kattintva, majd "Download other languages" és máris letöltheted pl. a magyar nyelvet a felismeréshez. (A kezelő felület továbbra is angol marad.)
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
A gocr-t regen hasznaltam, de van windowsos binarisa is. Eddig ugy tudtam, csak command line-os, de van valami egyszeru frontend is hozza:
- A hozzászóláshoz be kell jelentkezni
Ha nem állandóra, hanem csak egy alkalomra kell akkor az ABBYY FineReader 15 napos próbaverziója is megfelelhet.
--
Légy derűs, tégy mindent örömmel!
- A hozzászóláshoz be kell jelentkezni
http://home.megapass.co.kr/~woosjung/Product_JOCR.html
Egyszerűbb dolgokra ezt szoktam használni, ha csak a szöveg a fontos.
"JOCR enables you to capture the image on the screen and convert the captured image to text. It is useful to revive the protected files whose text can not be copied. JOCR enables you to copy text from any files and images on the screen such as protected Web pages, PDF files, error messages. The program offers several capture modes.
JOCR requires Microsoft Office 2003 or higher version. If JCOR does not work, please manually install "Micorosoft Office Document Imaging" (MODI) that is included in the setup file of Microsoft Office. You can find MODI under "Office Tools" of the setup file."
Ezt eddig nem is olvastam, mert ahol eddig használtam mindenhol volt MsOffice. Ezek szerint ez is azt használja.
- A hozzászóláshoz be kell jelentkezni
Na és ez?
http://www.free-ocr.com/
- A hozzászóláshoz be kell jelentkezni
Esetleg ez:
http://www.cuneiform.ru/eng/
- A hozzászóláshoz be kell jelentkezni
Már más szelek fújnak arra, más néven - OpenOCR, nyílt kóddal megy, és van már linuxos portja is - ehhez készült már gui is, kicsit használtam még a nyáron, használható volt.
- A hozzászóláshoz be kell jelentkezni
Na erre emlékeztem, egész jó.
--
Don't be an Ubuntard!
- A hozzászóláshoz be kell jelentkezni
Erről nem is tudtam, köszi!
- A hozzászóláshoz be kell jelentkezni
Az Office-os megoldásról nem tudtam, köszönöm, rá fogok kérdezni, hátha. Az Irfanviw pluginról sem, sajnos néztem, hogy magyar nyelv támogatása nincs, akkor pedig valósznűleg nem lesz jó. A netes oldalak jó részét kipróbáltam egy tesztoldallal, 99%-ban ha egyáltalán van magyar nyelvű szöveg kiválasztása, akkor sem tudja a szöveget értelmesen átalakítani. Azaz elég rendesen megkeveredtek az ékezetes betűktől. A többség pedig abból indul ki, hogy angol a szöveg. A claraocr, gocr, ocrad, egyéb *X rendszerek alatt is elérhető progikat már régeben teszteltem, és azt kell mondjam, a Tesseract (főleg a 3.x óta) sokkal jobban teljeít, főleg magyar szövegnél.
Keresek még, de lehet, hogy marad a gImageReader+Tesseract páros. Néztem a VietOCR-t, sajnos az se jó.
- A hozzászóláshoz be kell jelentkezni
http://forums.opensuse.org/magyar-hungarian/magyar/448986-karakterfelis…
a fenti linken lévő fórumszálban lakókkal készítettünk
egy nagyon jól sikerült Tesseract 3 példányt,
hozzá magyarított YAGF felületet,
és belőttük az instant helyesírás-korrekciót is.
Kb. egy-két hónapja kezdődött egy újabb művelet,
melyben képjavító algoritmus is dolgozik majd
az OCR fázis előtt. Megfelelő beállítással
az eredmények szinte 100%-osak.
(pl. szöveg közt lévő rajzolt logó felirat
tudta részben átvágni a programot, de a stilizált
szöveg egy részével így is boldogult)
Decemberben pedig már a mobiltelóval
3.2MP-en jó fénynél lefotózott A/5 könyvoldal
elolvastatása is kezdett értékelhető eredményeket hozni.
(Aztán derült égből az Apple bejelentette
a mobilteló-kamerás ocr idegennyelvű felirat-fordítóját,
hát nem voltam ideges, kicsit sem...)
-
"Attempting to crack SpeedLock can damage your sanity"
- A hozzászóláshoz be kell jelentkezni
ötletes volt a wrapper script gocr helyére :)
- A hozzászóláshoz be kell jelentkezni
Igen, az XSane-hez csak ennyi kellett, hogy a Tesseract-ot élből fogadja.
A franc fogja ennyiért az XSane-t módosítani és újrafordítani...
eredetileg hexában akartam gyorsan belepatchelni a módosításokat,
de ilyenért már egyszer majdnem a véremet vették itt...:)
A YAGF GUI + Tesseract esete is wrapper scripttel ment,
ott az alapértelmezett Cuneiform ocr motor lett az "áldozat".
-
"Attempting to crack SpeedLock can damage your sanity"
- A hozzászóláshoz be kell jelentkezni
Mi az amivel a tesseractot így felhoztátok, készítettetek hozzá javított magyar támogatást? Épp a nyáron nézegettem, de nemigazán volt hozzá, és anélkül meg nem rúgott labdába a cuneiform mellett. Ha esetleg elérhetővé tennéd az anyagot nem rpm csomagban, azt megköszönném/kipróbálnám.
- A hozzászóláshoz be kell jelentkezni
3.x-es tesseract-hoz gyárilag van magyar fájl
- A hozzászóláshoz be kell jelentkezni
Szept 30-as dátummal. Én meg a múlt nyáron néztem, úgy július körül, és a fórumban is akkor születtek az első releváns dolgok, ha jól felejtek, így akkor még nem volt.
Mindenesetre örömteli, hogy fejlődik, ha előkerül a téma megint, ki is próbálom.
- A hozzászóláshoz be kell jelentkezni
Van magyar támogatása, és eleve jó a motor,
csak megfelelően "össze kell szerelni" mindent.
Tehát, minél hibátlanabb fordítás után egy kézreálló GUI-val
össze-idomítva, jól működő helyesírás-ellenőrzővel belőve,
kellő felbontású "etetés" és egy képjavító funkció.
Ha találsz a disztródhoz illő csomagban friss Tesseract-ot,
a fórumunkon le tudod szedni a wrapper scriptet.
A YAGF szintén elérhető pl. deb csomagban is.
Az aspell, aspell-hu és az aspell-en szótár szintén, és már kész is.
A képjavító még RPM-ben sincs, csak leírásban szerepel,
de nem bonyolult, csak az ImageMagick kell hozzá,
és egy-két sor bővítés a wrapperhez, a Susie fórumon ki van írva.
A legfontosabb: a Tesseract leírásában szereplő ajánlott
dpi, de főleg a minimális beolvasási fontméret betartása.
(ha nem elég nagy a betű, de jó minőségű a szkennelt kép,
akkor simán elég lehet egy nagyítás a GIMP-pel a megfelelő méretig)
Semmilyen "titkos varázslat" nincs benne.
A titok abban áll, hogy a szabad szoftverek nagy része
-tisztelet a kivételnek- elsőosztályú tervezés
és kitűnő alapanyagok felhasználása mellett
tróger módon van összeszerelve és beállítva.
Finomhangolás pedig a holdon...
Tőkeerős cégek átgondolt minőségbiztosítás mellett
szinte nevetve tudnak akár sz@rból is várat építeni.
A linux világában, ha valami nem tökéletes,
általában mindenki még erősebb alapanyagokért kiált,
(hegesszünk még kernelt és libeket, tonnára, elvtársak...
tisztára mint anno a nehézipar fejlesztése...)
ahelyett, hogy a gondos megmunkálással bíbelődnének.
-
"Attempting to crack SpeedLock can damage your sanity"
- A hozzászóláshoz be kell jelentkezni
Arch-ot használok, a frissesség nem gond :-) Nekem nem volt kedvem se meg időm se nagyon amikor kellett, szóval frontendeken keresztül próbálgattam. 7,4 Mpixeles fotókkal (állványról, üveglapon keresztül, szóval csak csekély torzítással), ezeken nekem a tesseract nem produkált jól, az openocr viszont igen, és nem kellett különösebben a képeket konvertálgatni sem. Ettől persze jól belőve lehet, hogy az is jól szerepelne, legközelebb is megnézem ha épp kell.
- A hozzászóláshoz be kell jelentkezni
Meg kell néznem ezt az openocr-t közelebbről! :)
-
"Attempting to crack SpeedLock can damage your sanity"
- A hozzászóláshoz be kell jelentkezni
Mission completed.
Ugyan nem free OCR-rel, ellenben nem kellett rá költeni egy fillért sem, mert mint kiderült volt a gépen MSO2003, és mivel valamilyen full telepítés, így a fent említett Office-ba épített OCR működött. (Ráadásul sokkal jobban teljesített, mint a Tesseract, de ez már mellékes.)
Köszönöm a tippeket. (Megpróbálom ezt a hasznos infót megjegyezni magamnak.)
- A hozzászóláshoz be kell jelentkezni
subscribe
- A hozzászóláshoz be kell jelentkezni
A .NET tartalmaz OCR "részt" :). Ezt magyar nyelvhez használom néha: Puma.NET. Nem száz százalékos, de egy próbát megérhet.
:)
- A hozzászóláshoz be kell jelentkezni
feliratk
- A hozzászóláshoz be kell jelentkezni
[feliratkozás]
- A hozzászóláshoz be kell jelentkezni
subscribo
- A hozzászóláshoz be kell jelentkezni
[feliratkozás]
- A hozzászóláshoz be kell jelentkezni
-
- A hozzászóláshoz be kell jelentkezni