Karakter-felismerés, már elmentett és bescannelt képfájlból - lehetséges?

 ( ParadoxH | 2007. február 2., péntek - 15:36 )

Üdv
Szóval bevezetőnek leírnám, hogy meg szerettem volna rendelni A. Tanenbaum Számítógép-hálózatok c. könyvét, de a könyv kifutott állapotban volt és a Panem kiadó az n-ik emailemre sem méltóztatott válaszolni - ezért más könyvekre esett a választásom.
A napokban x egyetem honlapjáról leszedtem a könyvet, ami elég groteszk módon volt feltöltve(de lehet hogy csak én vagyok lemaradva):bescannelt jpg képformátumban, olyan kinézettel, minha legalább 20x lefénymásolták volna és azt scannelték volna be (és ráadásúl a képek mérete összegezve, több mint 200 mb is meghaladta). Nem értettem, hogy minek nem lehetett volna a könyvet bescannelni egy karakter-felismerővel - na mind1.
Ezért fordultam a nyílvánossághoz, hogy szerintetek a képfájlokból ki tudnám e szedni a számomra hasznos információt valamiyen szövegfelismerővel, illetve hogy létezik e ilyen (ami fileból (jpg) szedi ki a hasznos infót és nem optikai bemenetről)?
(Ha esetleg valakinek megvan a könyv e formában, azt is elfogadom)
Előre is kösz.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Nem azt a könyvet keresed, amin kmARC gyurmája csücsül? :-)
Kérdezd meg őt, hátha tud segíteni!
http://hup.hu/node/35047

Valaki tud megoldást a problémára? Nekem is szövegfelismeréssel kapcsolatos gondom lenne, de én kézzel írott szöveget szeretnék beolvastatni a géppel úgy, hogy azok géppel írt betűkké alakuljanak át.
---
Powered by Áram

:(
igen kmARC szerencsésebb volt mint én, neki van ilyen könyve. Három hetet vártam rá, aztán elfogyott a türelmem.

Amúgy kézzel írt szöveg bevitelére vannak speciális kézírás-felismerő progik. Hogy milyen széles a repertoár azt nem tudom. Nem nagyon mozgok otthonosan ezen a téren. De megnézem a google hátha kilök vmit..


Ha nem ejtesz fogságba, sosem leszek szabad.

Gyakorlatilag az összes OCR megeszik képfájlokat is, ezzel nem lesz gond. (A feldolgozáshoz *elképzelhető* , hogy a JPG-ből más formátumot kell előállítani - TIFF-et, PNG-t, esetleg mást - ez programja válogatja.)
Nem tudom milyen oprendszer alatt gondolod csinálni, így a lehetőségek:

a) Windows-hoz nagyon sok (mások szerint) jó minőségű OCR program létezik, pl. az eredendően magyar Recognita is ilyen.

b) UNIX/Linux világban a dolog nem ennyire rózsás, címszavakban amivel elkezdhetsz játszani (de igazán jó eredményre ne nagyon számíts):
ClaraOCR, GOCR/JOCR, OCRAD, Tesseract OCR. Én ezekről hallottam, sok sikert hozzá!
(És egy megjegyzés: azt hiszem, már az is a szerzői jog megsértése, hogy JPG-ben elérhetővé tették, ennél durvább már csak az általad vágyott dolog lenne, ha utólag *könnyedén* szerkeszthető - pl. TXT, DOC, stb. formában lenne letölthető.)

pl a gocr (aminek asszem más a neve) file-ból tud karakterfelismerést. Én próbáltam használni szegényt nyomtatott szövegre, de eléggé ergya volt a felismerés pontossága. Utána próbáltam egy másik valamit aminek nem jut eszembe a neve, de a gnu.org-ról szedtem le. Az is hasoló pontosságot ért el, ráadásul az ékezetes karakterekkel nagyon meggyűlt a bajom. Próbáltam még kereskedelmi szoftvereket is de azok sem érték el a megnyugtató szintet. Szóval nem sok jóval tudok szolgálni. Én inkább keresnék valami más megoldást.

Végül sikerült ráeszméljek, hogy az optikai karaker-felismerő programok nagyrésze bemenetként a fileokat is képes kezelni.
Sorry hogy ezért nyitottam egy témát, de nincs scannerem és hiányoztak a tapasztalato e téren.
Minenkinek köszönöm a segítséget.


Ha nem ejtesz fogságba, sosem leszek szabad.