Nyílt forrású karakterfelismerő projektet jelentett be a Google

Címkék

A Google a napokban jelentette be az OCRopus névre hallgató, általa szponzorált, nyílt forrású projektet. A projekt célja, hogy előmozdítsa a korszerű optikai karakterfelismerés ügyét. A bejelentés szerint a DFKI-nál (German Research Center for Artificial Intelligence, Kaiserslautern, Germany) dolgozó Thomas Breuel professzor vezetésével fog a IUPR research group fejlett OCR technológiákat fejleszteni.

A fő cél: olyan fejlett, csúcsminőségű OCR rendszer kifejlesztése, amely felhasználható dokumentumok konvertálására, csökkentlátók segítésére, elektronikus könyvtárak üzemeltetéséhez, történelmi dokumentumok elemzésére, és általános desktop célokra.

A projekt várhatóan három évig fog futni, amelynek során 3 Ph.D. tanuló vagy post-doktori ösztöndíjas fog dolgozni. A szoftvernek már elérhető egy "Technology preview" kiadása, amelyet Apache licenc alatt terjesztenek. A OCRopus projektnek szerves része a már a HUP-on korábban is említett Tesseract OCR is.

A projekt honlapja itt. A bejelentés itt.

Hozzászólások

"A fő cél: olyan fejlett, csúcsminőségű OCR rendszer kifejlesztése, amely felhasználható dokumentumok konvertálására, csökkentlátók segítésére, elektronikus könyvtárak üzemeltetéséhez, történelmi dokumentumok elemzésére, és általános desktop célokra."

Peldaul a Google Books-hoz. :)

--
The Internet has evolved from smart people in front of dumb terminals to dumb people in front of smart terminals.

imho erre csak akkor lenne szüksége a googlenek, ha nem létezne megfelelő minőségű ocr a piacon jelenleg. ha megveszik az omnipage/recognitat annyi könyv digitalizálásánál használhatják amennyinél csak akarják. erre vonatkozó korlátozás nem található egyik orc kereskedelmi program végfelhasználói licencében sem. valószínűleg az sem vágja a padlóhoz a google inc.et, hogy a nagyobb hatékonység érdekében több omnipage licencet is kellene vásárolniuk.
nem valószínű, hogy open ocr program nélkül be kéne zárni a google booksot, mert már nem bírják a gépírónők a munkát :)

ráférne már a opensource közösségre egy normális ocr, sajna a gocr-féle próbálkozások nagyon messze vannak egy abbyytől vagy omnitól :(

És a Tesseract?

--
[Random Topical Haiku] (Slashdot.org) I've Got A Cool Site. What The Fuck? So Much Traffic! Now My Server's Down

Lityi,
vegyél vissza az aláírásodban használt -----jelek mennyiségéből, mert olvashatatlanná teszi az oldalt.
egyébként a cikk utolsó mondata,
A OCRopus projektnek szerves része a már a HUP-on korábban is említett Tesseract OCR is.