OCR hibák javítása hogyan?

A szkriptek témakört azzal a hátsó szándékkal választottam, hátha van valakinek okos megoldása. :)

A szkennelt szövegek hibáinak korrigálása érdekelne, hogy lehet-e erre megoldást találni vagy egyáltalán érdemes-e foglalkozni vele?
Például: rn-ből m, t-ből i, r-ből t stb. Ezek tipikusak és nem feltétlenül értelmetlen szöveget eredményeznek, hanem néha totál megtévesztően, létező szavakat.
Fogalmam sincs, hogy lehetne automatizálni ezeknek a szövegeknek a javítását. Ha valakinek van ötlete, ne tartsa vissza magát!

Hozzászólások

Keresés és csere.
Azt sehogyan sem fogod megúszni, hogy ne kelljen betűről betűre átolvasni a szöveget.

------------------------

szerintem automatizalni nem tudod, de ezeket a rendszeres felreolvasasokat, egy kis ido raaldozasaval csokkenteni lehet olyan ocr-ekkel amik tanithatok. par oldalt manualisan vegigcsinalsz, javitod es amikor mar ok, akkor vegigtolod.
ha minosegre mesz akkor nem tudod megsporolni azt hogy vegigolvasod egy helyesiras ellenorzovel.

Köszönöm a tippet, de sajnos nem én szkennelem, hanem már meglévő szövegeket kellene javítani. E-könyveket konkrétan.
Hogy manuálisan csináljam, az kizárt, mert egynél többször úgysem olvasnám el.
Végül is, az esetek többségében kikövetkeztethető az eredeti alak és csak ritkán fordul elő, hogy nehezen értelmezhető. Mindenesetre bosszantó!

Bocs, de ha már ez kérdés nem szednénk össze, hogy érdemes ezt csinálni. Nekem is kellene cikkeket bescannelnem és OCR-eznem. Arra gondoltam, hogy telefonnal fogom csinálni, de a fentieket olvasva lehet ez nem jó ötlet? mert ebből jöhetnek ilyen nem félre ocr-ezet dolgok, ha nem olyan a képminőség?

Meg OCR-hez mi az ajánlott szoftver, munkamódszer? Az abbyy finereader-ről hallottam, hogy jó, de jobb lenne valami free alternatíva. relatíve nem sok cikk szóval venni nem fogok progit, vagy warez vagy free :/

Régen volt egy ilyen szakfórum, de most nem találom.

"Ezek tipikusak és nem feltétlenül értelmetlen szöveget eredményeznek, hanem néha totál megtévesztően, létező szavakat."

Csodálkoznék, ha ott tartana a a tudomány, hogy kontextus alapján képes lenne javítani értelmes szavakat, ráadásul magyar nyelven. :)

Abbyy finereader, utána bedobni egy szövegszerkesztőbe, a hibákat javítani (pirossal aláhúzza, ha nem értelmes a szó), majd pedig átolvasni.

Mit várunk egy arc/alak/újjlenyomat felismerőtől, ha még működőképes karakterfelismerés sincs? :D :D :D ... legalábbis én még nem találkoztam eddig egyetlen használható OCR-rel sem...

-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.

Pedig van, csak nem olcsó. Én használom a Vuescan OCR részét gyakran, hivatalos dokumentumokat csont nélkül visz angolul, magyarul, finnül.
Ingyenes verzióból a Google féle tesseract szerepelt nálam jól, de ahhoz célszerű valami frontendet használni, mert a kézi felparaméterezéshez pilótavizsga kell. Utoljára a Gimagreader-t használtam, mert az elérhető repóból Fedorán, az egész jól ment. (Agyonhasznált recepteket scanneltem én is. Ez vajon valami új sport?)
--
Csaba

A tesseract gyakorlatilag lófasz, ha nem 1200+ dpi-vel scannelek, akkor gyakorlatilag 1 ép szót nem ad, csak szótárfájlból helyettesítget. ... mondjuk 1200+ dpi esetén se gyakran találja el a betűket.

azt a vuescant meg kipróbálom.

-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.

van meg egy oteletem. :DD (otletbol sok van, csak nem lehet belole megelni).

ha nem titkos doksikrol van szo, akkor dobd ki a feladatot a fiverr vagy egy hasonlo feluletre es ha draga az idod olcsobban meguszhatod.

Rejtett sub: csinálhatod azt, amit a ReCAPTCHAGoogle: több független programot ráeresztesz, összehasonlítod szavanként az eredményt, és ahol egyetértés van, azt elfogadod helyesnek, ahol nincs, arról meg megkérdezed az internet népét kiraksz az internet népének saját képeket, hogy tanítsák a saját AI-dat, ingyen, bérmentve, miután egy nemes céllal el lett terjesztve a beépítőkód a fél világban és felvásároltad a korábbi céget...

De a több független OCR nem hülyeség, ha meg tudod oldani... Tesseract-ot már írták fentebb, frontenddel és automatizálva (adatbázisban indexeléshez használva) Java-ból használtam már.

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

Saját tapasztalat: ha újra lehet scannelni, érdemes kipróbálni, hogy szürkeárnyalatosban, fekete-fehérben, vagy esetleg színesben, és hány dpi-vel scannelt szöveget ismer fel legjobban az ocr. Nyilván dokumentuma válogatja. A legszarabb a félfamentes rajzlaphoz hasonló minőségű papír, mert abban nagyon sok apró zárvány van, ami szürke pöttyként megzavarja az ocr-t.

Hejesírásellenző algoritmikus ráeresztésével kicsit közelebb kerülsz a végső Uliimate megoldáshoz. (e. g. ispell, aspell or hunspell).
Sőt az ocr alkalmazás tréningezésére is használhatod ezeket, pl. pár óráig otthagyod a gépet, hagy dolgozzon a kicsike, majd visszamész és csekkolod az eredményt. Ha szar akkor közbeavatkozol...