OCR hibák javítása hogyan?

A szkriptek témakört azzal a hátsó szándékkal választottam, hátha van valakinek okos megoldása. :)

A szkennelt szövegek hibáinak korrigálása érdekelne, hogy lehet-e erre megoldást találni vagy egyáltalán érdemes-e foglalkozni vele?
Például: rn-ből m, t-ből i, r-ből t stb. Ezek tipikusak és nem feltétlenül értelmetlen szöveget eredményeznek, hanem néha totál megtévesztően, létező szavakat.
Fogalmam sincs, hogy lehetne automatizálni ezeknek a szövegeknek a javítását. Ha valakinek van ötlete, ne tartsa vissza magát!

2055 megtekintés

Keresés és csere.
Azt sehogyan sem fogod megúszni, hogy ne kelljen betűről betűre átolvasni a szöveget.

------------------------

0 szavazat

A hozzászóláshoz be kell jelentkezni

szerintem automatizalni nem tudod, de ezeket a rendszeres felreolvasasokat, egy kis ido raaldozasaval csokkenteni lehet olyan ocr-ekkel amik tanithatok. par oldalt manualisan vegigcsinalsz, javitod es amikor mar ok, akkor vegigtolod.
ha minosegre mesz akkor nem tudod megsporolni azt hogy vegigolvasod egy helyesiras ellenorzovel.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm a tippet, de sajnos nem én szkennelem, hanem már meglévő szövegeket kellene javítani. E-könyveket konkrétan.
Hogy manuálisan csináljam, az kizárt, mert egynél többször úgysem olvasnám el.
Végül is, az esetek többségében kikövetkeztethető az eredeti alak és csak ritkán fordul elő, hogy nehezen értelmezhető. Mindenesetre bosszantó!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azt kell mondjam, az úgy eléggé szar munka lesz. Mármint szar minőségű.
Ilyet én soha nem adtam ki a kezeim közül.

------------------------

0 szavazat

A hozzászóláshoz be kell jelentkezni

hat igen..ugy gyorsithatod, hogy ahogy elkezded vegigolvasni, az ilyen ertelmetlen szavakat kicsereled az egesz doksira vonatkozolag es folytatod onnan, johet a kovetkezo ertelmetlen. de nem tudod megsporolni a vegignezest igy sem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nyelvi/helyesírási lektorálás ember által begépelt szöveg esetén is 2-3 olvasás (és javítás) után ad elfogadható "végterméket", úgyhogy a többszöri átolvasást nem fogod megúszni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Óh, Recognita!!!! A dédnagyanyám 1870-es kiadású szakácskönyvét végigszkenneltem vele. Pedig rengeteg betűhiba volt. Egyszer elég volt pixelenként helyretenni, és kb. 2-3 oldal után mindent szépen olvasott.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Melyik verzió volt? Szabad tudni?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem tudom, de úgy 1999 körül csináltam.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Recognita, dettó. Asszem 5-ös verzió volt, mielőtt Scansoft lett belőle. Gyönyörűen megtanulta a jellegzetes hibákat, meg a régi cirkalmas nyomdai betűtípusokat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

olvasod, javítod. babra meló.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha olyan szavak vannak benne, ami szótári/nyelvtani alapon korrigálható, akkor a Google Vision API-ja esetleg segíthet, egész jól ki szokta találni, hogy mire gondolt a költő :)

https://cloud.google.com/vision/docs/ocr

--
http://eVIR.hu
Elektronikus Vállalatirányítási Információs Rendszer

0 szavazat

A hozzászóláshoz be kell jelentkezni

Amit utána ugyanúgy illik átnézni betűről-betűre :)

------------------------

0 szavazat

A hozzászóláshoz be kell jelentkezni

tripla hsz

------------------------

0 szavazat

A hozzászóláshoz be kell jelentkezni

tripla hsz

------------------------

0 szavazat

A hozzászóláshoz be kell jelentkezni

Bocs, de ha már ez kérdés nem szednénk össze, hogy érdemes ezt csinálni. Nekem is kellene cikkeket bescannelnem és OCR-eznem. Arra gondoltam, hogy telefonnal fogom csinálni, de a fentieket olvasva lehet ez nem jó ötlet? mert ebből jöhetnek ilyen nem félre ocr-ezet dolgok, ha nem olyan a képminőség?

Meg OCR-hez mi az ajánlott szoftver, munkamódszer? Az abbyy finereader-ről hallottam, hogy jó, de jobb lenne valami free alternatíva. relatíve nem sok cikk szóval venni nem fogok progit, vagy warez vagy free :/

Régen volt egy ilyen szakfórum, de most nem találom.

0 szavazat

A hozzászóláshoz be kell jelentkezni

"Ezek tipikusak és nem feltétlenül értelmetlen szöveget eredményeznek, hanem néha totál megtévesztően, létező szavakat."

Csodálkoznék, ha ott tartana a a tudomány, hogy kontextus alapján képes lenne javítani értelmes szavakat, ráadásul magyar nyelven. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Abbyy finereader, utána bedobni egy szövegszerkesztőbe, a hibákat javítani (pirossal aláhúzza, ha nem értelmes a szó), majd pedig átolvasni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mit várunk egy arc/alak/újjlenyomat felismerőtől, ha még működőképes karakterfelismerés sincs? :D :D :D ... legalábbis én még nem találkoztam eddig egyetlen használható OCR-rel sem...

-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Pedig van, csak nem olcsó. Én használom a Vuescan OCR részét gyakran, hivatalos dokumentumokat csont nélkül visz angolul, magyarul, finnül.
Ingyenes verzióból a Google féle tesseract szerepelt nálam jól, de ahhoz célszerű valami frontendet használni, mert a kézi felparaméterezéshez pilótavizsga kell. Utoljára a Gimagreader-t használtam, mert az elérhető repóból Fedorán, az egész jól ment. (Agyonhasznált recepteket scanneltem én is. Ez vajon valami új sport?)
--
Csaba

0 szavazat

A hozzászóláshoz be kell jelentkezni

ez a tesseract ez van annyira jó, hogy nem szenvedéstörténet lesz csak? Szóval megéri időt tenni bele(frontenddel), hogy látod? Vagy csak ha minden kötél szakad?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Maga a tesseract szerintem nagyon jó, de nagyon függ a scannelt anyag minőségétől. Nekem jó tapasztalataim voltak vele, de ma már szinte csak a vuescan-t használom, annak az OCR-e nagyságrenddel jobb nekem.
--
Csaba

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm!!

0 szavazat

A hozzászóláshoz be kell jelentkezni

A tesseract gyakorlatilag lófasz, ha nem 1200+ dpi-vel scannelek, akkor gyakorlatilag 1 ép szót nem ad, csak szótárfájlból helyettesítget. ... mondjuk 1200+ dpi esetén se gyakran találja el a betűket.

azt a vuescant meg kipróbálom.

-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Atomrakétát se kapsz a cba-ban, pedig létezik olyan. Ezeknek az arcfelismerőknek a működő változatait a hadsereg/titkosszolgálat stb. használja, te a polgári felhasználásút veheted meg a bótban.
--

0 szavazat

A hozzászóláshoz be kell jelentkezni

van meg egy oteletem. :DD (otletbol sok van, csak nem lehet belole megelni).

ha nem titkos doksikrol van szo, akkor dobd ki a feladatot a fiverr vagy egy hasonlo feluletre es ha draga az idod olcsobban meguszhatod.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez jó ötlet, de nem hiszem, hogy pont magyar hibajavításra. Angolra inkább.

0 szavazat

A hozzászóláshoz be kell jelentkezni

nana..
en peldaul siman bevallalnek ilyen melokat..
csak a kutya nem rak fel sehova magyar nyelvu melokat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

ez kicsit ördögi kör, mert ha a kutya nem rak fel, akkor a kutya nem is megy oda keresni magyar melót :D sajnos. mert amúgy tényleg tök jó ötlet lenne ilyeneket átadni annak, aki ügyesebb benne és nem elcseszni időt infogyűjtéssel, szoftver próbálgatással stb.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Rejtett sub: csinálhatod azt, amit a ReCAPTCHAGoogle: több független programot ráeresztesz, összehasonlítod szavanként az eredményt, és ahol egyetértés van, azt elfogadod helyesnek, ahol nincs, arról meg megkérdezed az internet népét kiraksz az internet népének saját képeket, hogy tanítsák a saját AI-dat, ingyen, bérmentve, miután egy nemes céllal el lett terjesztve a beépítőkód a fél világban és felvásároltad a korábbi céget...

De a több független OCR nem hülyeség, ha meg tudod oldani... Tesseract-ot már írták fentebb, frontenddel és automatizálva (adatbázisban indexeléshez használva) Java-ból használtam már.

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Saját tapasztalat: ha újra lehet scannelni, érdemes kipróbálni, hogy szürkeárnyalatosban, fekete-fehérben, vagy esetleg színesben, és hány dpi-vel scannelt szöveget ismer fel legjobban az ocr. Nyilván dokumentuma válogatja. A legszarabb a félfamentes rajzlaphoz hasonló minőségű papír, mert abban nagyon sok apró zárvány van, ami szürke pöttyként megzavarja az ocr-t.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hejesírásellenző algoritmikus ráeresztésével kicsit közelebb kerülsz a végső Uliimate megoldáshoz. (e. g. ispell, aspell or hunspell).
Sőt az ocr alkalmazás tréningezésére is használhatod ezeket, pl. pár óráig otthagyod a gépet, hagy dolgozzon a kicsike, majd visszamész és csekkolod az eredményt. Ha szar akkor közbeavatkozol...

0 szavazat

A hozzászóláshoz be kell jelentkezni

A helyesírás ellenőrzők többnyire csak egy adott szó jelentését próbálják felismerni, és lehet, hogy pont olyan javaslatot adnak, amitől a mondat lesz értelmetlen. Szóval a teljes átolvasást azzal sem lehet megspórolni. Sajnos...

0 szavazat