Kézírás felismerés mesterséges intelligenciával?

Mivel jelenleg a csapból is a mesterséges intelligencia folyik, felmerült bennem a kérdés, hogy elérhető-e olyan megoldás ahol kifejezetten a saját írásom felismerésére tanítom be a programot, így a jegyzeteimet nem kellene begépelni.

Ismertek-e ilyen ingyenesen elérhető megoldást, a legjobb lenne olyan ami a saját gépemen fut.

Köszönöm.

Hozzászólások

Én csináltam kézírás felismerést, de csak egyedi karakterekre. Nagyon jól működik, ha megfelelő a tanítás.

Mivel a te írásodra külön tanítani sok munka, így javaslom, hogy kész megoldást keress. Ilyen kulcsszavakat javasolnék:

open source handwriting recognition

Köszönöm.

Arra gondoltam, hogy van elég sok jegyzetem, mindenféle korú (főiskolától-napjainkig), mindenféle írási stílussal (a szinte nyomdai olvashatóságútól a macskakaparás szintű gyorsírásig), ezeket beszkennelném és végigmennék egy programmal, hogy hol hol vannak a betűhatárok és melyik általam írt karakter melyik betűnek felel meg, ebből megtanulná(?) hogy melyik stílusnál mit minek kell értelmezni és így a többi szöveget már automatikusan tudna konvertálni.

Vagy nagyon nem jól gondolom?

Nagyjából így működne, de rengeteg buktató van. Betű elforgatások stb, kell feature extract megfelelő feature engineering-el, mi legyen a modell, azon belül milyen modell struktúra, elég-e egy Random Forest vagy kell CNN stb.

ML szakértő kell hozzá, de az relatíve sok költség szerintem egy ilyen adhoc egyedi fejlesztéshez.

Speciel kézírásnál szerintem jobb lehet bizonyos esetekben RF. Én például SVM-et és RF-et tanítottam erre és kiválóan működött szinte nulla hiba mellett.

Mivel nem túl nagy a bemenet komplexitása és varianciája más, általános kép felismerésekhez képest (sima B&W konverzióval kezdtem hisztogram median alapján kis felbontásnál), így jól működött. Ha elég szofisztikált és jó a feature engineering és feature extract mechanizmus, akkor könnyebben adható egzaktabb megoldás szerintem a hiperparaméter space drasztikus méretkülönbsége miatt.

LSTM változó input méretű modelleknél tud kidomborodni. Itt elvileg fix lehet az input méret, mert fix-re skálázhatók a pixelek.

Nem kell, hogy opensource legyen. Sajnos nem túl nagy a választék. Van némi tapasztalatom mert nekem is vannak ilyen igényeim. 

0. kérdés. Miért kell felismerni a jegyzetek szövegét? Ha fontos a későbbi keresés a jegyzetszövegben akkor ez valóban szükséges. De ha csak digitális tárolás miatt kell nem feltétlenül van rá szükség.

Mivel készülnek a jegyzetek? Papírra tollal? Mert akkor ajánlom helyette a Samsung tableteit ePen-nel ami egy teljes megoldás a jegyzetelésre. Van egy remek jegyzetelő app-juk. Azaz pontosabban volt az S Pen, ami briliáns volt. Rajzoltál kézzel egy esetlen koordinátarendszert valamilyen görbével, automatikusan javította szép egyenesre derékszögekkel, szép nyilakkal. Az alap görbéket is felismerte egészen jól, parabola, hiperbola, exponenciális stb. 
Meg persze kör, elipzis, négyzet és társai. Néha tévesztett, de ilyenkor egy gyors törlés és másodjára már általában eltalálta. 

Utána a frissítéssel jött az utód Samsung Note. Első rossz pontot azzal szerezte, hogy az S Note felhős importja után csinált a korábbi pár-100 mb S Note jegyzetemből 8 GB Samsung Note jegyzetet, ugyanis minden oldalból bitmap alapú képeket csinált és ezeket rakta az importált note doksikba. Továbbá hátrányára változott a korábban szépen és egyszerűen működő ábrafelismerése és automata korrekciója. A kézírásfelismerés viszont működik.
Hibái és sok regresszió ellenére még mindig köröket ver a Samsung Note a OneDrive-ra. További előny, hogy a Samsung tabletes és mobil tollak passzívak így nem kell beszerezhetetlen elemekkel bajlódni a működésükhöz. Tökéletesen meg tudja különböztetni a kezedet a tolltól, így ha írás közben beleért a képernyőbe a kezeddel azt teljesen figyelmen kívül hagyja. 

A jegyzetek papírral és tollal készülnek és nem vennék ezért külön eszközt, nem olyan mennyiség amit ne tudnék begépelni, csak gondoltam, ha már ennyi mindent tud az MI akkor hátha ebben is fejlődött.

A kereshetőség és másolhatóság miatt kell a gépi szöveg is.

Akkor ez nem egy most futó jegyzetelés hanem már a múltban megtörtént és lezárult. Ez esetben tudom ajánlani a Google felhős szolgáltatását. Sokkal kevesebb időt kell beleölnöd mint opensource keretre épített saját neurális hálós megoldásra. Ha az maga nem valamilyen projekt része, vagy egyetemi munka nem éri meg belekezdeni csak a jegyzeteid betű-felismerése miatt. Volt benne részem, tudom mennyi munkával jár. Hamarabb gépeled be kézzel az egészet :)  A Google AI-ban a versenytársak előtt jár és az árazása is kedvezőbb volt mindig amikor szükségem volt rá. 

Ennek szerintem van egy olyan aspektusa is, hogy mára a kézírás, különösen a folyóírás használata nagyon visszaszorult, és ezzel talán silányult is.

Rengeteg embernek olyan a kézírása, hogy azt saját maga is nehezen olvassa.

 

Ti milyen rendszerességgel szoktatok kézzel írni, ha az aláírás, nyomtatott betűs jegyzet, formanyomtatvány kitöltés nem számít?

Én pl. már vagy 2 évtizede nem írok kézzel semmit (csak alá), volt egy kivétel egyszer 10 éve egy oktatáson, mikor számonkéréseken kellett többet körmölni, utáltam is, meg a tanár is olvasni. Pedig sose volt annyira ocsmány a kézírásom, de valami szép se. Az is igaz, hogy ezért az iskolát hibáztatom, mert az én korosztályomnak még a zsinórírást erőltették, szerintem azért jobb lett volna, ha mindjárt a különálló, nyomtatottabb stílusú írást tanultam volna meg, szebb, konzisztensebb lenne az írásom. Mindegy, most már késő, nem kell semmit kézzel írnom, meg mióta 14 éve megtanultam gépírni, azóta én mindent csak gépelek, újabban pár éve mindent csak terminál / plain text / vi(m) alapúan csinálok. Olvasni is csak képernyőről, sajnálok papírkönyvet venni, nem csak az ára miatt, hanem utána nincs hová tenni. e-booknak nem kell hely, elfér belőle akárhány giga, könnyebb benne keresni, kivágni, nem csak gépről, hanem okostelóról is olvasható (e-bookreaderem nincs még), stb.. Szóval semmi, ami papír vagy kézírás. Pár évente néhányszor egy nyomtatvány maximum, néhány rubrika kitöltése erejéig, de az is nagyban ritkul, mióta egyre több helyre be lehet adni ezeket elektronikusan is.

Ahogy néztem, az a kézírás régen volt szívás, mikor ilyen mártogatós tollal írtak, azzal elég nehéz volt, hogy ne folyjon szét, meg külön művészete volt a tintagyártásnak, keverésnek, tollvágásnak, stb., eleve boríték se volt, levélnél azt is hajtogatták a levélből, meg mindenféle viaszozási-pecsételési trükköt kellett ismerni, és mindezt gyertyafénynél kivitelezni. Jó videók vannak erről a Townsend YouTube-csatornán.

The world runs on Excel spreadsheets. (Dylan Beattie)

Szerkesztve: 2023. 01. 20., p – 11:22

.

Félig off: Én most családfa kutatás kapcsán futottam bele ebbe. Az anyakönyvek egy részét szoftveresen próbálták felismerni, hát nagyon vegyes eredményekkel.

Ebbe feleségem futott bele, a FamilySearch-en keresett felmenőket és a félre ment felismerések miatt ugyanazt a személyt többféle névvel is hozza, a rokonsági kapcsolatokból lehet visszakövetni, hogy ugyanarról van szó.

Megnéztem hogyan végzik, a gép ismeri fel és önkéntesek validálnak.

Elvileg a Tensorflow tud kézírás-felismerést, de arra passz, hogy betanítani tudod-e, vagy csak a meglévő mintabázisát használja.

The world runs on Excel spreadsheets. (Dylan Beattie)

pont tegnap nezegettem a tesseract-ot, az 5-os verziot forditottam forrasbol es elvileg azt lehet tanitani is, es vannak hozza 'script nyelvek' fileok ami ha jol ertelmeztem a keziras felismeresre vonatkozik, bar foleg a keleti (kinai japan stb) miatt.

de egy NN halo tanitasa az baromira nem trivialis feladat, eleve olyan cimkezett dataset kell ahol jol ossze vannak parositva az input (keziras) es az elvart output (felismert szoveg). ha kelloen nagy mennyiseg van ebbol akkor elegge onalloan tud tanulni, ha keves akkor gondolom tovabbi segitseg (szavak hatara stb) is kellhet.