Melyik a legjobb algoritmus / API / AI modell arra, hogy van egy szkennelt PDF (oldalakra bontom, ez részletkérdés), s egyes képekről el kell dönteni, hogy helyesen vannak-e elforgatva, és ha nem, hogyan kell helyes pozícióba forgatni? Claude Code képes rá (multimodal), de elég gyatra hibaaránnyal dolgozik. Teszteltem valós ügyféladatokon. Fotókkal jól működött, szkennelt, gépelt lapokkal gyengébben boldogul (különféle nyelvek, különféle ABC-k, stb). Próbált már bárki ilyesmit, hasonlót?
Fizetős API teljesen tökéletes, ezt a problémát már megoldották zömmel. Google Drive Scan funkciója is hasonlót csinál.
- 444 megtekintés
Hozzászólások
ocrmypdf ezt is tudja
ocrmypdf --rotate-pages --skip-text input.pdf output.pdfa --skip-text csak azért kell hozzá, hogy ne ocr-ezze a szöveget, csak forgassa.
4 és fél éve csak vim-et használok. elsősorban azért, mert még nem jöttem rá, hogy kell kilépni belőle.
- A hozzászóláshoz be kell jelentkezni
Köszi. Egész jól működik, de nekem nem mindegyik szöveges tartalom, vannak tisztán fotók, ez pedig azon alapul, hogy milyen pozícióban van a felismert szöveg.
Futtattam egy halmazon, nem rossz, de nekem sajnos nem teljes megoldás.
- A hozzászóláshoz be kell jelentkezni
kovetem. sok eve egy ismerosom regi fotok-diak tomeges scannelese miatt keresett ilyet, de nem talaltunk jo megoldast
- A hozzászóláshoz be kell jelentkezni