Szkennelt oldalak orientációjának, kivágásának auto-korrekciója

Fórumok

Melyik a legjobb algoritmus / API / AI modell arra, hogy van egy szkennelt PDF (oldalakra bontom, ez részletkérdés), s egyes képekről el kell dönteni, hogy helyesen vannak-e elforgatva, és ha nem, hogyan kell helyes pozícióba forgatni? Claude Code képes rá (multimodal), de elég gyatra hibaaránnyal dolgozik. Teszteltem valós ügyféladatokon. Fotókkal jól működött, szkennelt, gépelt lapokkal gyengébben boldogul (különféle nyelvek, különféle ABC-k, stb). Próbált már bárki ilyesmit, hasonlót?

Fizetős API teljesen tökéletes, ezt a problémát már megoldották zömmel. Google Drive Scan funkciója is hasonlót csinál.

Hozzászólások

ocrmypdf ezt is tudja

ocrmypdf --rotate-pages --skip-text input.pdf output.pdf

a --skip-text csak azért kell hozzá, hogy ne ocr-ezze a szöveget, csak forgassa.

4 és fél éve csak vim-et használok. elsősorban azért, mert még nem jöttem rá, hogy kell kilépni belőle.

kovetem. sok eve egy ismerosom regi fotok-diak tomeges scannelese miatt keresett ilyet, de nem talaltunk jo megoldast