/MEGOLDVA/ PDF fájlból nem lehet szöveget másolni az egyik oldalon, holott nem képes oldal.

Fórumok

https://media3.bsh-group.com/Documents/9000816946_K.pdf itt a 41. oldal szövege kimásolva értelmezhetetlen karakterhalmaz lesz bemásolva mondjuk egy fordító programba. A többi oldalon nem tapasztaltam ezt. Az MI amiket adott, azok a pdf olvasó cserét javasol, vagy konvertálást pl doc formátumba. Megnyitottam openoffice writerrel is, bár másolható a szöveg, de a 41. oldalon értelmezhetetlen ott is a szöveg. Van erre valakinek ötlete, hogyan tudom kimásolni a 41. oldal szövegét?

 

Megoldás: képet készíteni az ilyen oldalakról, majd az MI-nek oda adni fordításra.

Hozzászólások

ChatGPT tud OCR-t, kepkent odaadod neki, es megkered, hogy szo szerint irja le a tartalmat. Nagyjabol ezt csinalnam.

A strange game. The only winning move is not to play. How about a nice game of chess?

Ezt fordította a 41. oldalnak:

Szállítás

  • Készülék szállítása: Ha a készüléket szállítani kell (pl. költözéskor), ügyeljen arra, hogy az üres legyen, és minden mozgó alkatrész rögzítve legyen a sérülések elkerülése érdekében.

Fagyvédelem (A készülék kiürítése)

  • Fagyveszély: Ha a készüléket fagyveszélyes helyen tárolja vagy használja, gondoskodjon arról, hogy a benne lévő víz teljesen ki legyen ürítve a fagyás okozta károk elkerülése érdekében.

Kérjük, vegye figyelembe, hogy a pontos fordítás érdekében érdemes a teljes dokumentumot áttekinteni, mivel a 41. oldal tartalma összefügghet a korábbi oldalakon található információkkal.

Úgy gondolom, nem azt a szöveget fordította le. Tévedek?

Vettél egy Siemens mosogató gépet, mi a faszomat nem értessz benne, rajta? Nyitsz neki egy fórum szálat, mer' akkora fasz vagy, hogy nem tudod magadnak lefordítani? 

Szerintem sem kéne agresszívnek lenni. Lehet nem is erre a pdf-re kíváncsi, ezt csak betette példának, mert szintén érinti a jelenség, de ez egy publikus pdf, nincs benne érzékeny adat. Csak tipp.

Windows 95/98: 32 bit extension and a graphical shell for a 16 bit patch to an 8 bit operating system originally coded for a 4 bit microprocessor, written by a 2 bit company that can't stand 1 bit of competition.”

Mobilos(andoid) ms word ezt látja ott:

Semmit. Van másolás gomb, de utána nem aktív a beillesztés. Új pdf másolásvédelem?

Erre gyanakszok én is. Láttam már nem egy ilyen pdf-et, hogy a szöveg nem karakterenként, és nem is képként van eltárolva, hanem a betűtípuson belüli glyph-kódként (ez nem karakterkódolás, minden betűtípusnál más), így mikor kimásolod, csak néhány értelmetlen, nem megjeleníthető karakter lesz belőle.

Windows 95/98: 32 bit extension and a graphical shell for a 16 bit patch to an 8 bit operating system originally coded for a 4 bit microprocessor, written by a 2 bit company that can't stand 1 bit of competition.”

Igen, én is arra gondoltam, hogy elrontottak valamit, ezért kíváncsiságból megnyitottam LibreOffice-szal és Inkscape-pel is. Mindkét esetben zavaros karakterek jelentek meg az utolsó két oldalon. De más oldalon is van "zavar".

Valójában nem rontottak el semmit. Az Adobe CID-keyed fontjai vannak benne. Ezekhez kellenek a CMap és a CIDFont fájlok együtt. 
Ez egy Adobe találmány az 1990-es évekből a kínai, japán és koreai (CJK) PostScript fontokhoz. Még az is megeshet, hogy valamelyik kínai gyáregységben készült a pdf.

Van ebben a pdf-ben különleges TrueType font fájl is. Az első oldalon az SN... és SX... szövegekhez használt TrueType font fájlban három külön glyph szerepel, de más nem. Méghozzá: SN;SX;... (erről beszélt Raynes) Arra nincs elképzelésem, hogy ez mire jó.

Később bármi másra Tesseract-OCR (kb. félcsillió nyelv támogatásával) és gImageReader. 600+ oldalas tudományos könyvet 1000+ lábjegyzettel olvastam be ezzel, ennek alapján tettem LaTeX-be.

Mert csak.

"The vision of Christ that thou dost see
Is my vision’s greatest enemy."