https://media3.bsh-group.com/Documents/9000816946_K.pdf itt a 41. oldal szövege kimásolva értelmezhetetlen karakterhalmaz lesz bemásolva mondjuk egy fordító programba. A többi oldalon nem tapasztaltam ezt. Az MI amiket adott, azok a pdf olvasó cserét javasol, vagy konvertálást pl doc formátumba. Megnyitottam openoffice writerrel is, bár másolható a szöveg, de a 41. oldalon értelmezhetetlen ott is a szöveg. Van erre valakinek ötlete, hogyan tudom kimásolni a 41. oldal szövegét?
Megoldás: képet készíteni az ilyen oldalakról, majd az MI-nek oda adni fordításra.
- 682 megtekintés
Hozzászólások
ChatGPT tud OCR-t, kepkent odaadod neki, es megkered, hogy szo szerint irja le a tartalmat. Nagyjabol ezt csinalnam.
A strange game. The only winning move is not to play. How about a nice game of chess?
- A hozzászóláshoz be kell jelentkezni
Ezt fordította a 41. oldalnak:
Szállítás
- Készülék szállítása: Ha a készüléket szállítani kell (pl. költözéskor), ügyeljen arra, hogy az üres legyen, és minden mozgó alkatrész rögzítve legyen a sérülések elkerülése érdekében.
Fagyvédelem (A készülék kiürítése)
- Fagyveszély: Ha a készüléket fagyveszélyes helyen tárolja vagy használja, gondoskodjon arról, hogy a benne lévő víz teljesen ki legyen ürítve a fagyás okozta károk elkerülése érdekében.
Kérjük, vegye figyelembe, hogy a pontos fordítás érdekében érdemes a teljes dokumentumot áttekinteni, mivel a 41. oldal tartalma összefügghet a korábbi oldalakon található információkkal.
Úgy gondolom, nem azt a szöveget fordította le. Tévedek?
- A hozzászóláshoz be kell jelentkezni
PDF nezoben megnyitod, odatekersz, KEPKENT odaadod neki (screenshot), adsz promptot, enter.
A strange game. The only winning move is not to play. How about a nice game of chess?
- A hozzászóláshoz be kell jelentkezni
Vettél egy Siemens mosogató gépet, mi a faszomat nem értessz benne, rajta? Nyitsz neki egy fórum szálat, mer' akkora fasz vagy, hogy nem tudod magadnak lefordítani?
- A hozzászóláshoz be kell jelentkezni
Vagy mondjuk vett Karira egy mosogatogepet a 90 eves nagymamajanak, aki nem tud angolul.
A strange game. The only winning move is not to play. How about a nice game of chess?
- A hozzászóláshoz be kell jelentkezni
A kérdés nem a mosogatógépre vonatkozott, hanem a PDF-ből másolt értelmezhetetlen karakterhalmazra. Mit nem lehetett ezen érteni?
- A hozzászóláshoz be kell jelentkezni
Szerintem sem kéne agresszívnek lenni. Lehet nem is erre a pdf-re kíváncsi, ezt csak betette példának, mert szintén érinti a jelenség, de ez egy publikus pdf, nincs benne érzékeny adat. Csak tipp.
“Windows 95/98: 32 bit extension and a graphical shell for a 16 bit patch to an 8 bit operating system originally coded for a 4 bit microprocessor, written by a 2 bit company that can't stand 1 bit of competition.”
- A hozzászóláshoz be kell jelentkezni
Ha valaki kérdezné tőled, hogy egy büdös bunkó vagy-e, mondd neki azt, hogy nem.
- A hozzászóláshoz be kell jelentkezni
Mobilos(andoid) ms word ezt látja ott:
Semmit. Van másolás gomb, de utána nem aktív a beillesztés. Új pdf másolásvédelem?
- A hozzászóláshoz be kell jelentkezni
Erre gyanakszok én is. Láttam már nem egy ilyen pdf-et, hogy a szöveg nem karakterenként, és nem is képként van eltárolva, hanem a betűtípuson belüli glyph-kódként (ez nem karakterkódolás, minden betűtípusnál más), így mikor kimásolod, csak néhány értelmetlen, nem megjeleníthető karakter lesz belőle.
“Windows 95/98: 32 bit extension and a graphical shell for a 16 bit patch to an 8 bit operating system originally coded for a 4 bit microprocessor, written by a 2 bit company that can't stand 1 bit of competition.”
- A hozzászóláshoz be kell jelentkezni
Ez a pdf pont ilyen
- A hozzászóláshoz be kell jelentkezni
Igen, de nem igazi másolásvédelemmel van ellátva.
https://stackoverflow.com/questions/30142520/ghostscript-output-pdf-tex…
Ghostscript 9.52-vel lett generálva, és elrontották a karakterek kódolását a 41 és 42. oldalon.
- A hozzászóláshoz be kell jelentkezni
Igen, én is arra gondoltam, hogy elrontottak valamit, ezért kíváncsiságból megnyitottam LibreOffice-szal és Inkscape-pel is. Mindkét esetben zavaros karakterek jelentek meg az utolsó két oldalon. De más oldalon is van "zavar".
Valójában nem rontottak el semmit. Az Adobe CID-keyed fontjai vannak benne. Ezekhez kellenek a CMap és a CIDFont fájlok együtt.
Ez egy Adobe találmány az 1990-es évekből a kínai, japán és koreai (CJK) PostScript fontokhoz. Még az is megeshet, hogy valamelyik kínai gyáregységben készült a pdf.
Van ebben a pdf-ben különleges TrueType font fájl is. Az első oldalon az SN... és SX... szövegekhez használt TrueType font fájlban három külön glyph szerepel, de más nem. Méghozzá: SN;SX;... (erről beszélt Raynes) Arra nincs elképzelésem, hogy ez mire jó.
- A hozzászóláshoz be kell jelentkezni
Később bármi másra Tesseract-OCR (kb. félcsillió nyelv támogatásával) és gImageReader. 600+ oldalas tudományos könyvet 1000+ lábjegyzettel olvastam be ezzel, ennek alapján tettem LaTeX-be.
Mert csak.
"The vision of Christ that thou dost see
Is my vision’s greatest enemy."
- A hozzászóláshoz be kell jelentkezni