[megoldva] PDF -> JPG konvertalas (ghostscripttel) mukodo modon

Fórumok

Sziasztok,

PDF dokumentumokat szeretnek konvertalni JPG formatumba 1 oldal PDF -> 1 JPG alapon (tehat egy 20 oldalas PDF-bol 20 db JPG kimenetet varok).

Minden meg van oldva, szepen is mukodik az egesz a PDF-ek 99% -aval, azonban van egy tipus, amivel nem boldogulok, ez a kimenet:


Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
Warning: falling back to Identity ordering
   **** Warning: can't process font stream, loading font by the name.
Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
   **** Error reading a content stream. The page may be incomplete.
   **** File did not complete the page properly and may be damaged.
   **** Warning: File has unbalanced q/Q operators (too many q's)

   **** This file had errors that were repaired or ignored.
   **** The file was produced by: 
   **** >>>> pdf3 <<<<
   **** Please notify the author of the software that produced this
   **** file that it does not conform to Adobe's published PDF
   **** specification.

Can't find CMap Identity-UTF16-H building a CIDDecoding resource.

Ugyan a konvertalast megcsinalja ebben az esetben is, a kimenet egy teljesen ures, feher JPG kep (a PDF csak szoveget tartalmaz).

Vegiggulgliztam az egesz netet, megneztem a megfelelo Ubuntu csomaglisatak, de nem talaltam semmit, ill. ezt:

http://trac.greenstone.org/browser/other-projects/trunk/mac-binaries/in…

amit elmentettem a megfelelo helyen, mint file. Ekkor mar nem irt hibat a konvertalasra, viszont a kimeneten (JPG) a magyar ekezetes karakterek teljesen rosszul szerepeltek, ezeket nem kezeli.

Probaltam meg a ps2ps2 parancsot is (PDF3-bol PDF2-t csinal), u.e. a hiba.

Valamilyen otlet esetleg?

GS konvertalasra eddig nagyon jol bevalt, alig kell neki plusz csomag, igazabol csak a legvegsobb esetben szeretnek ImageMagick-ra valtani, tekintve a csomaglista szamat, amelyet igenyel.

Koszi elore is.

Hozzászólások

ImageMagick nem sokkal igényel több függőséget szerintem, illetve nem tudom, hogy a helyszűke miatt viszolyogsz-e tőle, de még a tekintetben sem mondható soknak a mai világban.
Nálam pl. nagyon bevált a convert parancs PDF-ek JPG-re konvertálásánál és van egy gyanúm, hogy Ubuntuban default fönt van (fix me).

Alapbol sajnos nincs fent (nalunk).

Ezeket rantana magaval (szuz gepen neztem most):


The following extra packages will be installed:
  cmap-adobe-japan1 fontconfig ghostscript gs-cjk-resource gsfonts
  imagemagick-common libavahi-client3 libavahi-common-data libavahi-common3
  libcdt4 libcups2 libcupsimage2 libdatrie1 libdjvulibre-text libdjvulibre21
  libgd2-noxpm libgdk-pixbuf2.0-0 libgdk-pixbuf2.0-common libgraph4 libgs9
  libgs9-common libgvc5 libijs-0.35 libilmbase6 libjasper1 libjbig2dec0
  libjpeg-turbo8 libjpeg8 liblcms1 liblcms2-2 liblqr-1-0 libltdl7
  libmagickcore4 libmagickcore4-extra libmagickwand4 libnetpbm10 libopenexr6
  libpango1.0-0 libpaper-utils libpaper1 libpathplan4 librsvg2-2 libthai-data
  libthai0 libtiff4 libwmf0.2-7 libxft2 netpbm

mig a GS csak ezeket:


The following extra packages will be installed:
  cmap-adobe-japan1 gs-cjk-resource gsfonts libavahi-client3 libavahi-common-data 
libavahi-common3 libcups2 libcupsimage2 libgs9 libgs9-common libijs-0.35 libjasper1 
libjbig2dec0 libjpeg-turbo8 libjpeg8 liblcms2-2 libpaper-utils libpaper1 libtiff4

Ugyh ajjajj.

Ha mas megoldas nem lesz, akkor termeszetesen atallok.

Nos az otlet nagyon jo volt, nem is ismertem ezeket a kis toolokat, de az eredmeny sajnos u.a., mintha direct a GS-el konvertaltam volna (igaz, itt nem dobott hibat); az ekezetes karakterek problemaja.

Telepitek egy ImageMagick-et a fejlesztoi kornyezetre, kiprobalom azzal is.

Zsenialis, imagemagick fent, es a kimenet u.a.:


#convert input.pdf output.jpg
Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
Warning: falling back to Identity ordering
   **** Warning: can't process font stream, loading font by the name.
Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
Can't find CMap Identity-UTF16-H building a CIDDecoding resou   **** Error reading a content stream. The page may be incomplete.
   **** File did not complete the page properly and may be damaged.
   **** Warning: File has unbalanced q/Q operators (too many q's)

   **** This file had errors that were repaired or ignored.
   **** The file was produced by: 
   **** >>>> pdf3 <<<<
   **** Please notify the author of the software that produced this
   **** file that it does not conform to Adobe's published PDF
   **** specification.

Hat ez miez?

Koszi a meglatast / segitseget.

Tulajdonkeppen remekul elkinlodok a problemaval barmifele eredmeny nelkul. Nem talalja a fontot, most ugy nez ki ez lesz a baja:


#gs input.pdf
GPL Ghostscript 9.06 (2012-08-08)
Copyright (C) 2012 Artifex Software, Inc.  All rights reserved.
This software comes with NO WARRANTY: see the file PUBLIC for details.
Processing pages 1 through 1.
Page 1
Can't find CID font "Arial".
Attempting to substitute CID font /Adobe-Identity for /Arial, see doc/Use.htm#CIDFontSubstitution.
The substitute CID font "Adobe-Identity" is not provided either. attempting to use fallback CIDFont.See doc/Use.htm#CIDFontSubstitution.
Loading a TT font from /usr/share/ghostscript/9.06/Resource/CIDFSubst/DroidSansFallback.ttf to emulate a CID font Adobe-Identity ... Done.
Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
Warning: falling back to Identity ordering
Loading a TT font from /usr/share/ghostscript/9.06/Resource/CIDFSubst/DroidSansFallback.ttf to emulate a CID font CIDFallBack ..   
**** Warning: can't process font stream, loading font by the name.
. Done.
Can't find CMap Identity-UTF16-H building a CIDDecoding resource. 
Can't find CID font "Arial".
Attempting to substitute CID font /Adobe-Identity for /Arial, see doc/Use.htm#CIDFontSubstitution.
Loading a TT font from /usr/share/ghostscript/9.06/Resource/CIDFSubst/DroidSansFallback.ttf to emulate a CID font Adobe-Identity   
**** Error reading a content stream. The page may be incomplete.
   **** File did not complete the page properly and may be damaged.
 ... Done.
Can't find CMap Identity-UTF16-H building a CIDDecoding resource.

Azt olvastam valahol, hogy az jo h ha van fent arial, gyorsan tettem is fel:


apt-get install msttcorefonts

ill. lefutott egy


fc-cache -f -v

de eddig nem nyert hangszorot.

Most megprobalom ezt a font substitution-t valahogy, tulzottan sok (szamomra egyertelmu) leirast eddig nem talaltam.

Nos, kiprobaltam mindket altalatok javasolt megoldast, mindegyikkel tokeletesen mukodik.

Ha esetleg valaki meg belefutna, osszefoglalolag (lefrissitett Ubuntu Server 12.04 LTS-en neztem):

I. Megoldas

1. apt-get install msttcorefonts
2. pdftocairo -jpeg input.pdf output.jpg

II. Megoldas

1. apt-get install msttcorefonts
2. pdftoppm input.pdf output.ppm (bar elnevezi maganak, nem olvastam melyebben utana, csak tesztelni akartam)
3. ppmtojpeg -quality=100 output.ppm > input.jpg

Koszi mindenkinek!!

a problémás pdf filet meg tudod osztani?

szerk.: ja látom nem ilyen egyszerű... esetleg próbáld kiszedni belőle az érzékeny adatokat úgy, hogy a probléma megmaradjon :)