PDF konvertálás hatékonyan, formázás visszanyeréssel

Adott egy PDF fájl, ami tartalmaz táblázatokat, diagramokat. A cél az lenne, hogy a táblázatok tökéletesen megtartsák eredeti formátumukat a doc-ba való konvertálás után, a diagramok feliratainak betűtípusát, méretét pedig szintén lehessen változtatni. Sajnos a kérdéses dokumentum már csak PDF-ben áll rendelkezésre.
A Nitro PDF, online konverterek lehangoló kimeneti állományokat szolgáltattak.

Hozzászólások

A pdf formátum sajna eléggé másként kezeli ezeket a dolgokat, szóval hibátlan "visszakonvertálásra" csekély az esély. Régebben egy-egy oldalt corel-ba tudtunk úgy behívni, hogy kis kompromisszumokkal rendesen szerkeszthető lett, de ha ez működik is, nem tudom, hogy onnan tovább doc-ba mehet-e? Meghát nincs ingyen.
Inkscape még egész jól importál pdf-et, de az meg rajzprogram, csak 1-1 oldalt tud egyszerre, és szövegszerkesztőknek emészthető outputja nincs (mivel hogy nem is erre lett kitalálva).
A "hivatalos" és elvben jól működő megoldás az adobe acrobat pdf to word konvertere, de az meg nem olcsó. Mondjuk ők legalább biztosan jól ismerik a pdf technológiáját :)

Word 2013-at próbáltad már?

Üdv,
Marci

A semminél több :) btw, én se sokat használtam, csak próba szinten, hogy egy "standard" minőségű doksival mit kezd, hát eléggé katasztrófa, de más program se lesz sokkal jobb.

Viszont így legalább a "PDF nem arra való" vitában a userek ezentúl hozhatják a téves érvet, hogy "dehát a Windows (sic!) megnyitja"...

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

ABBYY FineReader? Szintén nem olcsó, de még a 9-es-ből volt vásárolt példányunk,az sem volt olyan rossz. Azóta biztosan fejlődött. OmniPage is volt régebben, nem tudom, hogy létezik-e még.

Nekünk a Foxit Phantom PDF vállt be a legjobban, de ha egy kicsit is rámhallgatsz, akkor igazából hagyod a copy-paste szórakozást a francba, mert csak több időd fog vele elmenni, mintha fogod magad,és megcsinálod kézzel a táblázatot (persze ha nem időkritikus a dolog, el lehet vele játszogatni, de ennél értelmesebben is el lehet tölteni az időt, vagy más baromsággal is :D ).

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

A pdf-ben nem táblázat, meg sor, meg bekezdés és hasonlók vannak, hanem vonalak, betűk és más grafikai elemek, amik a lap megadott koordinátáján helyezkednek el.
Ebből összerakni, hogy az elemek adott részhalmaza egy táblázat x. sorának y. oszlopában függőlegesen középre helyezve, balra sorkizártan helyezkedik el... Nos, eléggé szép feladat.

a dokumentumok többségét nem PDF-ként hoznák nyilvánosságra...

-1
Arra legalábbis mindenféleképpen, hogy NE legyen pdf. A doc-fájlok nyomtatása... nos, eléggé gép, nyomtató, oprendszer, stb. függő. Mindig azt tanácsolom kollegáknak, ismerősöknek, hogy ha "idegen" helyen akarod kinyomtatni, akkor a saját gépeden exportálod pdf-be, és azt nyomtatod ki az "idegen" helyen - kisebb eséllyel ér (kellemetlen) meglepetés, mikor a nyomtatott verziót meglátod :)

Részint -1: teljesen korrekt megoldás, amit az LO csinál, hogy beágyaztatható vele a PDF-be a forrás doksi, így két légy egycsapás. A PDF megjelenítési hűsége, az odt esetleges szerkesztési lehetőségével.

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

Nem egészen. Mivel soha életemben nem dolgoztam Wordben (sőt, semmilyen szövegszerkesztőt nem ismerek mélyebben, mint egy XXX for Dummies első fejezete), elég furcsa lenne, ha mégis .doc-ban tartanám az anyagaimat.

Sőt, azok a neten található PDF-ek amelyek normális helyről származnak, többnyire nem Wordből lettek exportálva. Egyszerűen azért, mert a Word, a Writer és társaik egyszerűen szövegszerkesztők, ennek normális helyeken tudatában vannak, és a helyükön kezelik őket.

Aztán ha van .doc, akkor kellenének a kapcsolódó .xls-ek és hasonlók is, mi?! Nem szeretnél túl sokat? :D

(Most éppen egy .docx-be ágyazott chart adatait operálom ki úgy, hogy a .docx-et felnyitottam LO-ban, abban kinyitottam a chartot szerkesztésre, lementettem, kitörmörítettem, és a content.xml-ből másolom ki az adatokat. Mert a háttér .xlsx megszerzése kissé időigényes lenne...)

Ez ismerős :S
Arra figyelj, hogy teljesen abszurd pontossággal tárolja el az adatokat, ha CSV-ként olvastatod vissza, egész nagy kerekítési hibákat képes produkálni (najó, vagy 8 tizedesjegyig még így is pontos marad, de...) :)

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

Gondolom nem acrobat-ban vagy más, natívan csak pdf-et ismerő alkalmazásban kreálod a doksikat, ergo van azoknak valamilyen szerkeszthető, natív formátumuk, amikből a végtermék a pdf állomány. Direkt használtam a forráskód és lefordított bináris hasonlatot :)
Nekem is megvan pl. az összes általam szerkesztett Linux konf. kiadvány LaTeX forrásostól, word doksistól (mert volt szerző aki azt küldött), meg minden egyéb cafrangostól - miközben a végtermék egy-egy pdf-állomány lett, amit első körben a nyomda kapott meg, második körben meg elektronikus verzióként került publikálásra (konf. weboldal, MEK). Volt olyan szerző, aki az imprimatúra (nyomdakész cikk) LaTeX forrását is elkérte a konferencia után - és oda tudtam neki adni, hiszen a nyomdakész pdf elkészülte után nem lett(ek) letörölve a forrásként használt fájl(ok).

Természetesen archiválva van a „forráskód”. De azt hiába kérik tőlem PHP-ben, ha egyszer Javában írtam :)
Ugyanis a kérés általában nem az, hogy valamilyen szerkeszthető formában kérik, hanem, hogy .doc-ban. A topicnyitó is arról szól, hogy .doc-ban szeretnének egy anyagot viszontlátni.

Másik nagy kedvencem, amikor 2015-ben 90-es anyagokat kér tőlem egy szerző. Egyesek teljesen természetesnek tartják, hogy a tördelőnek megvan az, ami sem nekik, sem a kiadónak…
Mondjuk tényleg mindent elteszek, egyszer jó lesz alapon, de ma kinyitni 15-20 évvel ezelőtti forrásanyagokat használhatóan, nem egyszerű feladat.

Amatőr ötlet: PDF->pixeles->OCR ?

Vannak OCR-ek, melyek a világosan felismerhető táblázatokat felismerik.

De az csak ötlet, ilyet még nem csináltam, nem tudom, hogy működne.

LibreOffice? Minden szövegdobozban lesz, kényelmetlen, de formázható.