Epic irodai fail, avagy MS Office 2007 vs Foxit reader vs Libreoffice

Ez eredetileg egy segítségkérő fórumtéma akart lenni, azt közben találtam egy megoldást, de akinek van jobb ötlete, az nyugodtan jelezze.
Foxit readerrel szoktam szöveget másolgatni PDF-ben megjelent cikkekből jegyzeteléshez wordbe, és leszámítva egy-két karaktert nem is szokott gond lenni (amúgy is csak jegyzet), de ilyet még nem láttam:

Na, azok az irdatlan hosszú vonalak szóközök akarnak lenni (előtte meg valami L karakterként jelentek meg, de úgy még olvasható maradt, szal leszartam, és úgy mentettem el, aztán következő megnyitásra lett ez). CTR+C CTR+V csere mezőben persze nem jelennek meg, és nem is cseréli őket a program se. Libreofficeban meg # ként jelennek meg, ahogy a PDF-ből másolok (itt legalább ki tudtam rendesen cserélni normál szóközre, aztán onnan vissza wordbe...)
Btw. jellemző, hogy komplexebb feladatok megoldására önmagában se az MS Office, se a Libreoffice nem alkalmas... persze lehet, hogy a Foxit reader a hibás, de Adobe-t nem vagyok hajlandó használni, annyi RAM sajnos nincs ebben a gépben.
Arra is kíváncsi lennék azért persze, hogy egy Okular hogy bírkózna meg ezzel...
Amúgy próbáltam keresni valami default szóköz távolságot is, de nem találtam meg. Mi a Jó Isten nyila ez? Van valakinek valami ötlete, hogy tudnám gyorsabban cserélni? Mert azért valljuk be, ez így nem kimondottan produktív, hogy először átmásolom libreofficeba, ott megformázom, majd át mswordbe, majd újra megformázom, mert ennyit ez nem ér...
Előre félek mi lesz akkor, ha céges környezetben kell ugyan ezt megoldanom, ahol nem lesz szabad választásom, hogy milyen szoftvereket használhatok...

Hozzászólások

Ha ez az, akkor a SumatraPDF-ből megfelelően lehet másolni a szöveget. (Egy ideje van hozzá böngésző-bővítmény is (Chrome, Firefox, Opera).) Ha nem az az, akkor adhatnál valami linket, hogy mindenki megnézhesse neked a kedvenc PDF-olvasójával.

:)

Igen, az az a pdf.
SumatraPDF, megnézem, thx!

update: Hálásan köszönöm, ezzel végre megy rendesen (legalábbis a szöveg kijelölés, de ne legyünk telhetetlenek :D )!

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

A Google Docs is megnyitja, így bővítmény sem feltétlenül kell. Szöveget másolni abból is lehet. (Nem tudom, melyik megoldás használ kevesebb memóriát, viszont a Google Docs valószínűleg a munkahelyeden is menni fog, ahol nem telepíthetsz semmit (persze csak nem titkos információkhoz).)

:)

Nem tudom, hogy hogy áll manapság az Adobe reader, de ahogy fentebb írtam, régebben rossz tapasztalataim voltak, pl. tetű lassú volt, megette az összes memóriát, a beépülőtől meghalt a böngézsző stb.
Nem szeretem.

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

Pár hetente (1-2, esetleg 3) biztosan frissül, már ott vigyorog rám a hülye updater. Amint frissül, reboot.

Reboot. 2012-ben.
Azért ez több mint poénos.

Egy mocsok userspace program, rebootot kér. Miért? Mi a fészkes fenének?
Ez olyan mintha a 7zip rebootot kérne. A Firefox. Az Opera. Bármi. Akár az XChat-WDK egy update után.

"Pár hetente (1-2, esetleg 3) biztosan frissül, már ott vigyorog rám a hülye updater."

Ez egész egyszerűen nem igaz. Közel sem.

"Amint frissül, reboot."

Biztos, nekem ilyen nem rémlik, bár lehet csak azért, mert engem nem ért ilyen feldolgozhatatlan traumaként az a havi max. 1 reboot. Amúgy meg az Adobe Reader nem csak userspace, de ezt te is tudod, csak trollkodsz :P

[ NeoCalc - Earnings Calculator for NeoBux ]

Telepakolja a rendszert a bővítményeivel (explorer, iexplorer, firefox, stb), amelyek sokszor hasznosak, viszont nem garantálhatja ezek rendes frissítését/működését, amíg nem indulsz újra (=az érintett alkalmazások is leállnak). Mi ezen olyan feldolgozhatatlan? :)

[ NeoCalc - Earnings Calculator for NeoBux ]

Ebben az a feldolgozhatatlan, hogy ami már fut, az a memóriában van. Ami ilyen függőség, ott az illető alkalmazást kellene újraindítani, nem a gépet.

Teszem azt, ha flash player-t frissítek, nem kell újraindítanom a gépet, de még a böngészőt sem, noha ez utóbbit célszerű, hogy már az újat használja.

Szerk.: Még kernel update után sem kell újraindítani a gépet, csak akkor, ha azt szeretném, hogy az új fusson.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

+1, bár gondolom alapvetőek a struktúrális különbségek a windows kernele és a *nix rendszerek között, de ne hogy a már a Microsoft és az Adobe programozói ne jussanak el arra a szintre 2012-re (pedig állítólag azért ők is tökös legények), hogy újra lehet indítani szolgáltatásokat is, vagy csak magát a GUI-t, ne pedig az egész rendszert!
Tudom, ott a szolgáltatáskezelő, de ha kézzel meg tudom csinálni, akkor egy program miért nem teheti meg automatikusan?

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

"Még kernel update után sem kell újraindítani a gépet, csak akkor, ha azt szeretném, hogy az új fusson."

Képzeld, Adobe update után sem kell újraindítani a gépet, nem lesz semmi baja, ha nem indítod újra, csak nem lesz kész a frissítés. Ahogy egy kernel update-nél sem.

A többi okoskodásra már reagáltam lejjebb.

[ NeoCalc - Earnings Calculator for NeoBux ]

Ez lenne a nem csak userspace? (Én vagyok a hibás, hogy valami érdekeset – mondhatni szaftosat – vártam. De hát az embert (mármint engem) néha izgalomba hozza (...) a levegőben lógó információ, mi több: tudás. Ha mégis van valami, kérlek ne tartsd magadban! Remegek érte!)

:)

ParserException. Az megvan, hogy egy PDF olvasorol folyik a beszelgetes? Az miert nem userspace program? Mi az a komponens, ami nem ott fut? Max IE beepuloje van, de az is legfeljebb egy bongeszo ujrainditas, semmi egyeb.

A linkre: sikerult egy totalisan irrelevans linket talalnod. Az Adobe Reader (es amugy az osszes Adobe program) ugyanugy frissul, mint a Windows, vagyis rendszeresen jonnek hozza ki security fixek, bugfixek, meg egyebek. Az, amit te a release notes-ban latsz, azok a letoltheto telepitok datumai, amikor is osszeszedik az addig kijott frissiteseket, es kiadjak oket egy setup formajaban. Nekem pl. volt hogy konkretan valami pici beepulo modulhoz jott ki bugfix.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Miután mindenki elkezdett lovagolni a userspace-en (igen, ez továbbra is userspace, elbasztam, jaj de izgi), inkább maradjunk annyiban, hogy kurvára mindegy, hogy hol fut ez a szar, a lényeg, hogy sokkal kisebb hibalehetőség van a gép újraindításában, mint listákat kezelni a bővített progikról, menedzselni azok újraindítását, megvárni a kedves user-t, hogy a session-jeit lezárja bennük, várni a válaszra, kezelni az esetleges hibákat, beragadásokat (kivéve, amikor ezt nem is lehet, mert annyira lefagyott az illető program), egyenként lefrissíteni a beépülőket, aztán egyesével újraindítani. De görcsöljetek ezen tovább nyugodtan, fúú, újra kell indítani a gépet negyedévente, most mi lesz...

[ NeoCalc - Earnings Calculator for NeoBux ]

Az OLE ojjektumok azok ilyen dinamikus cuccok, jonnek amikor kellenek, mennek amikor nem. A WDS mar jobb tipp, bar azt egy szerviz restart megoldja.

Amugy, erdekes modon, a flash playernel meg tudjak oldani, hogy varakozzon addig, amig a user bezarja a bongeszot. A Readernel miert nem? Koltoi kerdes, termeszetesen.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Megmutattam IRC-n arcoknak:

divVerent> that's LaTeX bitmap fonts
divVerent> they use weird encoding generated on the fly by TeX
divVerent> to use as few postscript fonts as possible and still have as many math stuff available without changing fonts all the time
divVerent> it is LaTeX+dvips generated postscript put throgh Adobe Distiller
divVerent> modern way is using pdflatex which writes "regular" font encoding
divVerent> basically, you won't find any tool to copy text from it
divVerent> convert it to bitmap then OCR it. I am serious.

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

Ezt az igényt sohasem értettem. A pdf nem szerkesztésre való. A pdf-ben adott koordinátára tesznek valamilyen algoritmussal előállítható dolgot, s a file-ban az algoritmusoknak, adatoknak, szövegnek egyáltalán nem kell a megjelenés szerint egymás után következni, mivel bármit bárhova lehet rakni, bármilyen pozícióba. Így aztán eleve bukik ez a kijelölöm, kimásolom elv.

Ez csak akkor működik, ha éppen olyan sorrendben vannak a file-ban az objektumok, mint a megjelenéskori helyük, azaz más szóval az objektumok koordinátája szigorúan monoton növekvő, ha a file-ban található helye szerint nézzük.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

Ha technikai szemszögből nézed, igazad van.
Szimpla mezei user számára viszont azért barátságosabb egy PDF, mert nem triviális az, hogy hogyan lehet módosítani, és az is általában utólag könnyen felfedezhető, így nem éri meg hamisítgatni, kvázi biztonságban van, amit egyszer leírtál.
Ellenben fennállhat az igény arra, hogy gyorsan, pl. jegyzetelés szempontjából egy-két dolgot kiragadjunk belőle. Tudom, tudom, print screen meg társai, de valljuk be, nem túl user friendly.

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

Értem, csak nem erre való. A pdf azért barátságos, mert szabványos, ezáltal platformfüggetlen. Magam sem küldök jellemző módon *.odt vagy *.doc file-t sehova, bár az előbbi még szabványos is. Kizárólag pdf-et, már feltéve, hogy valami doksit küldök.

Másfelől a pdf-et olvasni kell. Persze, szerencsés esetben úgy generálták, hogy lehet belőle másolni, de ezt nem várhatjuk tőle. Ezt tekintsük kivételes szerencsénknek.

Magam is generáltam már pdf-et php kódból, s tudom, hogy az illető objektum filebeli sorrendjétől függetlenül bárhova tehetem azt a papíron. Akár egymásra is írhatok betűket, vonalakat, képeket, bármit.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

Már miért ne várhatnánk? Szerintem teljesen természetes, hogy ha információt osztunk meg, azt úgy tesszük, hogy a legkönnyebben felhasználható legyen. Tehát igenis várhatjuk (és szemet hunyhatunk az esetleges kivételek fölött). Ha pedig mi készítjük a dokumentumot, törekednünk kell rá, hogy a legkisebb legyen a szopófaktor az információhoz való bármiféle hozzáférés során.

Másik: a szálindítóban linkelt PDF-et felolvassa a szövegfelolvasó? Az Adobe Readerben lévő nem...

:)

"teljesen természetes, hogy ha információt osztunk meg, azt úgy tesszük, hogy a legkönnyebben felhasználható legyen"

Új lehetsz az akadémiai életben :P

----------------------------------------------------------
"One should strive to achieve; not sit in bitter regret."
www.xonotic.org

Én a pdf-ről beszéltem. Természetesen semmi akadálya annak, hogy hozzunk létre egy olyan hordozható dokumentum formátumot, amelyben a másolhatóság, szerkeszthetőség szempont, s mindemellett szabványos is. Tehát miután létrehoztuk, fogadtassuk el a megfelelő szervezetekkel. Az odt egyébként nagyjából ilyen.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

Másképp mondom. A pdf nem alkalmas ezen elvárásnak való megfelelésre, bár megfelelően generált pdf file esetén ez teljesülhet. Ugyanakkor nincs arra nézvést semmilyen kritérium, hogyan kell generálni egy pdf file-t. A pdf arra való, hogy egy dokumentum elolvasható és kinyomtatható, hordozható, platformfüggetlen eredménye legyen. Ennyi, s nem több, s nem is kevesebb ennél.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

masolas != szerkeszthetoseg. Illetve, ami mar korabban is elhangzott: a masolhatosag segit az accessibility tooloknak is, pl. felolvasoprogik, hogy a szoveget megfeleloen fel lehessen olvasni (ezek jellemzoen nem OCR technologiakkal dolgoznak).

Es en is azon a velemenyen vagyok, hogy akarhova ha beszurok egy szoveget, az maradjon szoveg, es lehessen szovegkent kezelni, ne valtozzon at meglepetesszeruen keppe.

Mondok egy peldat: a weboldalakon ugye nem szempont a szerkeszthetoseg, az vagy van, vagy nincs. Viszont, szoveget kijelolni mindig lehet, masolni detto. Megse olyan formatum, ahol a szerkeszthetoseg szempont.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Igaz. Nem tudom, generáltál-e már pdf file-t. Bármit bárhova tehetsz benne. Nincsenek sorok, hasábok, ilyesmi. Van valamid, amit (x, y) helyre leteszel, aztán ennyi. A sor végén attól tud neline lenni, hogy kiszámolod, elérted-e a margót, s ha igen, a következő karaktert már (balmargó, y+sortávolság) pozícióba teszed. Mivel a karaktereket akár lóugrásban is leteheted, a renderelés után történő kijelölés alapján visszakeresni a pdf file-ban, hogy az honnan jött, nem egyszerű történet.

Azzal egyetértek, hogy ha szekvenciálisan generálták a pdf file-t, akkor működik a kijelölés, csak azt mondom, hogy ezt tekintsük szerencsének, mert nem feltétlenül van így.

tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE

Na, akkor vegyuk ezt at megeccer. Szoval, egyreszrol, ha a forrasfajlban nem adott meg senki semmilyen lougrast, meg egyebeket, akkor a PDF olvaso lesz szives lehetove tenni a masolast, mert ez azert nem egy olyan bonyolult eset. A gond ugye az, hogy a fenti PDF-nel valamiert a SZOVEGET ami eredetileg sima SZOVEG volt, bitmappe konvertaltak. Lesz szives ezt minden eszkoz hanyagolni, ha mar egyszer lehet fontot beagyazni.

Masreszrol, en, aki vagyok oly buta hogy nem ismerem a PDF fajl felepiteset, naivan azt gondolom, hogy ez valahogy ugy mukodik, hogy oregem, itt egy szoveg, ennek a betuit igy rakjad ki, ilyen sorrendben. Van egy kurzorom, lerakom a szoveg N-edik karakterenel (ezt meg lehet mondani, hiszen a pozicio ismert), majd kijelolok, akkor nagy elvaras, hogy a vagolapra az a szoveg keruljon ki, ami ez utan van? A poziciok alapjan (gondolom) fel lehet epiteni egy hashmapet, visszakeresem, hogy milyen sorrendben mentek ki a betuk oda, oszt annyi. Ez csak elsore hangzik bonyolultnak, magaban a programban minden rendelkezesre all hozza, egy kis logika kell hozza csak semmi mas.

Ha kell, vesszen el a formazas is akar, mit banom en, a betuk fontosabbak, mint az, hogy az most dolt, vagy alahuzott volt-e vajon talan.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

A pdf-olvasó azt teszi lehetővé, amit a fájl készítője megenged. Jogkövető esetben. Tehát ha a copy-paste tiltott, akkor az Adobe Reader nem fogja engedni a kimásolást.
A szöveg, amit a vágólapra raksz, az bájtok sorozata. Azoknak a bájtoknak a sorozata, amik a kijelölésben lévő grafikai elemeket azonosítják például a pdf-be beágyazott fontkészletben. Ott vagy valamely szabványos kódtábla+fontkészlet kerül felhasználásra, vagy pedig tetszőleges sorrendben berakva az összes, a dokumentumban használt karakter, n-től m-ig számozva, és ha kijelölsz egy szövegrészt, akkor az egyes karakterekhez rendelt értékek kerülnek a vágólapra.
A linkelt doksival is ez történt: Type3-as fontok, egyedi encoding. Vélhetően egyébként szándékosan, mert mint az elején említettem, a pdf-be belerakott "copy-paste tiltás" bitet nem minden olvasó veszi figyelembe...

A pdf a formázásról, arról szól, hogy pontosan hogy néz ki az adott oldal, hol, melyik pozícióban milyen grafikai elemet kell megjeleníteni. Szó nincs szövegről már.

"A pdf a formázásról, arról szól, hogy pontosan hogy néz ki az adott oldal, hol, melyik pozícióban milyen grafikai elemet kell megjeleníteni. Szó nincs szövegről már."

Ez addig igaz, amíg a pdf-et csak kinyomtatni akarod. Viszont ma már a digitális dokumentum publikálásnak is a standard formátuma lett (ami lehetőséget teremtett pl. hivatkozások, tartalomjegyzék, formok, javascript használatára), ahol viszont már van értelme másolható szövegről beszélni.

A pdf elsődleges célja a nyomtatásra/megjelenítésre szánt külalak megőrzése. Csinálhatsz vele olyat, amiből lehet szövegként kimásolni részeket, meg olyat, amiből nem. Sánta hasonlat, de gimp-ben csinálhatsz egy szöveges objektumot, amiből/be tudsz copy-paste, de ha a betűket görbékké konvertálod, netán az egész képet lapítod, akkor már nem.

A szóközök helyén ETX (\0x03) van, azaz End Of Text. Nem csoda, hogy megborul tőle a word. :) Én nem hiszem, hogy ez a foxit hibája lenne.

Mondanám, hogy foxitban válts át text only nézetre, és onnan másold ki (a látszat ellenére a ctrl-c szépen működik), de ha kimásolod, akkor az ETX-ek ugyan valóban eltűnnek, de nem cserélődnek le space-re, azaz szépen összefolynak a szavak.