Sziasztok!
Arra a feladatra keresek megoldást, hogy egy irtó nagy pdf fájlt lehet-e streamként megjeleníteni! A samba szerveren van egy 900Mb-os pdf, amit szeretnék hálózatról megnyitni, mindig csak az aktuális oldalt. Így nem kellene letölteni az egész majd egy gigát, hanem csak azt a pár száz bájtot ami éppen kell. A szerver is ubuntu, meg a kliens is. Van valami ötletetek? :)
Köszönöm!
- 4905 megtekintés
Hozzászólások
Gondolom van eleg hely a SAMBA-n.
pdftk -val kiexportalod oldalankent vagy ahogy akarod.
- A hozzászóláshoz be kell jelentkezni
Végülis lehetne, de jó lenne valami automatikus dolog, hogy ne kelljen mindig ilyen előkészületeket tenni.
- A hozzászóláshoz be kell jelentkezni
Adobe Reader nem így nyitja meg alapból?
- A hozzászóláshoz be kell jelentkezni
Ha a pdf linearizált (fast web view opcióval készült), akkor lehet olyat, hogy a teljes letöltődés előtt megjelenítődjön az elejétől kezdve, de tetszőleges oldalra ez szerintem nem működik.
Egyébként ez tényleg elég extrém méret, mitől ilyen nagy, scannelt dokumentum?
- A hozzászóláshoz be kell jelentkezni
Igen, szkennelt, és nem én szkenneltem. Lehet egyszerűbb lenne valahogy átméretezni, erre még nem is gondoltam. Akkor menjünk el inkább ebbe az irányba! :)
- A hozzászóláshoz be kell jelentkezni
Inkabb fel kene darabolni 25-40-50 oldalas darabokra. Vagy fejezetekre... Valszeg egy joliranyzott `psfnup` (vagy barmi ekvivalens) megcsinalja, es akkor nem nagyon kell vacakolni semmivel ;)
- A hozzászóláshoz be kell jelentkezni
Csak akkor megint fel kell másolnom az egészet az eszközre, igaz nem egyben, hanem darabokban. Nem vagyok közelebb a célhoz.
Szerk: Próbáltam egy Pdf Compressor nevű csodát! Csodás! A 900Mb-ból megspórolt 66Kb-ot! Töröltem, a téma még mindig aktuális! :(
Szerk2: Most ezzel próbálkozom, meglátjuk mit tud:
$ gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -sOutputFile=output.pdf .input.pdf | grep Page
A végére a grep egy kis trükk, nem írkál mindenfélét feleslegesen, csak az aktuális oldalszámot :)
Szerk3: Ez sem bír vele. A 152, oldalig elmegy, aztán elszáll mint a héliumos lufik. :(
Szerk4: GScan2Pdf a következő próba. Ez is elvérzett, noha töltöttem hozzá magyar nyelvű szótárat is.
- A hozzászóláshoz be kell jelentkezni
De, működik tetszőleges oldalra, de csak akkor, ha olyan kliensed (értsd: PDF-nézegetőd) van, amely ezt tudja.
Az Acrobat csak abban az esetben megy "web view"-ban, ha http-n kapja a fájlt (mert az stream), tehát samba alól nem fog menni (mert az fájl). Arról, hogy más PDF-olvasók hogy működnek, fogalmam sincs, de végső elkeseredésemben én pl. megpróbálkoznék a Chrome-mal.
- A hozzászóláshoz be kell jelentkezni
Ha szkennelt, akkor valószínűleg jpg-k az oldalak, azt nehéz lesz tömöríteni...
Esetleg OCR?
- A hozzászóláshoz be kell jelentkezni
Van valami konkrét tipped az OCR-re?
- A hozzászóláshoz be kell jelentkezni
Tesseract. Yagf frontenddel egész kezes. Mondjuk azt nem tudom, hogy pdf-ből megy-e direkt, vagy ki kell bontani a képeket.
A fentebbi ghostscript parancs a memóriát zabálja fel?
Esetleg ha a pdf nem követelmény, akkor konvertálhatod djvu-ba, az kisebb lesz.
- A hozzászóláshoz be kell jelentkezni
Nekem már az is jó, ha valami ebook-ba megy. Ki is próbálom a calibre-t!
- A hozzászóláshoz be kell jelentkezni
Beszarás. A calibre elszuttyogott vele pár órát míg áttette mobi-ba, és még nagyobb lett mint volt. Beszarás. :(
- A hozzászóláshoz be kell jelentkezni
A nem tömöríthető képek nem mindegy, miben vannak? A PDF is csak egy konténer nekik, meg a mobi is.
Nem csoda, hogy nem lesz kisebb a fileméret.
Exportáld ki a képeket, és tényleg már azt az oldalt látod csak, amelyiket akarod.
- A hozzászóláshoz be kell jelentkezni
+1 a képek kiszedésére. Erre amúgy van is egy shell scriptem, kihasználja az összes CPU magot.
tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni
Ha a képek maradnak, a djvu lesz csak kisebb.
Vagy még próbálkozhatnál a képek szürkeárnyalatosra konvertálásával, illetve a felbontásuk lerontásával, valami olyan gépen, ahol van elég ram a ghostscriptnek. Vagy acrobat distillerrel, ha hozzáférsz valahol.
- A hozzászóláshoz be kell jelentkezni