Parancssorból konvertálnék egyszerű, szögegyszerű XLSX-et (CSV-be kéne). Rögtön az elején tisztázzuk: a grafikus felületen a Save-as CSV (strukturált szöveg) *jól* csinálja.
A parancssori --convert-to problémája a szokásos ékezetes betűkkel (ő, ű) van. Ha ODS-be konvertálom, akkor jó az eredmény, viszont akár a kiinduló XLSX-et, akár a kovertált ODS-t próbálom CSV-be, fenti 2 betű helyett ?-et et (tényleges, fizikai kérdőjelet) rak bele a szövegbe - ami amúgy ISO-8859-1 (vagy -2?) - legalábbis a maradék ékezetes karakterek vizsgálata alapján. (Ez utóbbit iconv-val / recode-dal amúgy megoldanám.)
A loffice --help-ben szerepel egy txt kimenet, ahol lehet (a kimenetet) UTF-8-ra beállítani. Nos arra konkrétan hibát ad a konverter. ( Ez: --convert-to "txt:Text (encoded):UTF8" )
Szóval: valaki elárulja nekem, hogy hogyan tudnám elmagyarázni, hogy a CSV-m (vagy TSV-m, vagy bármi natív szöveges) UTF-8 legyen, azaz ezek a fenti (ő, ű) karakterek is fontosak a konverziónál.
(Ha nem muszáj, nem szeretném grafikusan megcsinálni, ugyanis 19 megyéből begyűjtött 1200 táblázatról van szó, amit összesíteni kell és elég lesz a végeredményt feldolgozni - amúgy shell-scripttel és csvq-val :-) )
- 134 megtekintés
Hozzászólások
No jó barátom csak megsegített, bár nem mindent értek belőle :-)
https://wiki.openoffice.org/wiki/Documentation/DevGuide/Spreadsheets/Fi…
Ezer éves, meg nem is az LO-ról szól, hanem az elődjéről. Viszont kell, mint egy falat kenyér, mert ebben szerepel az a táblázat, ami a bemeneti kódolásról szól (3. v. 4. paraméter) Ez alapján pedig megtaláltam az up-to-date (?) LO-hoz valót is:
https://help.libreoffice.org/latest/hu/text/shared/guide/csv_params.html
A lényeg:
--convert-to 'csv:Text - txt - csv (StarCalc):44,34,,33,,,true,'
vesszővel elválasztott mezők; idézőjel, mint sztringhatároló; a bemenet Win-1250 (Kelet-Európai Win); mindig ki van rakva az idézőjel a sztringek körül. Ezzel én már boldog vagyok, léphetünk tovább az adatok tisztítására és feldolgozására.
- A hozzászóláshoz be kell jelentkezni
Nagyonszép! Jobban már nem lehetett volna bonyolítani. Bár, még mindig jobb megoldás, mint behúzni valahonnan 3 tonna python meg js keretrendszert/függvénykönyvtárat.
- A hozzászóláshoz be kell jelentkezni
Shell script-ben én a --headless kapcsolót is használom a GUI nélküli módhoz.
- A hozzászóláshoz be kell jelentkezni
Egyetértek, de itt épp elhagyható:
$ libreoffice -h
...
--convert-to OutputFileExtension[:OutputFilterName] \
[--outdir output_dir] [--convert-images-to]
Batch convert files (implies --headless).
- A hozzászóláshoz be kell jelentkezni