[Megoldva általam] libreoffice --convert-to UTF-8

Fórumok

Parancssorból konvertálnék egyszerű, szögegyszerű XLSX-et (CSV-be kéne). Rögtön az elején tisztázzuk: a grafikus felületen a Save-as CSV (strukturált szöveg) *jól* csinálja.

A parancssori --convert-to problémája a szokásos ékezetes betűkkel (ő, ű) van. Ha ODS-be konvertálom, akkor jó az eredmény, viszont akár a kiinduló XLSX-et, akár a kovertált ODS-t próbálom CSV-be, fenti 2 betű helyett ?-et et (tényleges, fizikai kérdőjelet) rak bele a szövegbe - ami amúgy ISO-8859-1 (vagy -2?) - legalábbis a maradék ékezetes karakterek vizsgálata alapján. (Ez utóbbit iconv-val / recode-dal amúgy megoldanám.)

A loffice --help-ben szerepel egy txt kimenet, ahol lehet (a kimenetet) UTF-8-ra beállítani. Nos arra konkrétan hibát ad a konverter. ( Ez: --convert-to "txt:Text (encoded):UTF8" )

Szóval: valaki elárulja nekem, hogy hogyan tudnám elmagyarázni, hogy a CSV-m (vagy TSV-m, vagy bármi natív szöveges) UTF-8 legyen, azaz ezek a fenti (ő, ű) karakterek is fontosak a konverziónál.

(Ha nem muszáj, nem szeretném grafikusan megcsinálni, ugyanis 19 megyéből begyűjtött 1200 táblázatról van szó, amit összesíteni kell és elég lesz a végeredményt feldolgozni - amúgy shell-scripttel és csvq-val :-) )

Hozzászólások

No jó barátom csak megsegített, bár nem mindent értek belőle :-)

https://wiki.openoffice.org/wiki/Documentation/DevGuide/Spreadsheets/Fi…

Ezer éves, meg nem is az LO-ról szól, hanem az elődjéről. Viszont kell, mint egy falat kenyér, mert ebben szerepel az a táblázat, ami a bemeneti kódolásról szól (3. v. 4. paraméter) Ez alapján pedig megtaláltam az up-to-date (?) LO-hoz  valót is:

https://help.libreoffice.org/latest/hu/text/shared/guide/csv_params.html

A lényeg:

--convert-to 'csv:Text - txt - csv (StarCalc):44,34,,33,,,true,'

 

vesszővel elválasztott mezők; idézőjel, mint sztringhatároló; a bemenet Win-1250 (Kelet-Európai Win); mindig ki van rakva az idézőjel a sztringek körül. Ezzel én már boldog vagyok, léphetünk tovább az adatok tisztítására és feldolgozására.

Egyetértek, de itt épp elhagyható:

 

$ libreoffice -h

...

   --convert-to OutputFileExtension[:OutputFilterName] \                      
     [--outdir output_dir] [--convert-images-to]                               
                       Batch convert files (implies --headless).