html táblázat > valami normális formátum

Fórumok

Van egy rakás html táblázatom amit a R-project számára emészthető alakba kellene hoznom. Tud valaki valami normális eljárást arra, hogy valami egyszerű TAB-al határolt szöveges fájlt képezzek belőlük, vagy esetleg egy az OOo által beolvasható formátumot?

Hozzászólások

1.) szövegfeldógózó programok?
2.) valami tetszőleges, számodra kedves "nyelven" valami script?

--
trey @ gépház

Nézd meg ezt. Van hozzá forráskód is, ha többet akarsz kihozni belőle.

en sed-el probalkoznek, es CSV file-t gyartanek belole, amit ooCalc siman olvas
eloszor vagd ki a <table> es </table> kozti reszeket, aztan irtsd ki az ujsor karaktereket
majd a maradekot kuldd at a sed-en
a kovetkezo regexpek segithetnek:

minden adat utan pontosvesszot tesz
s@</td>@;@g

uj sor karaktert szur be oda, ahova kell
s@</tr>@\n@g

a maradek html tageket kiirtja
s@<[^>]*>@@g

Ez a te barátod
html2text - an advanced HTML-to-text converter

vagy csak próbáld meg a paste special-t ooo-ban