Keresés ODF-ben hogy?

Sziasztok!
Fogalmam sincs, hogy lehetne szöveg-részletet keresni OpenOffice.org dokumentumokban. Van valakinek ötlete? Elsősorban az ODT formátumban való keresés érdekelne.
És ha már, akkor a M$ doc-ban való turkálás is érdekelne.

Hozzászólások

Hát, ha ez segít akkor az OOo fileok közönséges zip fájlok.

Kinyitod egy temp dirbe unzippel, megkeresed a létrejövő content.xml fájlt. Nem nehéz kitalálni, ez egy xml, benne van a tartalom xml formátumban. Eltávolítod belőle a tageket, és megvan a tartalom szövegként. Ebben lehet keresni pl greppel, vagy regexppel :-)

A pontos részletek programnyelvtől függenek, gondolom sok nyelvnek van ilyen fájlokat kezelő könyvtára, lehet célszerű azt használni, nem újraimplementálni.

Csaba

Én csináltam ilyesmit, tán még meg is van a szkript valahol; de a zip bontogatás miatt nagyon lassú lett...

Éppen ezért volt egy fixa ideám is - amit végül nem teljesen valósítottam meg - hogy a szerver éjszakánként az előre megadott helyekről szedegesse ki a szöveges tartalmakat mindenféle új/megváltozott dokumentumokból, és indexelve pakolja sql adatbázisba, ahol pillanatok alatt kereshetővé válik.
Röhej, de végül azért nem fejeztem be, mert a képként pdf-ben tárolt (szkennelt) dokumentumok OCR-ezésére nem találtam megbízható automatizált megoldást, és a legfontosabb dokumentumok pont így voltak letárolva...

Egy egyszerűbb, de szintén webes - alternatívát is csináltam, ahol .txt tükreit hoztam létre az új/megváltozott dokumentumoknak, és azokat lehetett greppelni, még mindig több nagyságrenddel gyorsabban, mint az eredeti .odt-ket.

---
Mondjon le!

Vagy peldaul Perl-hez vannak ilyen modulok


perl -MCPAN -e shell
i /OOdoc/