Sziasztok!
Fogalmam sincs, hogy lehetne szöveg-részletet keresni OpenOffice.org dokumentumokban. Van valakinek ötlete? Elsősorban az ODT formátumban való keresés érdekelne.
És ha már, akkor a M$ doc-ban való turkálás is érdekelne.
- 1184 megtekintés
Hozzászólások
Nocsak! Nehezet kérdeztem?
- A hozzászóláshoz be kell jelentkezni
Hát, ha ez segít akkor az OOo fileok közönséges zip fájlok.
Kinyitod egy temp dirbe unzippel, megkeresed a létrejövő content.xml fájlt. Nem nehéz kitalálni, ez egy xml, benne van a tartalom xml formátumban. Eltávolítod belőle a tageket, és megvan a tartalom szövegként. Ebben lehet keresni pl greppel, vagy regexppel :-)
A pontos részletek programnyelvtől függenek, gondolom sok nyelvnek van ilyen fájlokat kezelő könyvtára, lehet célszerű azt használni, nem újraimplementálni.
Csaba
- A hozzászóláshoz be kell jelentkezni
Köszi! Innen már el lehet indulni. :)
A wines doc valószínűleg fogósabb (A melóhelyen vegyesen vannak OOo és word fájlok, és senki sem talál soha semmit.).
- A hozzászóláshoz be kell jelentkezni
Én csináltam ilyesmit, tán még meg is van a szkript valahol; de a zip bontogatás miatt nagyon lassú lett...
Éppen ezért volt egy fixa ideám is - amit végül nem teljesen valósítottam meg - hogy a szerver éjszakánként az előre megadott helyekről szedegesse ki a szöveges tartalmakat mindenféle új/megváltozott dokumentumokból, és indexelve pakolja sql adatbázisba, ahol pillanatok alatt kereshetővé válik.
Röhej, de végül azért nem fejeztem be, mert a képként pdf-ben tárolt (szkennelt) dokumentumok OCR-ezésére nem találtam megbízható automatizált megoldást, és a legfontosabb dokumentumok pont így voltak letárolva...
Egy egyszerűbb, de szintén webes - alternatívát is csináltam, ahol .txt tükreit hoztam létre az új/megváltozott dokumentumoknak, és azokat lehetett greppelni, még mindig több nagyságrenddel gyorsabban, mint az eredeti .odt-ket.
---
Mondjon le!
- A hozzászóláshoz be kell jelentkezni
Meg vannak ezek a desktop (search) utility-k mint pl. ez.
- A hozzászóláshoz be kell jelentkezni
Vagy peldaul Perl-hez vannak ilyen modulok
perl -MCPAN -e shell
i /OOdoc/
- A hozzászóláshoz be kell jelentkezni