[megoldva] Full text index tool

Fórumok

Sziasztok,

Nem találok olyan programot, amellyel sima plain text fájlokat le tudnák index-elni kereséshez. Parancssori eszközt keresnék Linux-ra.

Jelenleg 10+ GB-os mbox fájlok-ban szeretnék keresni gyorsan grep-pel. mairix bug-os szar ahogy van, pedig pont erre találták ki. grepmail jó, csak az ugye lassú.

Hogyan tudnék létrehozni parancssorból egyszerűen egy index-elt állományt, amelyben grep-pel tudnék gyorsan keresni? Pl. form mezőre szeretnék keresni, de úgy hogy az előző és utáni pár sort is lássam.

'mutt -R -f mboxfile' is megfelelő egyelőre, de ennél jobbat keresnék.

Köszi minden ötletet!

Megoldásom itt a blog-omban.

Hozzászólások

namazu-val van valakinek tapasztalata?

nézegettem már pár órája, de semmi használható doksit nem találok hozzá. csak néhány parancs minta kellene amin el tudok indulni.

ahogy látom, ez lenne nekem is jó, mert namazu fájlt ad vissza, amely a keresett kulcsszót tartalmazza, míg nekem az kellene, hogy a keresett kulcsszó "környezetét" kapjam vissza.

A Xapian-t tudom ajánlani, illetve az Omega-t ami egy frontend hozzá. Nagyon gyors, nem kell hozzá adatbázis kezelő, de a dokumentációja csapnivaló... :)

LouiSe
http://louise.hu

nem jutok előrébb se sphinx-szel, se xapian-nal. azt hiszem inkább szétdobatom a nagy mbox fájljaimat MH formátumra, majd namazu-val leindexeltetem, majd xargs grep.


mbox --> convert --> mh

mknmz -O indexdir mhdir

TEXT="text to search"

namazu -l "$TEXT" mhdir | xargs grep -i "$TEXT"

tud valaki jobbat? :)

Szia,

az index témához nem tudok hozzászólni, de ha pl. - mint írod - a From: mezőre és az előtte ill. utána levő sorokra akarsz keresni, nem lenne jó valami ilyesmi:

grep -B 1 -A 2 '^From:' mybigmailbox

(Nem tudtam tesztelni, nincs ekkora mailbox-om...)

Ottó