Debian squeeze + recoll (full text search)

Nem jól megy a recoll Squeeze alatt. "strace recollindex" parancsot futtatva látszik hogy az alábbi fájl típusokkal gyűlik meg a baja:

.abw .doc .lyx .rtf .std .xls

az .rtf formátum text-be konvertálásához telepítve van az unrtf csomag, de nem találja meg. .doc-hoz is van antiword illetve .xls-hez xls2csv, de ua. sikerült megoldanom linkek létrehozásával az alábbi módon:

ln -s /usr/share/recoll/filters/rclrtf ~/.recoll/unrtf
ln -s /usr/share/recoll/filters/rcldoc ~/.recoll/antiword
ln -s /usr/share/recoll/filters/rclxls ~/.recoll/xls2csv

a többi formátumot ki kellett sajnos vennem a globális beállításoknál:

Preferences / Indexing configuration / Local parameters / Global / Skipped names

és hozzáadni:

*.abw *.lyx *.std

mi lehet a gond? valami egyszerű elérési utat nem találhat recoll, és ezért semelyik típushoz sem látja a konvert progikat?

szerk.: tudna valaki ajánlani recoll helyett mást? én nem igen találtam namazu-n kívül használhatót.

Hozzászólások

maradok namazu-nál. gyors, szöveges, és egyszerű. 1,5 GB-nyi levelezésemből 13 000 fájlt 20 perc alatt leindexelt, 59 MB lett az index dir, és újra futtatva 8 sec alatt végez. recoll ennél sokkal lassabb, igaz, több mindent is tud.


apt-get install namazu2 namazu2-index-tools
mkdir ~/.namazu

mknmz -O ~/.namazu ~

namazu szöveg ~/.namazu

A

recoll.conf

man-ja alapján úgy saccolom, hogy a

filtersdir

paraméter lehet elbaltázva.

Az abw tippem szerint az AbiWord saját formátuma, a lyx meg a LyX-é.

Én a recoll-omat nem adom egyébként, számomra nagyon fontos az okos lekérdezőnyelve. Nemrég több évnyi levlista-archívumot daraboltam mb2md-vel Maildir formátumra, betettem squashfs-be, majd a recoll-lal beindexeltem. Egy aranybánya.

Több különálló recoll könyvtáram / xapian adatbázisom van. Írtam egy kicsi shell script-et a zenity-re alapozva az adatbázisok közötti választásra, majd az IceWM-ben rákötöttem a Ctrl+Alt+R-re. Így nagyon kényelmes.

ja nekem is nagyon tetszik a tool, meg a gui-ban a preview is kényelmes és jó, el is voltam vele, eddig nem volt gondom vele. gondolom a kiadás felé nagyobb a kapkodás, és néhány csomag nem kerül megfelelő mértékben tesztelésre.

viszont ahogy írtam is, a sebesség a namazu-hoz képest ég és föld.

A keresési sebesség, vagy az indexelési sebesség?

A keresési sebességre nekem sosem volt panaszom. Az indexelés tényleg nem túl gyors, de ha inkrementálisan csinálja az ember (mondjuk minden nap egyszer az új levelekre), akkor szerintem nem vészes.

Ha egyszerre kell óriási tömeget indexelni vele, akkor pedig jobb az adatbázist és az indexelendő fát legalább ideiglenesen külön diszkre tenni (rendes pörgettyűsre, vagy SSD-re, ha van olyan), mert az indexelés bizonyos DB méret fölött irdatlanul rángatja a fejet. Érdemes legalább a forrás olvasását függetleníteni.

a keresés azonnali, csak az újraindexelés sebességére van egy kis panaszom, de nem vészes. majd beteszem daily cron-ba.

a fejet nem hiszem hogy rángatja a vinyón a db miatt, mert az nekem olyan 245 MB, simán elfér a memóriában a cache-ben olvasáshoz. az írásom meg késleltetett írás.