Debian squeeze + recoll (full text search)

Nem jól megy a recoll Squeeze alatt. "strace recollindex" parancsot futtatva látszik hogy az alábbi fájl típusokkal gyűlik meg a baja:

.abw .doc .lyx .rtf .std .xls

az .rtf formátum text-be konvertálásához telepítve van az unrtf csomag, de nem találja meg. .doc-hoz is van antiword illetve .xls-hez xls2csv, de ua. sikerült megoldanom linkek létrehozásával az alábbi módon:

ln -s /usr/share/recoll/filters/rclrtf ~/.recoll/unrtf

ln -s /usr/share/recoll/filters/rcldoc ~/.recoll/antiword

ln -s /usr/share/recoll/filters/rclxls ~/.recoll/xls2csv

a többi formátumot ki kellett sajnos vennem a globális beállításoknál:

Preferences / Indexing configuration / Local parameters / Global / Skipped names

és hozzáadni:

*.abw *.lyx *.std

mi lehet a gond? valami egyszerű elérési utat nem találhat recoll, és ezért semelyik típushoz sem látja a konvert progikat?

szerk.: tudna valaki ajánlani recoll helyett mást? én nem igen találtam namazu-n kívül használhatót.

log69 blogja
A hozzászóláshoz be kell jelentkezni
1011 megtekintés

DocFetcher
http://docfetcher.sourceforge.net/en/index.html

0 szavazat

A hozzászóláshoz be kell jelentkezni

maradok namazu-nál. gyors, szöveges, és egyszerű. 1,5 GB-nyi levelezésemből 13 000 fájlt 20 perc alatt leindexelt, 59 MB lett az index dir, és újra futtatva 8 sec alatt végez. recoll ennél sokkal lassabb, igaz, több mindent is tud.


apt-get install namazu2 namazu2-index-tools
mkdir ~/.namazu

mknmz -O ~/.namazu ~

namazu szöveg ~/.namazu

0 szavazat

A hozzászóláshoz be kell jelentkezni

A

recoll.conf

man-ja alapján úgy saccolom, hogy a

filtersdir

paraméter lehet elbaltázva.

Az abw tippem szerint az AbiWord saját formátuma, a lyx meg a LyX-é.

Én a recoll-omat nem adom egyébként, számomra nagyon fontos az okos lekérdezőnyelve. Nemrég több évnyi levlista-archívumot daraboltam mb2md-vel Maildir formátumra, betettem squashfs-be, majd a recoll-lal beindexeltem. Egy aranybánya.

Több különálló recoll könyvtáram / xapian adatbázisom van. Írtam egy kicsi shell script-et a zenity-re alapozva az adatbázisok közötti választásra, majd az IceWM-ben rákötöttem a Ctrl+Alt+R-re. Így nagyon kényelmes.

0 szavazat

A hozzászóláshoz be kell jelentkezni

ja nekem is nagyon tetszik a tool, meg a gui-ban a preview is kényelmes és jó, el is voltam vele, eddig nem volt gondom vele. gondolom a kiadás felé nagyobb a kapkodás, és néhány csomag nem kerül megfelelő mértékben tesztelésre.

viszont ahogy írtam is, a sebesség a namazu-hoz képest ég és föld.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A keresési sebesség, vagy az indexelési sebesség?

A keresési sebességre nekem sosem volt panaszom. Az indexelés tényleg nem túl gyors, de ha inkrementálisan csinálja az ember (mondjuk minden nap egyszer az új levelekre), akkor szerintem nem vészes.

Ha egyszerre kell óriási tömeget indexelni vele, akkor pedig jobb az adatbázist és az indexelendő fát legalább ideiglenesen külön diszkre tenni (rendes pörgettyűsre, vagy SSD-re, ha van olyan), mert az indexelés bizonyos DB méret fölött irdatlanul rángatja a fejet. Érdemes legalább a forrás olvasását függetleníteni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

a keresés azonnali, csak az újraindexelés sebességére van egy kis panaszom, de nem vészes. majd beteszem daily cron-ba.

a fejet nem hiszem hogy rángatja a vinyón a db miatt, mert az nekem olyan 245 MB, simán elfér a memóriában a cache-ben olvasáshoz. az írásom meg késleltetett írás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

ez a megoldás egyébként, kösz. csak a recoll man-ját néztem, eszembe juthatott volna a .conf is.


echo "filtersdir = /usr/share/recoll/filters" >> ~/.recoll/recoll.conf

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez valószínűleg egy csomagolási hiba egyébként; bizonyára van a recoll-nak alapértelmezett filtersdir-je, csak elfelejtették oda patch-elni, ahova a debian teszi a filter-eket.

0 szavazat

A hozzászóláshoz be kell jelentkezni

amint lesz időm utána nézek a bugreport-nak.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Debian squeeze + recoll (full text search)

Hozzászólások