Kaptam egy kész honlapot (több száz oldal), amelyen helyesírást kellene ellenőriznem. Van-e arra valami mód, szoftver, szkript, ami ellenőrzi ezeket az oldalakat, és ahol helyesírási hiba van jelez. Értelemszerűen az elgépeléseket, a hibás ő ű karaktereket, bennefelejtett elválasztásokat és hasonló dolgokat kellene keresnem.
Első (és fapados) elképzelésem, hogy mondjuk WGET-tel lekapom a site-ot és Libre Office-ban megnyitom egyesével az oldalakat és figyelem, hogy hol jelez.
Ha van erre valami kész program, vagy automatizálni lehetne a fenti műveletet és csak azokat az oldalakat hagyná meg a letöltött HTML fájlok közül, ahol javítandó kifejezést talál, az is elég lenne. Javítani úgyis csak a saját beviteli-felületén tudom a hibát. (Sajnos az adatbázishoz nincs hozzáférésem.)
Bármilyen ötlet érdekel!
- 4113 megtekintés
Hozzászólások
Én fő vonalaiban valahogy így csinálnám:
$ for html in *.html; do cat $html | html2text | hunspell -d hu_HU -i UTF-8 -l; done
A végén a hunspell -l kapcsolója miatt csak a hibásnak értékelt (vagy fel nem ismert) szavakat kapod meg a kimeneten, vagy ha beirányítod fájlba, akkor ott. Ha más a kódolás, akkor értelemszerűen módosít.
- A hozzászóláshoz be kell jelentkezni
Pont most kezdtem el nézegetni a Hunspell-t. Azt hiszem ez az, amit kerestem.
Köszönöm.
- A hozzászóláshoz be kell jelentkezni