#1: adatbazis epitese
- legyen 2 halmazod: spam komment, jo komment
- az egyes szavak* gyakorisagat szamold meg mind a ket mintaban (tarold is el valahogy)
#2: uj komment kategorizalasa:
- bontsd szavakra a beerkezo kommentet
- nezd meg, hany jo ill. spam kommentben szerepeltek
- alkalmazd ra kedvenc Bayes, Chi-negyzet, Markov-lanc, whatever algoritmusod, ami kidob egy valoszinuseget
- az eredmeny alapjan dontsd el a komment sorsat
Nem is volt nehez, igaz? :-)
*: a szavak helyett / mellett kifejezeseket is vizsgalhatsz
--
t-systems-es it architect allast keres. Jelige: csak webshopot ne kelljen...