Klaszterezés után az előálló klaszterek "minőségét" szeretném jellemezni mérőszámmal. A klaszterekben mondjuk betűk gyűlnek: AAA BBBBBCCE EEEEEF stb.
Ideális esetben a klaszterekben homogén lenne a tartalom, de az eset nem ideális, így alakulhat ki a fenti elrendezés.
Mivel többféle módszerrel történik ugyanazon adathalmaz klaszterezése, a létrejövő dendrogramokon pedig esetenként látszanak jobb elrendeződések (nagyobbak a homogén klaszterek, több homogén klaszter jön létre, mint más esetben), így valahogyan számszerűsíteni kéne ezeket a jobb elrendezéseket. Az nem elég, hogy "látszik". :-)
Ti hogyan oldanátok ezt meg?
- 263 megtekintés
Hozzászólások
Nem mondom, hogy értem, de ha tudod értelmezni a távolság fogalmát, tehát az ideálistól való eltérést, akkor a legkisebb négyzetek módszere akár még jó is lehet, mint amikor korrelációt vizsgálsz, illetve regressziós egyenes egyenletét - meredekség, offset - határozod meg.
tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni
Az nem világos a megfogalmazásból, hogy mit értesz "homogén" alatt.
Akkor homogén egy klaszter, ha csak egyféle betű van benne, vagy akkor, ha minden betűből ugyanannyit tartalmaz (vagyis homogén eloszlású)?
- A hozzászóláshoz be kell jelentkezni
Egyneműséghez keresek valamilyen mérőszámot. Most az entrópiát próbálom belerángatni ebbe a történetbe, de ha van bárkinek ötlete, szóljon!
- A hozzászóláshoz be kell jelentkezni