Csoporton belüli homogenitás mérése mérőszámmal

Fórumok

Klaszterezés után az előálló klaszterek "minőségét" szeretném jellemezni mérőszámmal. A klaszterekben mondjuk betűk gyűlnek: AAA BBBBBCCE EEEEEF stb.

Ideális esetben a klaszterekben homogén lenne a tartalom, de az eset nem ideális, így alakulhat ki a fenti elrendezés.

Mivel többféle módszerrel történik ugyanazon adathalmaz klaszterezése, a létrejövő dendrogramokon pedig esetenként látszanak jobb elrendeződések (nagyobbak a homogén klaszterek, több homogén klaszter jön létre, mint más esetben), így valahogyan számszerűsíteni kéne ezeket a jobb elrendezéseket. Az nem elég, hogy "látszik". :-)

Ti hogyan oldanátok ezt meg?

Hozzászólások

Nem mondom, hogy értem, de ha tudod értelmezni a távolság fogalmát, tehát az ideálistól való eltérést, akkor a legkisebb négyzetek módszere akár még jó is lehet, mint amikor korrelációt vizsgálsz, illetve regressziós egyenes egyenletét - meredekség, offset - határozod meg.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

Az nem világos a megfogalmazásból, hogy mit értesz "homogén" alatt.

Akkor homogén egy klaszter, ha csak egyféle betű van benne, vagy akkor, ha minden betűből ugyanannyit tartalmaz (vagyis homogén eloszlású)?