Csoporton belüli homogenitás mérése mérőszámmal

Algoritmusok

Klaszterezés után az előálló klaszterek "minőségét" szeretném jellemezni mérőszámmal. A klaszterekben mondjuk betűk gyűlnek: AAA BBBBBCCE EEEEEF stb.

Ideális esetben a klaszterekben homogén lenne a tartalom, de az eset nem ideális, így alakulhat ki a fenti elrendezés.

Mivel többféle módszerrel történik ugyanazon adathalmaz klaszterezése, a létrejövő dendrogramokon pedig esetenként látszanak jobb elrendeződések (nagyobbak a homogén klaszterek, több homogén klaszter jön létre, mint más esetben), így valahogyan számszerűsíteni kéne ezeket a jobb elrendezéseket. Az nem elég, hogy "látszik". :-)

Ti hogyan oldanátok ezt meg?

264 megtekintés

Nem mondom, hogy értem, de ha tudod értelmezni a távolság fogalmát, tehát az ideálistól való eltérést, akkor a legkisebb négyzetek módszere akár még jó is lehet, mint amikor korrelációt vizsgálsz, illetve regressziós egyenes egyenletét - meredekség, offset - határozod meg.

tr '[:lower:]' '[:upper:]' <<<locsemege LOCSEMEGE

0 szavazat