Diverzitás/Entrópia

Fórumok

Adathalmaz elemzése diverzitás-entrópia-információnyereség alapján.

Azzal a céllal készítettem, hogy a sok-sok inputból ki tudjam szedni azokat, amelyek leginkább (vagy: egyáltalán) hatnak az output(ok)ra.

Lépések:

(1) Egyenként meghatározom az inputok diverzitását. A meghatározás alapja a Shannon féle képlet módosított formája. A módositás abból áll hogy az egyes p*log2(p) tagokat visszaosztom az adatosztályok (kvantálási szintek) számának 2-es alapú logaritmusával. Ez azt eredményezi, hogy a kapott érték mindig 0.00 és 1.00 között lesz, így az egyes inputok diverzitása azok kvantálási metódusától függetlenül összehasonlítható lesz. Más szavakkal:

A p(x)=1/2 -> H(x)=1 helyett az lesz, hogy H(x) = 1, ha az eloszlás az adatosztályok között egyenletes.

Az adatosztályok számát és a kvantálási szinteket úgy választom meg, hogy a H(x) értéke a legnagyobb legyen, ez biztosítja a legnagyobb diverzitást.

(2) Kiszámolom az egyes inputok outputra vonatkoztatott entrópiáit, szintén a módosított Shannon-képlettel (az inputnak outputra vonakozó particionált diverzitásainak összege).

(3) A kinyerhető információt úgy kapom meg, hogy az output diverzitásából kivonom a 2. pont szerinti összeget.

Teszteltem a módszert max 72 inputtal max 1.000.000 adatsorral, több adatbázison. Tapasztalataim szerint:

- a 0.9 fölötti diverzitások és a 0.9 alatti entrópiák már jól használhatók;
- a 0.1 fölötti kinyerhető információ már erős összefüggést takar;
- a 0.01 alatti kinyerhető információval rendelkező input gyakorlatilag zaj.

A szimpla adatelemzésen kívül tudom használni a módszert arra is, hogy különböző predikciós módszerek jóságát ellenőrizzem, kiválasszam közülük azokat, amelyeket érdemes kombinálni, javitva ezzel az előrejelzés minőségét.

Köszönöm a figyelmet: m.

Hozzászólások

Köszi a megosztást.

Hogy viselkedik olyan esetben, ahol 1-1 input nem hat a kimenetre, csak megfelelő inputok együttese. Lásd génszekvencia, ahol csak akkor jelenik meg egy örökletes betegség, ha az arra jellemző több pár is megtalálható?
Ugyanez általánosítva: multiparaméteres optimalizálás, ahol 1-1 paraméter tekergetése nem sok relevanciával bír.

Szerk: write only voltam, olvasgatom az oldalad és rájöttem hogy hülye a kérdés

Egy igen-nem rendszerben, ha egy konkrét diszkrét outputérték megjelenése csak akkor lehetséges, ha két vagy több input ugyanazt az értéket veszi föl, akkor a kérdéses inputok entrópiája hajszálra egyforma kell, hogy legyen.

Így első közelítésre, szerintem... Ilyet nem próbáltam még, ha van valahol ilyen jellegű adatbázis, azt szívesen megnézném ellenőrzésként.

> Sol omnibus lucet.

Ez így nem igaz, amit írtam, mert a géngyakoriságok különbözhetnek. De a számítás melléktermékeként keletkező kereszt_táblából ki lehet olvasni, ha egy tulajdonság megjelenéséhez géneknek (többnek is) ÉS kapcsolatban kell lennie.
(Az adott géneknél a tulajdonság kvantálási szintjéhez tartozó gén_diverzitás 0.00)

> Sol omnibus lucet.

Mire használod? (Adathalmaz előminősítésre?)

1. A zaj szintű inputokat ki lehet dobálni a rendszerből.
2. Összetett modelleknél ki tudom emelni azokat az elemeket, amelyek rontják az összképet (valójában ez is inputszűrés).

Szerintem több lehetőség is van benne, de nekem egyelőre ez kell. Megnéztem pl ezt a felvetést [https://hup.hu/node/164785#comment-2360880] és leszimuláltam egy több génes, 60+ ezres adatbázison, valóban kiemelhető a hibás gén egyszerűen az eloszlás_fv alapján.

Egyelőre ennyi. Azért tettem ezt ki a hup-ra, hogy jöjjenek a kérdések, javaslatok.

üdv: m.

ps.:

Most jut eszembe: Tavaly csináltam egy olyat, hogy kameráról érkező képek RGB csatornáinak az entrópiáját vittem be egy mérőrendszerbe. Az adott csatornán keletkező entrópiaváltozás egy tüskét húzott a mérőjelen. Ezt arra lehet használni (többek közt), hogy nem kell végignézni egy (biztonsági) kamerával készült felvétel teljes anyagát, csak a tüskék környékét. Eredetileg csöpögésvizsgálatra készült a megoldás, de aztán kiderült, hogy nem csöpög, hanem párolog (-::

Szóval szerintem ez is egy jó alkalmazás.

> Sol omnibus lucet.