Eloszlás ferdeségének mérése másképp

https://i.imgur.com/fwOoZZN.png

https://i.imgur.com/XORla1A.png

Legutóbb bemutattam egy egyszerű és könnyen érthető eljárást egy adatsor 3 értékkel való jellemzésére. Ezek a jellemző alacsony, közép és magas értékek voltak. Gyorsan és világosan beszélnek a számokról. Közép értéknek az aritmetikai átlagot használom. Magas értéknek pedig az átlagnál nagyobb értékek átlagát.

Ha 1 értékkel akarunk jellemezni egy adatsort, akkor a közép értéket javaslom megmutatni. Ha 2-vel akkor a közép és magas értéket. Ez utóbbi általában mindig fontosabb az alacsony értéknél, mert az eloszlások teteje majdnem mindig exponenciális, ezért itt vannak jellemzőbben a ritka értékek.

Ha csak az átlagok értelmezésénél maradunk, akkor az adat szórásához használhatjuk a jellemző alacsony és magas értékek különbségét. Ez azt mutatja, hogy milyen erősen szór a közép érték körül. A tengernek mindig azonos a vízszint magassága (átlag), de a hullámok lehetnek 10 centisek vagy 10 méteresek is (szórás).

Relatív szóráshoz (coefficient of variation) eloszthatjuk ezt az értéket az átlaggal.

 

Kellhet még ezen kívül az adat ferdeség mértéke, mely az eloszlás szimmetriájának torzulását mutatja. Ekkor az átlagtól kisebb és nagyobb értékek száma nincs arányban. Lásd “skewness” statisztikai mutató leírását.

Az átlagtól jobbra eső intervallum nagyságot (felső és közép érték különbsége, jobb oldali kapcsos zárójel a második képen) osztom a balra esővel. Ekkor az eloszlás alsó és felső részének súly arányát kapom meg. Lehet 1-nél nagyobb vagy kisebb. De mivel az osztás nem szimmetrikus, ezért log transzformációt végzek. Ekkor a kétszer nagyobb felső szint ugyanakkora ferdeség értéket mutat pluszban, mint a kétszer akkora alsó szint mínuszban.

Az alábbi módon számítom:

ML = mean low (jellemző alacsony érték)
M = mean (jellemző közép érték)
MH = mean high (jellemző magas érték)

( MH – M ) / ( M – ML ) →
LN[ ( MH – M ) / ( M – ML ) ] →
LN( MH – M ) – LN( M – ML )

Példa:

1  2  3  4  5  6  7

Standard → 0
Saját → 0

1  1  1  3  4  4  5  7  17  38

Standard → 2.37
Saját → 1.39

0  1  10  19  22  24  29  31  34  36

Standard → -0.603
Saját → -0.405

1000 db vegyes és néha kevert eloszlású véletlen adatot vizsgáltam és a standard skewness értéküket hasonlítottam össze a saját ferdeség mérésemmel, mely 84.9%-os korrelációt ad, lásd az első képet. Többszöri mérés is ez körül szór.

Intuitív módon könnyebben befogadható mutatónak tartom ezt a számítást. Az értelmezése pedig az, hogy mennyire torz a magas és alacsony értékek aránya.

 

Mire jó ez?

Például egy cégnél a jellemző fizetések torzulását mutatja. Ha kevés milliós fizetés van, de sok a 300 ezres körüli, akkor pozitív értéket kapunk. Ezzel több cégnél össze tudjuk hasonlítani a torzulás mértékét. Vagy a népesség kor eloszlásában láthatjuk, hogy a fiatalok vagy idősek vannak túlsúlyban.

Habár egy grafikus eloszlás mindig több infót ad emberileg, azokat nem tudjuk összehasonlítani egymással egyszerűen. Például ha több országban mérjük a kor torzulást, akkor numerikus értékre van szükségünk és ez alapján már egyszerűen tudunk egy sorrendet felállítani.

 

Képekhez link: https://imgur.com/a/DMX30KS

Hozzászólások

Szerkesztve: 2023. 03. 11., szo – 18:09

Fizetésekhez példa (ezer forintban), nem mindegy az eloszlási arány:

300  300  300  300  300  1000    1.61

300  300  300  1000  1000  1000    0

300  1000  1000  1000  1000  1000    -1.61