Fórum szavazásnál szignifikancia kimutatása

Fórum fejlesztők és üzemeltetők figyelmébe szeretném ajánlani, hogy egy érdekes feature lehetne a fórum motorban az, hogy szavazásoknál a legtöbb szavazatot kapó opciónál jelölve lenne, ha statisztikailag szignifikáns módon nagyobb a többi szavazathoz képest és így elégséges a bizonyíték arra nézve, hogy van különbség a szavazó tárborok mérete között.

Ez azért lenne fontos, mert ha nincs vizsgálva szignifikancia és a számok közel vannak egymáshoz, akkor nem jelenthető ki egyértelműen, hogy a nagyobb érték tényleg a nagyobb többséget mutatja.

Például ha összesen 30 szavazat van és a 2 opcióból az egyik 11-et mutat, a másik pedig 19-et, akkor még nem állapítható meg, hogy a 19-es opció mutatja a nagyobb többséget. Ehhez 21 vagy nagyobb érték kell. Ez azért van, mert materiális valóságunkban minden folyamatosan rezeg, fluktuál és így mindenben van valamekkora mértékű bizonytalanság. Statisztikailag viszont ez kizárható “elég” erősen adott esetben.

 

Ez úgy történik, hogy megkeressük azt a különbséget, melynek valószínűsége elég kicsi. Ha ennél kisebb a különbség valószínűsége, akkor elfogadjuk. Vagyis kijelenthetjük, hogy elég erős a bizonyítékunk a valós hatásra. És annak esélye, hogy ez a különbség véletlen hatások együtt állásából jöjjön, túl kicsi.

Mennyire kicsi bizonyíték elégséges? 2 szigma. Erről már többször írtam, hogy ez honnét jön. Vagyis 4.5%. Ennél kisebbnek kell lennie a különbség valószínűségének.

 

Hogyan tudjuk kiszámítani a szignifikanciát?

Kumulatív binomiális valószínűségi eloszlás függvény segítségével. Viszont mivel relatíve komplikált a kiszámítása, ráadásul nagy számoknál könnyen túlcsordul, ezért van neki egy “normál” eloszlású közelítése. Erről írtam már itt:

https://hup.hu/node/176871

A könnyű értelmezhetőségért azt javaslom, hogy csakis a legnagyobb szavazatot vizsgáljuk a második legnagyobbhoz képest, mert ha attól szignifikánsan eltér, akkor a többitől is.

 

N = Top 2 szavazatok összege

X = Top 1 szavazat

 

Például ha van egy 5 opcióból álló szavazásunk ilyen számokkal:

77

18

4

3

2

 

Akkor:

N = 77 + 18 = 95

X = 77

 

Számítás:

N / 2 + N^0.5 = 57.24679434480896

X > 57.2 ?

 

Ezt úgy kell értelmezni, hogy ha a legnagyobb szavazat ennél nagyobb, akkor szignifikáns.

Lehet még erős szignifikanciát vizsgálni, mely erős statisztikai bizonyítékot jelent. Ekkor 1.5-el kell szorozni a második tagot, mely 3 szigma megbízhatóságot jelent:

N / 2 + N^0.5 * 1.5 = 67.29705854077835

 

Ha ennél is nagyobb, akkor erős a bizonyíték a szavazók halmaza közti különbségre.

Fontos hogy N értékének minimum 5-nek kell lennie. Tehát csak összesen 5 szavazat és felett vizsgáljuk a bizonyítékot.

 

Ha jól emlékszem talán Nevergone fejleszti a motort, egy múltkori topic-ban láttam. Kérdésem az, hogy nem tudjátok ezt az egyszerű számítást bele-implementálni? Normál bizonyítéknál lehetne mondjuk kékkel színezni a legnagyobb szavazatot, erős bizonyítéknál pedig zölddel, vagy egyéb módon megjelölni. Akár csillaggal normál bizonyítéknál és dupla csillaggal erősnél. Vagy valamilyen piktogrammal.

Nagy fejlesztés lenne? Szerintem magasan emelné a fórum funkcionalitásának színvonalát.

Hozzászólások

> Például ha összesen 30 szavazat van és a 2 opcióból az egyik 11-et mutat, a másik pedig 19-et, akkor még nem állapítható meg, hogy a 19-es opció mutatja a nagyobb többséget

Márpedig én megállapítom, hogy de.

"Valamiért elfelejtettél" válaszolni erre, így itt is felteszem:

NagyZ

fejenkent nagyjabol 1.75 CHF a nepszavazas koltsege a teljes lakossagra vetitve. befizetnel ennyit azert, hogy elmondhasd a velemenyed?

https://hup.hu/comment/2746321#comment-2746321

Ezt az 1.75 CHF-et hogy matekoztad ki? Mert az 1000% hogy ez az összeg nettó hazugság, közelebb van a 175 vagy az 1750 CHF-hez. 

Vagy a számlálóbiztosok még fizetnek is azért hogy Vasárnap 16 órákat legyenek bent bezárva, majd megszámlálják a szavazatokat?

Zinterneten találtam, svájci lakos panaszkodott,  ha veszel egy új mosógépet, akkor a garancia csak akkor érvényes, ha egy hivatalos mosógépszerelő üzemeli be.

Aki kijön, kicsavarja a 4 darab szállítási rögzítő csavart, rácsavarja a már előtte saját költségeden kiépített vízkiállásra a mosógép hollanderét, ez ~1 perc,  megnyitja, ez ,5 másodperc, bedugja a már előtte saját pénzen kiépíteettt mosóvíz levezető szennyvíz bekötésbe a csövet, ~ 8 másodperc, esetleg ha jó fej,  síkba állítja a mosógépet a lábakkal, s elindít egy 10 perces próbamosást, ez csak grátisz, majd mindösszesen kevesebb mint 15 perc munkáért kiszámláz 500 CHF vagyis  ~212 Ezer Ft munkadíjjat.

Az 1.75 nem teljesen pontos becslés az általam elérhető infók szerint, de a 175 és az 1750 teljesen fals lenne.

https://lenews.ch/2019/10/17/the-cost-of-democracy-what-switzerland-spe…

Az egész szövetségi kormányzás 233 millió frankba került 2019-ben, ebből a népszavazások és a szövetségi választás 54 millió frankot tettek ki.
Svájc lakossága kb. 8.6 millió fő, és 2019-ben két népszavazárt is tartottak, 1+2 kérdésről, plusz a szövetségi választás.

Azaz egy népszavazás kb. 18 millió frankba került. Ez a teljes lakosságra vetítve 2.1 frankot jelent népszavazásonként.

Így az 1.75 frank nagyon is jó becslése egy szavazat költségének.

2016-os adat szerint 1.65 CHF, azota lehet volt egy pici inflacio, szerintem siman jo a 2.1.

lehet a sok agymosottnak sajnos ez draga penz lenne, nem fizetnenek ennyit azert, hogy elmondhassak a velemenyuket - latod, azon megy a szarragas, hogy most 1.65 CHF vagy 2.1 CHF - felolem lehetne 10 CHF is, annyit is fizetnek erte...

nem ertem miert varod el, hogy az egy napos kommentedre reagaljak. ha latom, reagalok, ha nem latom, nem latom. remelem nem gondolod hogy SLA-t adok a hulyesegekre, mint amiket te szoktal irni?

az SRF szerint 1.65-be kerul, a masik topicban irt valaszomban linkeltem is.

az 500 CHF szerintem sok, 200 CHF korul be kene kotniuk. de hidd el, ezek a lakas arakhoz kepest kerekitesi hibak. ma voltam butorboltban, nagyon tetszik az egyik ~5000 CHF-es szek, gondolkodom rajta, hogy megvegyem - csak hogy a vizvezetek szerelo dijakat kontextusba helyezzuk ;)

"valamiert elfelejtettel valaszolni" pedig mar vagy 3 perce postoltam a masik szalban (remelem erzed az ironiat...)

--

vegyunk egy miele peldat: https://www.galaxus.ch/de/s2/product/miele-wwr-800-60-ch-9-kg-rechts-wa…

Rücknahme und Entsorgung deines alten Haushaltsgrossgerätes: CHF 29.– (zzgl. Transportkosten je nach Lieferadresse)

Lieferung an den Verwendungsort und Inbetriebnahme deines Haushaltsgrossgerätes: CHF 95.– (zzgl. Transportkosten je nach Lieferadresse)

 

na mar megint ki hazudott itt, mark7???????????? irod a hulyeseget de utananezni mar luxus. m1 hiradobol is igy nyeletik le veletek a hulyeseget.

Ez azért lenne fontos, mert ha nincs vizsgálva szignifikancia és a számok közel vannak egymáshoz, akkor nem jelenthető ki egyértelműen, hogy a nagyobb érték tényleg a nagyobb többséget mutatja.

Például ha összesen 30 szavazat van és a 2 opcióból az egyik 11-et mutat, a másik pedig 19-et, akkor még nem állapítható meg, hogy a 19-es opció mutatja a nagyobb többséget. Ehhez 21 vagy nagyobb érték kell. Ez azért van, mert materiális valóságunkban minden folyamatosan rezeg, fluktuál és így mindenben van valamekkora mértékű bizonytalanság. Statisztikailag viszont ez kizárható “elég” erősen adott esetben.

Nem értek a statisztikához, de a szavazás nem statisztika, hanem a pillanatnyi állás tükre. Szavazás esetén nem "nagyobb többségről", hanem pillanatnyi többségről beszélünk.

Mutatok egy példát:

https://i.imgur.com/C8DctEQ.png

A két hullám a szavazók két táborának lüktetését mutatja. Mivel egybe érhet, ezért nem jelent semmilyen információt a 19 szavazat. Gyakorlatilag nem tudsz levonni belőle hasznos következtetést. Mert lehet hogy pont fordítva van a valóság.

Mivel a szavazás egy kicsi mintavétel a nagy halmazból, ezért erős véletlen hatások dolgoznak a folyamatban, és ezért erősen számít annak megbízhatósága. Ezért kell a szignifikancia mérés.

A szavazókból van infónk, igen, viszont azok aránya és az arányukban várható hiba mértéke fontos, különben a kapott szavazati értékek nem megbízhatók és így nem hasznosak. Tehát kvázi nem kapsz a szavazással érdemben használható és eléggé megbízható információt, ha nem szignifikáns a különbség.

A szavazásnál nem a hasznosság a lényeg, hanem a pillanatnyi állapot, ami eldönt valamit. Egy szavazásnál nincs helye becslésnek (maximum az eredmény előzetes becslésének). A becslés nem biztos, akármit bele lehet látni, magyarázni. Egy számszerű állás viszont biztos.

Ez nem becslés. A számszerű állás információjának nincs érelme, ha elég közeliek az értékek, mert nagy a hiba mértékük.

Ugye eleve azért van egy szavazás, hogy a szavazók arányát lehessen látni az opciókhoz. De ehhez számolni kell azok hibájának mértékével, különben az eredeti cél veszik el.

Ez úgy történik, hogy megkeressük azt a különbséget, melynek valószínűsége elég kicsi. Ha ennél kisebb a különbség valószínűsége, akkor elfogadjuk. Vagyis kijelenthetjük, hogy elég erős a bizonyítékunk a valós hatásra. És annak esélye, hogy ez a különbség véletlen hatások együtt állásából jöjjön, túl kicsi.

Kumulatív binomiális valószínűségi eloszlás függvény

De, ez becslés. Az a biztos, ami a ládában/gépben van, mert az kézzelfogható, megszámolható, a többi csak becslés.

Ez az infód nem veszik el (szavazatok száma), csak pluszban ad egy megerősítést a fenti eljárás statisztikai bizonyosság felől.

A becsléssel kapcsolatban, ugye pont az a becslés, hogy értelmezni akarod a számokat. Egy erősen rigid statisztikai modell viszont pont hogy jelentősen kiveszi a bizonytalanság mértékét.

Ezért van az, hogy gyógyszer kísérleteknél nem elég a nagyobb értéket nézni, hogy volt-e hatás. Számít a mértéke is, hogy hiba határon kívül van-e. Például 2 csoportnál - ahol egyiknek adják a gyógyszert, másiknak nem - van-e elegendően nagy eltérés a biológiai eredményben, hogy kijelenthető legyen az, hogy "elég" bizonyítékunk van a hatásra. Ezt például egy T teszttel lehet megnézni, amely azt vizsgálja, hogy a két csoport átlagának ingadozása (véletlen hatásokból jövő hibája) elég messze van-e, nem érnek-e túl egymásba. Mint a képen amit feljebb linkeltem.

Ha nem elég nagy a távolság, akkor hiába olvasod le a szavazók számát, a szavazás eredeti céljára nem kapsz választ. Vagyis arra, hogy mely opciónál várható a több szavazat. Lehet hogy X opciónál több szavazatot kapsz, de a véletlen mintavétel miatt Y opciónak van több szavazója. Ez a fontos lényeg. Ha ezt megérted, akkor látod a szempontjaimat. Esetleg ennek olvass utána.

Én értem amit mondasz, de egy szavazás eredményét nem változtathatod meg egy becslés alapján; nem csinálhatod azt, hogy bár X-nek volt a legtöbb szavazója, de te Y-t hozod ki győztesnek egy becslés alapján. Kb. a szavazás alapkoncepcióját semmisítenéd meg vele.

Az eljárásom nem ezt mondja amire utalsz, azt csak példának hoztam hogy lásd, a valóság teljesen más lehet, mint amit levonsz a számokból.

Hanem ez helyett azt mondja, hogy van-e elégséges különbség a szavazatok száma között ahhoz, hogy elégséges bizonyítéknak tekinthessük azt, hogy tényleg van különbség a szavazó bázisok mérete között.

Az én eljárásom nem becsül semmit. Te végzel becslést.

A valószínűségszámítás az nem becslés? Mi a cél amúgy? Mert az eredmény kb. az lesz, hogy minden szavazás legitimitását meg lehet majd kérdőjelezni, mert a becslés azt hozta ki, hogy Y-nak van több szavazója, csak épp nem szavaztak...

A kérdésed jó, építőnek tartom, nem baj ha ütköztetjük, mások tanulhatnak belőle.

A fenti eljárás eredménye azt mutatja, hogy van-e megbízható különbség. Azt NEM mutatja, hogy nincs. Ezt a fontos látni.

Tehát ha egy szavazás eredménye NEM szignifikáns, akkor úgy kell tekinteni, hogy NEM TUDJUK az eredményt és további mintavétel (szavazat) szükséges.

Tehát ha egy szavazás eredménye NEM szignifikáns, akkor úgy kell tekinteni, hogy NEM TUDJUK az eredményt és további mintavétel (szavazat) szükséges.

Pont ez a bajom. Illetve idáig még rendben lenne, de hogyan tovább? A szavazás az a lezártáig tartott. Nyissuk újra és folytassuk? Ezt egy fórumon, számítógéppel még csak-csak el lehetne játszani, de a valóságban? Vagy csak simán nyilvánítsuk érvénytelennek és csináljuk újra? Hányszor? Mi van, ha pl. négyszer egymás után is 16:14 lesz az állás X:Y-ra? Sosem lesz eredmény? Szerinted mit fog ahhoz szólni az X tábor? Mi van, ha 16:14, 14:16, 16:14, 14:16 lesz a kimenetel? Ismét érvénytelen? Vagy az utolsó lesz elfogadva? Szerinted mit fog ahhoz szólni az X tábor? Vagy a 3. lesz elfogadva? És ahhoz meg az Y tábor mit fog szólni? Vagy szavaztassuk meg alapból 10x és vagy az átlagolt, vagy az abszolút szavazatszám fog dönteni, vagy a kettő együtt súlyozva? Szerinted hány embernek fog elmenni már a felénél a kedve az egésztől? Csak elérnéd vele, hogy magával a méréssel befolyásolnád a mérés eredményét.

Szignifikancia ide-vagy-oda, egy szavazás eredménye az, ami. Csak akkor lehet érvénytelennek nyilvánítani az eredményt, ha az szabálytalanul született, nem akkor, ha nincs elég nagy különbség a győztes és a többiek között. Pont, mint egy versenyfutásnál. Ott sem veszik el X-től az aranyérmet a győzelme után azzal a felkiáltással, hogy csak 0.1 másodperccel verte meg Y-t, de amúgy Y jobb, neki kellett volna nyernie. Akkor és ott X volt a jobb. Akkor és ott az X tábor volt többen.

Például 30 szavazat van összesen. Ez még nem szignifikáns, így várunk és jön további 10 szavazat és a 18 <=> 12 módosul 27 <=> 13 -ra. Így már az lesz.

Tehát ki fogjuk tudni jelenteni, hogy a 28 szavazatot kapott opciót valóban LÉNYEGESEN többen választják.

Még egy érdekesség. A valószínűség nem azt mutatja, hogy bejön-e egy dolog. Ez fontos. Hanem azt, hogy adott időn belül hányszor jön be. Tehát a valószínűség számításban nincs ilyen szempontból bizonytalanság. Az esemény sűrűségét vizsgálja. És ez miatt nagyon erős és pontos következtetések vonhatók le, ha a helyes modellt használjuk (ami a valóságot tükrözi).

A helyes modell megállapítása külön kérdés. Eleve elég komplex a stat és valószínűség számítás területe. Nem igazán intuitív. Egy bizonyos szint felett csúnyán elrobban a komplexitás. De ami jó hír, hogy bizonyos esetekben a számítás könnyen elvégezhető. Lásd feljebb amit adtam. A mögöttes miértek kérdése bonyolult, de az eredményhez vezető út egyszerű.

Pont ez a probléma ezzel a módszerrel. De egyébként ez, amit leírtál ez a jelsűrűség. Fentebb sinexton eseménysűrűségről beszélt, bár azt nem fejtette ki, hogy mit ért alatta; hogy maga a mérés milyen időközönként van, vagy azt, hogy az egyes csoportok jelei milyen sűrűséggel érkeztek be, mert pl. Y-ra az összes szavazat az utolsó 10 percben esett be és ha várunk még, akkor jött volna még.

ha jol ertem a dolgot, akkor itt az "elegseges-e" vagy "nem elegseges" a szavazas (pusztan statisztikai alapon). pl hiaba szavazatak ~254-en a kde-re a kedvenc desktop szavazason, de ez nem eleg, lehet csak a gnomeshell-esekbol sokan b*sztak szavazni. igy nem jelentheto ki hogy a kde a global kedvenc.

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Valóban, itt nem hozna ki a fenti eljárásom szignifikanciát, mert a legnagyobb szavazat eleve kevesebb mint az összes szavazat fele.

Módosítom annyiban, hogy az összes helyett a két legnagyobbat javaslom tekinteni. Ugyanis így mindegy mennyi az opciók száma, az opciókra szavazók mindegyike egy külön tábor és két tábort pedig össze lehet hasonlítani, mert arra ugyanúgy érvényes a statisztika. Ha pedig a legtöbb szavazat eltér a második legtöbbet kapottól, akkor a többitől is eltér. Így ez a jó megközelítés. Update-elem fent is.

Ilyen alapon szignifikáns lenne a KDE:

KDE szavazat = 254

XFCE szavazat = 201

N = 254 + 201

X = 254

N / 2 + N^0.5 = 248.83072900770154

X > 249 ?

Mivel 254 nagyobb mint 249, ezért szignifikáns a KDE opció eredménye az XFCE-hez és a többihez képest is.

Ha a KDE 249-nél kisebb lett volna, akkor statisztikailag valóban nem lenne szignifikáns a második legnagyobbhoz képest. Akkor úgy kellene érzelmezni, hogy nincs elég bizonyíték arra nézve, hogy a KDE tábor tényleg nagyobb. Nem azt jelenti hogy nem, hanem bizonyíték nem képezhető rá. De ez nem így lett, ahogy látható.

"nagy a hiba mértékük."

Egy fórum szavazásnál nincs olyan állat, hogy hiba mérték. Nincsenek effektív statisztikai igényű szempontok, amiknek meg kellene felelni. Max az lehet a hiba mértéke, hogy hányan kattintottak véletlenül rossz lehetőségre, de ezt statisztikailag sosem fogod tudni kimutatni, ehhez egy "szavazat visszavonása" feature kell a termékbe. 

Egy fórumszavazás olyan, mint amikor kiáll a professzor az előadóba, és azt mondja: "tegye fel a kezét az, aki ma jól aludt" - és emelkednek a kezek. Pedig ebben a mondatban is ezer sebből vérzik, nem tudjuk, mit jelent a "jól alvás", és azt hogyan kellene például mérni. De nem is érdekel senkit.

Itt nincsenek olyan jellegű statisztikai, valószínűségszámítási igények, mint egy komolyabb kutatásnál sokkal nagyobb mintavételi bázison. Ráadásul problémás az egész, hogy hogyan kódold le azt, amikor az eredmény statisztikai értelemben nem olyan, mint ami ránézésre kijön (pl túl kicsi a különbség). És a legtöbb esetben egységsugarú emberek egységsugarú szavazásokat írnak ki, és ha X 1-gyel nyer, akkor X nyert, és köszönjük. Közben meg lehet, hogy Y nyert volna, csak valakinek épp nem ment be a szavazata.

Blog | @hron84

valahol egy üzemeltetőmaci most mérgesen toppant a lábával 

via @snq-

Mire gondolsz, hogy lekódolni? Láttad a feljebbi számítást, hogy milyen egyszerű?

...és ha X 1-gyel nyer, akkor X nyert, és köszönjük

Ezt leírtam hogy miért nem feltétlen igaz. Rendben hogy téged nem érdekel.

Ha valaki számára érdekes a szavazás témája, akkor is érdemes lehet megtámogatni ilyen feature-el, mert segít neki látni az eredményt. Persze ha egyszerű belefejleszteni és más is érdekesnek találja.

...Közben meg lehet, hogy Y nyert volna, csak valakinek épp nem ment be a szavazata.

Ez nem így működik. Olvass utána a "proportion test"-nek ha szakmai infó érdekel.

 

Tehát kvázi nem kapsz a szavazással érdemben használható és eléggé megbízható információt, ha nem szignifikáns a különbség.

Ez igaz, de nem véletlenül alakult ki rengetegféle szavazási technika. Van egy kérdés, amiben dönteni kell.

Elmentek például egy buszos kirándulásra 30-an. 10-en a Mekiben akarnak megállni, 8-an a Burger Kingben, 12-en nem szavaznak. Itt a 10 szavazat lehet, hogy nem szignifikáns, de valahol meg kell állni, különben leesik a buszsofőr cukra, elájul, belehajt a szakadékba, és mindenki meghal.

Ugyanígy van mondjuk az országgyűlési választásokon. Van 199 hely, amit fel kell tölteni. Ha az emberek fele nem megy el szavazni, akkor sem mondhatod azt, hogy a székek fele üresen marad, aztán lesz, ami lesz, így a székeket feltöltjük valamilyen szabály alapján. Utána ha dönteni kell, a 199 ember szavaz. Ha a végeredmény 100 igen, 99 nem, akkor a válasz: (jobb híján) igen.

Nyitott kapukat döngetsz. :)

Ettől még a legtöbb módszer végeredménye 1..n győztes. A gyakorlatiban általában nincs olyan, hogy nem volt szignifikáns az eredmény, ezért pl. nem lesz az országnak a következp 4 éves ciklusban miniszterelnöke.

Sajnos azt kell mondjam, hogy ez az írásod azt mutatja, hogy nem érted. A példád nem áll összefüggésben az általam írtakkal. De ezt én nem tartom problémának és szívesen válaszolok bármilyen értelmes kérdésre vagy véleményre.

A hipotézis teszt azt világítja meg, hogy mennyire biztosra vehetjük, hogy van különbség a két tábor között. Ettől még használhatod a több szavazatot döntéshez. De a hip.teszt nélkül nem kapod meg a választ arra, hogy egyébként mennyire lehet valós a látott különbség a szavazatok arányában.

Illetve ha teljes populációra van információd (busz tagjait veszed teljes halmaznak), akkor nincs szükség statisztikára, mert nincs bizonytalanság az eredményben.

A miérteket egyébként nekem kellene megmagyaráznom mélyebben, csak sok idő. De kellene, mert a felszínről nem látszanak a mélyebb matematikai okok és mivel ezt nem mutatom be, ezért érthető a hozzászólók többségének elképzelése. Úgy látszik hogy mélyebb statisztikai ismeret nélkül sokan nem tudnak elfogadni megoldásokat. Ez valahol érthető is.

Sajnos azt kell mondjam, hogy ez az írásod azt mutatja, hogy nem érted.

Ne sajnáld. :)

Ugyanazt az elmélet vs gyakorlat kérdést próbálom feszegetni, amit eddig is. Az elméletet is értem egyébként valamennyire, tanultam is ilyesmit, de arra tippelek, hogy valóságban megtörtént szavazások nagyobbik felénél nem érdekes az, amit kiszámoltál a threadben.

Akkor is el kell dönteni, hol álljon meg kajálni a turistacsoport, ha a busz fele alszik, amikor megkérdezik őket. :)

Ha 15 főből (aki nem alszik) 6 mekit mond, 4 cba-t, három  "mindegy"-et, kettő burgerknget mond, akkor megállnak a mekinél. Oké. Ha azt kérdeznénk, hogy ne egyet, hanem hármat jelöljön meg mindenki, és lenne a mekinek 6 első, 3 második és két harmadik helye, miközben a burgernek a két első mellé becsúszna mondjuk kilenc második és három harmadik, akkor már ránézésre sem a meki a nyerő...

Erre írtam, hogy rengetegféle szavazási módszer létezik, de nem teljesen értem, miért releváns ez.

Valahol meg kell állni (ez a példa forgatókönyv egyetlen kikötése), a szavazás módszerét tetszőlegesen megválaszthatod. A feladat megoldása szempontjából számít a statisztikai szignifikancia? 

A busz egy zárt halmaz. Ezt is írtam. Ott nem kell statisztika. Dönthet a többség.

Egy szavazás viszont általában nem zárt halmaz, hanem egy merítés egy nagyobb halmazból. Ezért ott nem tudod kijelenteni mindig, hogy az ismeretlen többség tényleg az első opciót kedveli-e. Ehhez nyújt segítséget a stat.

Talán ott megy félre az infó, hogy ha 1000 emberből szavaz 100, akkor Te melyikre vagy kíváncsi. Csak a szavazók preferenciájára, vagy a teljes halmazéra? Ha előbbi, akkor nem kell stat. Ha utóbbi, akkor kell. De szerintem logikusan az utóbbi mindig a cél.

A busz egy zárt halmaz. Ezt is írtam. Ott nem kell statisztika. Dönthet a többség.

A busz egy példa. Van érdemben különbség a kettő között?

  1. 30 fős busz, 12 nem szavaz, mert alszik, 10 meki, 8 bking
  2. 30000 fős halálcsillag, 12000 nem szavaz, mert nincs szolgálatban, 10000 meki, 8000 bking

Csak a szavazók preferenciájára, vagy a teljes halmazéra? Ha előbbi, akkor nem kell stat. Ha utóbbi, akkor kell. De szerintem logikusan az utóbbi mindig a cél.

Pont ezt az utolsó mondatot vitatom. Szavazást (bármiről) azért szoktak kiírni, mert valamiben döntést kell hozni. A való életben nagyon kevés olyan helyzet van, ahol érvényes kimenetel az, hogy egyik választási lehetőség sem nyer, mert nem szignifikáns a különbség.

De nézzük másképp, tudsz gyakorlati példát mondani az ellenkezőjére? Mondjuk mi lenne, ha 2026-ban az ogy választáson ilyen eredmény születne? Mit csinálnál? Ki mennyi mandátumot kap? (Maradhatunk a listás választásnál, az egyszerűség kedvéért.)

Az a helyzet, hogy összekeveritek a döntés miatti szavazásokat, a közvéleménykutatásokat és a bármilyen más mérések kiértékelését.

Az első esetben nem arra vagyunk kíváncsiak, hogy mi az eloszlás, hanem arra, hogy valamilyen mércével mérve, mi a legtöbb. Itt nincs statisztikázás, teljesen mások a vonatkozó algoritmusok.

A második esetben az az érdekes, hogy mi az eloszlás, itt lehet olyan hipotéziseket vizsgálni, hogy egy populációból vett véletlen minta esetén a minta valamely statisztikája mekkora valószínűséggel felel meg a populáció valamely tulajdonságának.

A harmadik esetben meg általában feltételezhető valamely eloszlás, csak a paramétereit szeretnénk az eloszlásnak valamilyen hibával becsülni a populációból vett minta statisztikája alapján.

Mindegyik esetnek más matematikája van.

A "szignifikancia kimutatás" is egy szakszerűtlen kifejezés.

Ahogy írtam lejjebb, ha az a célod hogy eldöntesd, akkor 3 embert is elég megkérdezned a logika alapján kisarkítva. Vagy akkor mennyi legyen? Hol húzod meg a határt? Érzékelhető a logikai hiba? Milyen gyakorlatban hasznos célt teljesít, ha csak azt vizsgálod, hogy éppen ki szavazott?

Ha csak dönteni kell, meg se kell kérdezni senkit.

Ha az a cél, hogy az legyen a döntés, ami a populáció többségének a véleménye, akkor megvan, mekkora mintát kell reprezentatívan figyelembe venni (ezért is elegendő bizonyos részvételi küszöb a választásokon, nem kell megkérdezni mindenkit). Viszont ezt a mintavételezési eljárás befolyásolja igazán. Utána, ha a mintavételezés jó volt, nem kell outlier detection. Ha jó a mintázás, akkor a mintából számított statisztikát el kell fogadni jónak, nem kell vizsgálni külön. Akkor kell külön vizsgálat, ha a mintáról nem tudsz semmit. Ez nagyon kevés esetben van így.

Gyakorlati példa a gyógyszer kísérlet, ahol új gyógyszert tesztelnek. Csak egy kisebb halmaz mérhető. Van egy kontroll csoport, akik nem kapják a gyógyszert, és van egy csoport, akik kapják. És mérik a gyógyszer beadása előtti és utáni különbségét a két csoport biológiai állapotának.

Nem úgy születik a döntés, hogy van-e különbség, hanem hogy elég nagy-e. Pedig itt is egy minta vételről van szó.

Azért kell megtudni, hogy elég nagy-e a különbség, mert mindig rengeteg véletlen hatás van jelen és el kell tudni választani a mért hatást ezektől.

Ugyanígy bármilyen szavazás vagy űrlap felmérés esetén (pl. politikai preferencia) szintén a nagy halmazból vételezünk mintát. És a cél nem pusztán az, hogy lássuk, kié a több szavazat a mintánkban. Ugyanis ilyenkor az utcán is megkérdezhetsz 2 vagy max 5 embert és majd ők eldöntik a kérdést. Miért kellene akkor neked több ember véleménye? Direkt kisarkítottam, hogy lásd, tovább is lehet menni lefelé.

Az értelmes mérés csakis az, hogy lássuk, vajon a többség (statisztikai szakszó a populáció) mit preferál. És ennek eldöntésére elég nagy-e az esély? Nem csak más véletlen hatások eredőjét látjuk-e, melyek teljesen függetlenek az általunk mért dologtól?

Egy felmeresnel altalaban nem mindenki vesz reszt a vizsgalatban, de megis mindenkinek lehet velemenye. A kozvelemenykutatasokbol, amikor ehhez hasonlo szignifikanciat szamolnak, azt probaljak kimutatni, hogy ha a teljes populaciot vizsgalnak, merre dolne a merleg. Hupot is olvas sok ezer ember, de csak kevesnek van accountja, meg kevesebb szavaz. Extrem esetben egy ilyen szignificancia megmondja, hogy mennyire hasznalhato dontesre a felmeres eredmenye. 

Tudomanyos kerdesekben a 3 szigmat szoktak minimum kerni, ha pedig van eleg adat, akkor az 5-t. De hetkoznapi kerdesekben, ha muszaj donteni, akkor sokszor mar az 1 szigma is eleg, mert kicsi az eselye, hogy  a populacio ennel kevesbe megosztott. 

Milyen szinu legyen a HUP zaszlo??? Kek vagy citromsarga? Valszeg tok mindegy, es ha 19 kek, 11 citrom jon ki, akkor az mar messze van attol, hogy a masik veglet, 30% kek es 70% citrom volna a teljes populacio. Vagyis, ha kek mellett dont trey, akkor nem lesz merges a hupperek tobb mint 60%-a nagy valoszinuseggel.

Amugy egy ilyen szavazas sok szempontbol nem reprezentativ. A gond, hogy bar titkos, de a vegeredmeny menet kozben megtekintheto, igy az egyes szavazatok megsem fuggetlenek.

Mi AB tesztelésnél használtunk ilyen technikát, bár a konkrét algoritmust nem ismertem mögötte. Mindegyik teszt mellett volt egy érték, ami százalékosan mutatta, mennyire szignifikáns az eredmény. Ebből lehetett következtetni, hogy meddig kell még futtatni a tesztet.

Egyébként érdekes volna ezt népszavazások kiértékelésére használni, bár kétlem, hogy ez sokat változtatna a jelenlegi állapoton.

Használják természetesen minden statisztikai elemzésnél. A szignifikancia vizsgálata a cél. Az AB teszt is ez. Csak feladat függő hogy milyen modell kell.

Hipotezis teszt az összefoglaló neve. Nagyon sok fajta modell van és sok a buktató, különösen nehéz terület és sok tapasztalatot igényel.

https://en.m.wikipedia.org/wiki/List_of_probability_distributions

Hipotezis teszt az összefoglaló neve. Nagyon sok fajta modell van és sok a buktató, különösen nehéz terület és sok tapasztalatot igényel.

Kezdünk közeledni az igazsághoz, még ha statisztikai igazság is. :-D

Mottó: Vagy húsz éve - magát sötétzöldnek képzelő - öcsémmel, nagy melegben haladtunk valamerre. Kezünkben egy-egy doboz sörrel. - Nézd csak, milyen szellemes a nyitója! Nem lehet letépni és eldobni, ezért nem tudod vele szennyezni az utcát! - Hülye vagy: Az egész dobozt eldobom! - (Megnyúlt ábrázat.)

Tehát KDE = 254, XFCE = 201. Közben tudjuk, hogy a mintavétel környékén Windows# = 12817, amiből Win11=8623 és Win10= 3617.

A fentiek alapján öszintén kijelentem: Nem tudom mit jelent a szignifikáns. ;)

Lehetne pontosítani a vizsgálatot!

Szavazat A vagy B.

Ami talán a +1 (like), +1/-1, igen/nem/tartózkodik(/nem szavazott==marhára tartózkodik),  fifty-fifty vagy 70-30, stb., stb. hatására teljesen más eredményt hozhatna.

A fentiekkel szemben az "egyszerű szavazásoknak" van egy (általában) egyszerű szabályrendszere, aminek megfelelve eldőlt a szavazás. Maga a szabályrendszer határozza meg a szignifikanciát és nem más. Következésképp sem hipotézis, sem modell, sem buktató nem számit, csak a szabály.

Amikor tekintünk 2 opciót, akkor az plusz információt tud adni, hogy elég nagy-e köztük a különbség. Ennek ismerete nem okoz problémát és fontos infót ad. Nem láttam még jó szakmai érvet az mellett, hogy ne legyen :)

Mindig minden relatív. A 2 opciót egymáshoz képest vizsgáljuk természetesen, mert azok a meghatározók a vizsgált halmazban. A Windows így nem játszik, viszont a Windows ugyanúgy vizsgálható és látszik hogy erősen szig., csak akkor már az is a vizsgálódás tárgya. Tehát mindig 2 halmazt viszonyítunk. Nincs ezzel gond.

Egyébként a deriváltja a fenti egyenletnek:

d/dx( x/2 + x^0.5 ) = 1 / ( 2 x^0.5 ) + 1/2

...melyből látszik, hogy a szavazatok számának növekedésével 1/2-et közelít a végtelenben, ahogy gyök x nő és a reciproka nullába tart. Tehát nagyobb mennyiségnél szűkül a szignifikancia határa (könnyebben lesz szignifikáns). Így nem az van, hogy ugyanolyan nehezen éri el a szignifikancia határt a több szavazat. Ez miatt az esély folyamatosan nő a szig. elérésére nagyobb mintavételnél, mert százalékosan csökken a nem szig. intervallum nagysága. Ez segíti a gyakorlatot.

Illetve nincs olyan hogy "egyszerű" szavazás. A szavazás az egy mintavétel egy nagyobb halmazból. Ezért már alapból, definíció szerint statisztikai hatások játszanak szerepet benne megbízhatóság kérdésével és egyébbel. Ha arra akarsz utalni, hogy itt nem mérvadó, alacsony színvonalú szavazások vannak (ha jól értelek), akkor számodra eleve érdektelennek kell lennie. Ha viszont bárki számára is érdekes egy szavazás, akkor szerintem számít az, hogy mennyire megbízható az eredmény. Nem látok érvet ellene.

Úgy gondolom, hogy hasznos. Csupán egy jelző flag.

Mivel látom sokan nem értik ez mire jó, ezért kifejtem, mire gondoltam korábban.

Szavazás és szavazás között különbséget lehet tenni aszerint, hogy az eredménye minden esetben érvényes, vagy feltételhez kötött. Egy választás akkor is eredményes, ha a győztes egyetlen szavazattal nyer, miközben csak a választásra jogosultak töredéke szavazott. Így azon egy ilyen módszer nem alkalmazható. Viszont egy népszavazás csak akkor eredményes, ha megfelelően sokan, pl. a szavazásra jogosultak legalább fele nyilvánított véleményt. Ha egy népszavazás nem eredményes, akkor úgy kellene tekinteni rá, mintha meg se történt volna, viszont az érvénytelen eredményét ekkor is nyilvánosságra hozzák. Szerintem ez nem szerencsés, mert visszaélésekre ad lehetőséget.

Egyrészt visszaélhet vele a kevésbé népszerű opciót támogató oldal, akik arra biztathatják a szavazásra jogosultakat, hogy ne menjenek el szavazni, vagy ne szavazzanak érvényesen. Pl. ha egy népszavazási kérdésben a várható eredmény 60%-40%, a várható részvételi arány 80%, akkor utóbbi opció támogatói érvényteleníthetik a szavazást a távolmaradásukkal. Ezután viszont az előbbi opció támogatói értelmezhetik úgy az eredményt, hogy senki nem nyilvánított ellenvéleményt, ezért az eredménnyel összhangban fognak cselekedni.

Szerintem a probléma forrása az, hogy a népszavazásra úgy is lehet tekinteni, hogy 3 lehetséges kimenete van: {megszavazták, nem szavazták meg, érvénytelen}, de úgy is, hogy az eredmény két dimenziós: {{érvényes, megszavazták}, {érvényes, nem szavazták meg}, {érvénytelen, megszavazták}, {érvénytelen, nem szavazták meg}}. Így mindenki az az értelmezést fogja alkalmazni, amelyik az ő érdekeinek jobban megfelel. Elvileg megoldás lenne a problémára, ha az eredményt csak akkor lehetne nyilvánosságra hozni, ha a szavazás érvényes, de ez a gyakorlatban kivitelezhetetlen. Ezért lehetne érdekes, ha a szavazás érvényessége a leadott szavazatok száma és aránya, illetve a szavazásra jogosultak száma függvényében állna elő. Vagyis minél többen mennek el szavazni, annál kisebb különbség kellene az eredmény érvényességéhez. Így mindenki abban lenne érdekelt, hogy minél többen szavazzanak, függetlenül attól, hogy melyik opciót képviseli.

Pont a HUP-on, ahol tízből kb. egy szavazásnak van értelme, és tízből öt szavazás szarul van kiírva?

:)