( RaptoR | 2020. 11. 06., p – 22:03 )

Bocs, hogy elrontom a nagy pillanatodat, de ez nem egy választási csalás leleplezése, hanem pár szép ábrával történő átverés. Elismerem, elég ügyes; mellékel GitHubon Jupyter notebookokat, adatokat, stb, így akár bárki reprodukálni tudja a technikailag korrekt, de mondanivalóját tekintve mégis hibás és félrevezető ábrákat. Tökéletes a választási csalásos konteókra, amikre láthatólag igen sok energiát befektetett az alt-right és itt is igen fogékonyak rá egyesek.

A megoldás lényegében az, amit fejesjoco is írt, ővé a leleplezés megtisztelő érdeme, én itt csak egy picit jobban kifejtem az átverés módszerét. Mellesleg kissé csalódott vagyok, hogy én voltam az egyedüli a topikban, aki vette a fáradságot, elolvasta legalább a Benford-törvény wiki oldalát, ott van explicite leírva a megoldás, szinte az elején:

Benford's law tends to apply most accurately to data that span several orders of magnitude. As a rule of thumb, the more orders of magnitude that the data evenly covers, the more accurately Benford's law applies. For instance, one can expect that Benford's law would apply to a list of numbers representing the populations of UK settlements. But if a "settlement" is defined as a village with population between 300 and 999, then Benford's law will not apply.

Hmmm, gyanús, gyanús. Tehát ahhoz, hogy alkalmazni lehessen a törvényt, olyan adatsorra van szükségünk, ami több nagyságrendet felölel. Egy nagyságrenden belül, mint a példában felhozott 300-999-es tartomány, nem működik. Nézd meg a wiki-n felrakott két log-os ábrát, hogy miért.

Szóval igencsak gyanús a dolog. Lássuk, milyen városokra produkált látványosan nem Benford-törvény szerinti eloszlást a választási eredmény: MilwaukeeChicago. Mi az, ami elsőre feltűnik ha megnézed a térképet? Az, hogy mindkettő tipikus derékszöggel szerkesztett nagyváros, ahol egymáshoz méretben elég hasonló blokkok vannak. Mi következik ebből? Az, hogy a választási körzetek is kb. azonos populációt fednek le. Szerencsére névtelen statisztikusunk mellékelte is az adatokat, így le tudjuk ellenőrizni. Ha megnyitod pl. Chicago XLS fájlt akkor jól láthatod, hogy mindegyik választókörzet néhány száz fős, alig van 1-2 db 1000-et átlépő körzet. Ez azért nem olyan meglepő, hiszen így logikus felosztani a várost, egyenletesen.

Kezded kapisgálni már, hogy mi az átverés? Nézzük tovább. Van tehát nagyon sok, kb. azonos méretű választókörzet. Azt mindenki tudja, hogy a demokraták főleg az urbánus helyeken népszerűek, a republikánusok pedig vidéken. Ez Chicagora különösen igaz, 2016-ban 83,7% szavazott a demokrata jelöltre Chicagoban. Ha megnézed ezt a térképet, akkor mit látsz? Azt, hogy nagyrészt baromira homogén a népszerűség.

Mi történik tehát, ha nagyon hasonló számoknak veszed a nagyon hasonló százalékát? Az, hogy egy normál (haranggörbe) eloszlást fogsz kapni. Pl. 400-nál 332 körül lesz a várható érték a fenti 83%-os népszerűségnél. Mit mutat a linkelt ábra? Azt, hogy Chicagoban, ahol többségében 400 körüli körzetek vannak, egy szépen kirajzolódó haranggörbét kapunk pont ott, ahol várnánk: 3 körül (gy.k. 400-nak 83%-a 332, ami hármassal kezdődik). Erre az esetre tehát explicite nem működik a Benford-törvény, mivel nincsenek nagyságrendben eltérő számok se a népszerűségben, se a választókörzetekben a demokraták számára. A többi jelöltre is elég szarul teljesül általában emiatt a törvény, mert max tizen akárhányan szavaztak rá (Trumpnak emiatt van sok 1-ese), vagy csak 1-2 ember/körzet.

Tehát a kedves névtelen statisztikusunk megkereste azokat a speciális helyeket Amerikában, ahol két feltétel teljesül: (1) a demokrata jelölt népszerűsége kb. állandó, illetve (2) a választókörzetek nagysága kb. azonos. Ilyet nem is nehéz találni, mivel van pár derékszöggel szerkesztett nagyváros. Fentebb láttuk, hogy ezekre az esetekre nem igaz a Benford-törvény, de kedves névtelen statisztikusunk azért alkalmazta rá és megmutatta, hogy tényleg nem jön ki a Benford-törvény, ha olyan esetre próbálja alkalmazni, amire nem lehet. Milyen meglepő, nem igaz?

De ahelyett, hogy elgondolkodott volna és megtalálta volna a hibáját névtelen statisztikusunk, gyártott belőle egy választási-csalásos konteót. Egyedül abból származóan, hogy olyan adatokra alkalmazta a módszert, amikre közismerten nem lehet. De láthatóan elérte a célját; többed magaddal nagyon véded a dolgot, külön kiemelve, hogy "nem az számit milyen számjeggyel kezdődik". De, számit, pont ez a lényege a Benford-törvénynek. Ha egy nagyságrenden belüli számok vannak, akkor szegény 1-esnek nincs sok alkalma megjelenni elöl hogy előállítsa a kívánt eloszlást. Ha a teljes államra alkalmazta volna a módszert, akkor valszeg szépen kijött volna a Benford-törvény szerinti eloszlás, mert nagyságrendekben eltérő körzetek vanak, tehát teljesül megkövetelt kritérium a módszer alkalmazására.