Dobiesław Pałeczka: Niepokojące anomalie statystyczne

1.07.2020

Liczba nieważnych pakietów, kart i głosów dodatnio koreluje z wynikami Dudy oraz negatywnie koreluje z wynikami BiedroniaKamysza i Trzaskowskiego w pierwszej turze wyborów prezydenckich 2020 roku. Prawdopodobieństwo przypadku od strony statystycznej jest bliskie zeru. Analiza przeprowadzona dla danych z zagranicy.

Dla danych z USA zauważyliśmy mało prawdopodobne zależności. Byłem ciekaw czy powielają się one dla danych z całej Polonii.

Co badałem?

Dla każdego z 165 obwodów polonijnych zsumowałem liczbę wydanych kart wyborcom w lokalu oraz liczbę przyjętych pakietów. Interesowało mnie jaki procent z nich został uznany za głos nieważny. Taki procent nieskutecznych wyborców wyliczyłem dla każdego obwodu. Następnie postanowiłem sprawdzić, czy istnieje związek pomiędzy ilością nieskutecznych wyborców a wynikami poszczególnych kandydatów. Miałem podejrzenie, że tam, gdzie takich nieskutecznych wyborców jest więcej — kandydat partii rządzącej, która zorganizowała bardzo duże zamieszanie podczas wyborów za granicą mógł uzyskiwać lepsze rezultaty niż w innych obwodach, gdzie nieskutecznych wyborców było mniej. Moje przypuszczenia niestety się potwierdziły. Zależność jest bardzo wyraźna.

Byłem jednak bardzo zaskoczony, gdy zobaczyłem, że dla głównych przeciwników ideologicznych rządzącej partii zależność ta jest odwrotna. Im więcej nieskutecznych wyborców, tym gorzej oni wypadali. Na poniższym wykresie widać wyraźny trend wzrostowy dla Andrzeja Dudy i odwrotne dla wyników Rafała Trzaskowskiego, Roberta Biedronia i Władysława Kosiniaka-Kamysza.

Czy to przypadek?

Wyniki takie dziwią, ponieważ PiS nie jest faworyzowany w Polonii i ich kandydat uzyskał dwa razy gorszy rezultat niż w kraju. Od dobrze zorganizowanych wyborów oczekiwalibyśmy, aby takich nieprawidłowych prawidłowości w danych z komisji nie było. Zawsze można powiedzieć, że taki zbieg okoliczności jest akurat przypadkowy i nie było w tym żadnego czynnika koordynującego ilość skutecznych głosów oraz wyników kandydatów.

Na szczęście statystyka dysponuje metodami, aby sprawdzić, jak prawdopodobne jest zaistnienie takiego zbiegu okoliczności. Policzyłem współczynniki korelacji i na podstawie dystrybuant odpowiednich rozkładów prawdopodobieństwa wyliczyłem prawdopodobieństwo. W dużym uproszczeniu, jeśli rzucamy monetą 100 razy i 90 razy wypada resztka, to czujemy, że coś z monetą jest nie dobrze. Poniższa

Robert BIEDROŃKrzysztof BOSAKAndrzej DUDASzymon HOŁOWNIAWładysław KOSINIAK-KAMYSZRafał TRZASKOWSKI
Prawdopodobieństwo, że zależność jest przypadkowa0,001%12,953%0,036%17,993%0,013%0,177%
Korelacja-0,4787121167-0,15576118660,3271694984-0,1309122416-0,4505958443-0,2785371774

Prawdopodobieństwo przypadku jest bliskie zeru dla czterech kandydatów. Liczenie, że przytrafiło się coś, co mogło się zdarzyć raz na 100 tysięcy razy, jest jak liczenie, że przy rzucie monetą stanie ona na kancie.

W przypadku Krzysztofa Bosaka i Szymona Hołownii prawdopodobieństwa przypadku są zdecydowanie większe i na podstawie tych danych trudno cokolwiek wykazać.

Co dalej?

Nie potrafię powiedzieć, jakie jest źródło tej zgodności. Jest ona jednak tak duża i niepokojąca, że koniecznie powinna być zbadana. Należy:

  • zweryfikować moje obliczenia oraz tok rozumowania,
  • przeprowadzić podobną analizę dla wszystkich obwodów wyborczych w Polsce,
  • sprawdzić inne wskaźniki niż liczba skutecznych wyborców,
  • porównać wyniki z poprzednimi wyborami.

To wszystko przerasta jednego biednego człowieka, który sypia ostatnio po 3 godziny na dobę. Proszę o pomoc każdego, kto ma doświadczenie z analizą danych i statystyką. Zachęcam do kontaktu.

Moje obliczenia: https://docs.google.com/spreadsheets/d/1o6ug7s_26SJrIuFx7uP4lW3faAxaoTsHbbduv24S648/edit?usp=sharing

Dane wyborcze: https://wybory.gov.pl/prezydent20200628/pl/dane_w_arkuszach

Metodologia

Metoda korelacji, którą tutaj stosuję, jest bardzo wrażliwa na zakłócenia, dlatego przed obliczeniami usunąłem niektóre dane. Mogę zapewnić, że nawet bez takiej filtracji te same trendy ciągle były widoczne.

Na początku usunąłem kandydatów, którzy zdobyli mniej niż 1% głosów. Zdobywali oni najczęściej po kilka głosów w nielicznych obwodach. Metoda korelacji Pearsona źle sobie radzi, gdy zmienna jest praktycznie dyskretna. Ci kandydaci nie są również największym zmartwieniem Polski w tej chwili.

Następnie nie brałem pod uwagę obwodów, gdzie wszyscy wyborcy byli skuteczni. Było ich 39 ze 165. Były one bardzo małe albo dobrze zorganizowane. Mnie bardziej interesowały obwody, gdzie istniała szansa, aby powstał jakiś bałagan. Interesowało mnie jak ten potencjalny bałagan, przekładał się na większe lub mniejsze szanse poszczególnych kandydatów.

Na końcu dla każdego z kandydatów brałem pod uwagę jedynie obwody, w których zdobywał on więcej niż 10 głosów. Metoda korelacji nie radzi sobie dobrze z wartościami dyskretnymi. Był to też kolejny sposób, aby odfiltrować mniejsze obwody, w których trudno obserwować trendy ze względu na niewielką liczbę danych.

Dobiesław Pałeczka

Absolwent informatyki  i psychologii klinicznej w Poznaniu.

Jako inżynier zajmował się pomiarami ruchu gałki ocznej w Instytucie Biocybernetyki i Inżynierii Biomedycznej PAN oraz systemami uczącymi się i wspomaganiem decyzji na Politechnice Poznańskiej. Jako psycholog pracował w szpitalu psychiatrycznym i w poradni terapii uzależnień. Przez szereg lat prowadził prywatną praktykę psychoterapeutyczną. Jest członkiem Polskiego Towarzystwa Psychoterapii Psychoanalitycznej.

Ostatnie lata spędził w Dolinie Krzemowej, tworząc przeglądarki internetowe. Po przejęciu władzy przez PiS zorganizował struktury KOD-u na zachodzie USA i koordynuje działaniami ruchu na tym obszarze. W styczniu 2017 postanowił zwolnić tempo i zamieszkał w Sonoma Mountain Zen Center.

Prowadzi blog.dobek.org.

Print Friendly, PDF & Email
WP Twitter Auto Publish Powered By : XYZScripts.com