Hier im Forum wurde in einem der "Wahl-in-Amerika"-Threads folgende Website gepostet [Links nur für registrierte Nutzer]
Da es mit der Unterschrift "Kritische Sozialwissenschaften" versehen war, bin ich neugierig geworden, denn für gewöhnlich sind Sozialwissenschaften nur Humbug und Zauberei - und meist das Gegenteil von Kritisch. Im Gegenteil ist es doch dieser Menschenschlag, der uns Genderstudies, Political Correctness und Safe Spaces eingebrockt hat. Insofern war es spannend zu erfahren, wie Klein Sozialwissenschaftler mathematische Methoden anwendet. Insbesondere ein Artikel hat mich interessiert und zwar dieser [Links nur für registrierte Nutzer]
Im Auftakt zum Artikel heisst es:
Die Association of Certified Fraud Examiners (ACFE) sagt von sich: “We are the world’s largest anti-fraud organization and premier provider of anti-fraud training and education”. Die Aufgabe, [Links nur für registrierte Nutzer], lautet:“The mission of the Association of Certified Fraud Examiners is to reduce the incidence of fraud and white-collar crime and to assist the Membership in fraud detection and deterrence.”Die Vereinigung ist somit eine Vereinigung der Leute, die sich darauf spezialisiert haben, Betrug aufzudecken. Darunter: Wahlbetrug.
Ein wenig Schmökern auf der Seite der ACFE bringt einen Text zum Vorschein, der die Überschrift trägt: [Links nur für registrierte Nutzer]. Benford’s Law trifft Aussagen über die zu erwartende Verteilung von Ziffern in einem Datensatz, also die Häufigkeit, mit der eine 1, eine 2, eine 3 usw. auftaucht, z.B. an erster oder zweiter Stelle. Es gibt den First-Digit Test, den Second Digit Test, den first-two Digits Test, den First Three Digits Test und den Last Two Digits Test um Betrug auf die Spur zu kommen.
Dabei erwartet man beispielsweise folgende Verteilung im First Digit Test:
Heisst, bei einer großen Datenmenge wird man eine 1 wesentlich häufiger (~6.6x mehr) erwarten können als eine 9. Der Autor schreibt weiter:
Getan hat dies Walter Mebane, nicht für den first digit, sondern den second digit Test, um Unregelmäßigkeiten bei der Präsidentschaftswahl 2009 im Iran aufzudecken, die Mahoud Ahmadinejad für sich entschieden hat. Benford’s Law ist kein Beweis, dass Wahlbetrug vorgelegen hat, aber es ist ein guter Anhaltspunkt, der dann, wenn es noch mehrere andere Anhaltspunkte gibt, die Indizienkette so eng macht, dass man von Wahlbetrug ausgehen muss. Wie die meisten Anwendungen in den Sozialwissenschaften so ist auch die Anwendung von Benford’s Law kritisiert worden Eine Studie die Joseph Deckert, Mikhail Myagkov, and Peter C. Ordeshook 2011 durchgeführt haben, kommt zu dem Ergebnis, dass Benford’s Law als Anwednung zur Aufdeckung von Wahlbetrug problematisch sei. Mebane hat die Studie von Deckert, Myaghov und Ordershook seinerseits kritisiert, vernichtend, wenn man so will, denn er zeigt auf, dass Deckert et al. Tests, die nichts mit Benford’s Law zu tun haben, als Anwendung desselben ausgeben, auf Basis einer Simulationsanalyse argumentieren, die keinerlei Relevanz für die Fragestellung hat und zudem den zwei Digit Test falsch anwenden.
[Links nur für registrierte Nutzer][Links nur für registrierte Nutzer]
[Links nur für registrierte Nutzer][Links nur für registrierte Nutzer]
Man kann sich diese Argumente mal geben, wobei die Kritik im zweiten verlinkten Paper für den Sachverhalt in dieser amerikanischen Wahl keine Rolle spielt. Warum sieht man gleich, es werden die folgenden Schaubilder gezeigt:
Eine second digit Analyse nach Benford’s Law zeigt für den Vergleich der erwarteten Verteilung mit der beobachteten Verteilung abermals für Biden eine extreme Abweichung, während die Verteilung bei Trump mehr oder minder der Erwartung entspricht:
Am Ende schließt der Autor mit dem folgenden Satz:
So, der (mathematisch) unbedarfte Leser wird sich jetzt die Bilder anschauen und sagen: "Tja, jetzt hat Trump die Demokraten bei den Eiern und muss nur noch zudrücken".Die Frage, ob im Rahmen der US-Präsidentschaftswahl systematischer Wahlbetrug betrieben wurde, ist nicht offen. Sie ist beantwortet, mit einem klaren “Ja”.
Der Sack ist zu.
Ist das so? Natürlich nicht! Zunächst mal die Formulierung von [Links nur für registrierte Nutzer]
Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter Länge an einer bestimmten Stelle einer Zahl ist, desto wahrscheinlicher ist ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,6-mal so häufig auf wie Zahlen mit der Anfangsziffer 9.
Mathematisch ausgedrückt, für zufällig gegebene Zahlen tritt die Ziffer d {\displaystyle d} mit Wahrscheinlichkeit auf*. Zur Begründung siehe [Links nur für registrierte Nutzer]:
Und das ist jetzt auch der Punkt, warum sciencefiles-Artikel gequirlte Schifferscheisse ist. Die verwendeten Daten kann man sich in den jeweiligen Wahlbezirken runterladen, die sind korrekt, aber: Wahlbezirke sind halt genau so zugeschnitten, dass sie alle die gleiche Größe haben! Für Chicago sind das im Schnitt 516 mit einer ziemlichen engen Standardabweichung (173). Es gab dort 7 Precincts mit einer Anzahl von Wählern kleiner als 100, 20 mit einer Wähleranzahl von 1000+, heisst am Ende: 98.7% haben am Ende eine 3 digit Anzhal an Voters mit ziemlich der selben Anzahl an Stimmen- natürlich ist das das Gegenteil von verschiedenen Grössenordnungen. Und das ist exakt was im obigen Paper Decker at al steht:Das NBL beruht auf der Gleichverteilung der Mantissen der Logarithmen der Zahlenwerte des Datensatzes. Der Grund für die erstaunlich weite Gültigkeit des NBL liegt an dem Umstand, dass viele reale Datensätze [Links nur für registrierte Nutzer] sind, also nicht die Häufigkeiten der Daten selbst, sondern die Größenordnungen dieser Daten einer Normalverteilung folgen. Bei genügend breiter Dispersion der normalverteilten Logarithmen (wenn die Standardabweichung mindestens etwa gleich 0,74 ist) kommt es dazu, dass die Mantissen der Logarithmen stabil einer Gleichverteilung folgen. Ist die Standardabweichung allerdings kleiner, sind auch die Mantissen normalverteilt, und das NBL gilt nicht mehr, zumindest nicht mehr in der dargestellten einfachen Form. Ist die Standardabweichung kleiner als 0,74, kommt es zu dem in der Statistik nicht allzu häufigen Effekt, dass sogar der jeweilige Mittelwert der Normalverteilung der Logarithmen die Auftretenshäufigkeit der Ziffernsequenzen beeinflusst.
Insofern ist der Sack eben nicht zu, sondern sehr weit auf. Und „kritische Sozialwissenschaftler“ sind genau solche Gurken wie ihre normalen Kollegen. Wer das sich nochmal langsam, aber auf englisch erklären lassen will:The argument, in its simplest form, is perhaps best illustrated by Brady’s (2005) observation that if a competitive two candidate race occurs in districts whose magnitude varies between 100 and 1000, the modal first digit for each candidate’s vote will not be 1 or 2 but rather 4, 5, or 6.
[Links nur für registrierte Nutzer]