Empirische Daten müssen immer im Kontext gesehen werden

Statistische Ergebnisse vs. Einzelfälle

In der Zeitung entdeckt Markus einen weiteren Artikel über das Wahlverhalten in Deutschland. „Hier steht: Ein Wahlforschungsinstitut hat sich die Likes angeschaut, die Menschen über 40 Jahren in sozialen Netzwerken setzen. Das Institut hat herausgefunden, dass jemand, der elektronische Musik, Outdoorsport und spannende Streaming-Inhalte mag, meistens Partei C wählt.“

Markus schaut Nina bedeutungsvoll an: „Wenn ich mir deine Likes aus der letzten Zeit anschaue, trifft das doch alles auf dich zu. Du müsstest also Partei C wählen!“ Nina schüttelt den Kopf: „Ich habe Partei C aber noch nie gewählt. Ich finde es auch ziemlich gewagt, Parteivorlieben an Likes in sozialen Netzwerken festzumachen. Der Algorithmus, den das Institut verwendet, würde bei mir definitiv falsch liegen.“ Markus liest den Artikel genauer …

… und stellt fest, dass es doch nicht ganz so einfach ist. In dem Artikel steht nämlich auch. „Dass jemand Partei C wählt, kann über die Likes mit einer Wahrscheinlichkeit von 80 Prozent vorhergesagt werden. Allerdings liegt die Treffsicherheit für die Wähler*innen von Partei C nur bei 31 Prozent.“

Markus ist ratlos: „Das verstehe ich nicht, es müssten doch 80 Prozent der Wähler*innen von C korrekt identifiziert werden!“ Nina schlägt vor, die Wahrscheinlichkeiten mithilfe eines einfachen Beispiels selbst auszurechnen.

Nina nimmt Papier und Stift zur Hand. „Nehmen wir an, dass bei 10.000 Personen 10 Prozent die Partei C wählen“, sagt sie. „Das heißt, dass 1.000 Personen Partei C und 9.000 eine andere Partei wählen. Der Algorithmus ordnet beide Gruppen mit einer Wahrscheinlichkeit von 80 Prozent richtig zu.“

Nina erklärt, was das konkret bedeutet: „Unter den 9.000 Wähler*innen anderer Parteien werden also 7.200 Personen richtig eingestuft, aber 1.800 fälschlicherweise als Wähler*innen von Partei C. Außerdem werden von den Wähler*innen der Partei C 800 richtig eingeteilt und 200 falsch.“

Nina addiert kurz die Werte: „Der Algorithmus ermittelt, dass insgesamt 2.600 Personen die Partei C wählen. Tatsächlich wird sie aber nur von 800 Personen gewählt. Also liegt die Treffsicherheit für die Aussage, dass eine Person Partei C wählt, bei rund 31 Prozent*.“

* Berechnungsformel: 800 / (1800 + 800) = 31 Prozent

Das heißt: richtig eingestufte Wähler*innen der Partei C durch die Zahl richtig plus falsch eingestufter Wähler*innen der Partei C.

Exercise:

Kennt man die ungefähre Wahrscheinlichkeit, mit der eine bestimmte Partei gewählt wird, kann man davon durchaus auf die politische Stimmungslage im Land schließen. Rückschlüsse auf eine Einzelperson sind damit aber nicht möglich, ebenso wenig widerlegen oder bestätigen Einzelne eine statistische Aussage.

Eine Frage der Perspektive

Nina und Markus blättern weiter in unterschiedlichen Zeitungen. Nina springt eine Überschrift ins Auge. „Umfrage: Politiker*innen sollen sich stärker in sozialen Netzwerken engagieren“, liest sie vor. Markus wundert sich darüber, denn er liest gerade eine andere Überschrift: „Studie: Weniger Politik-Präsenz in sozialen Netzwerken erwünscht“.

Markus findet das seltsam: „Die Überschriften widersprechen sich doch komplett. Wer hat denn jetzt recht?“ Nina empfiehlt, beide Artikel sorgfältig zu lesen. Es stellt sich heraus, dass die Zeitungsberichte tatsächlich auf derselben Meinungsumfrage basieren. Allerdings …

… wird jetzt auch deutlich, wie die Artikelüberschriften zustande gekommen sind. Die Ergebnisse der Studie zeigen, dass 20 Prozent der Befragten für eine stärkere Präsenz von Politiker*innen in sozialen Medien gestimmt haben, 20 Prozent gegen eine stärkere Präsenz und 60 Prozent der Befragten unentschlossen gewesen sind. Die eine Zeitung hat also die Stimmen der Befürworter*innen betont, die andere die Stimmen der Gegner*innen. Die unentschlossene Mehrheit fiel bei beiden einfach unter den Tisch.

Nina und Markus stellen fest: Die Wahrnehmung statistischer Ergebnisse hängt stark von ihrer Darstellung ab. Wer sich ein fundiertes Bild machen will, muss daher meist neben der Berichterstattung auch einen Blick auf die zugrundeliegenden Daten beziehungsweise die ursprüngliche Veröffentlichung werfen.