Demographen und Umfragen (LNP 245)

Ich bin ja schon seit längerem skeptisch gegenüber euren Meinungen und bin auch sehr häufig anderer Meinung, aber es gibt durchaus interessante Impulse. Heute aber war es tatsächlich so, dass ich mehrfach pausieren musste. Das ist schon länger nicht mehr passiert. Aber gut darum geht es eigentlich nicht.

Ich wollte was zum Thema Meinungsumfragen loswerden, weil mir das A) generell auf den Wecker geht, B) Journalisten die Thematik im Allgemeinen nicht wirklich verstanden zu haben zu scheinen und C) es doch einigermassen wichtig ist diese Dinge auseinander zu halten:

Ihr (aber ich glaube vor allem Ulf) wart ja der Meinung, dass die Sonntagsfrage eine Wahlprognose sein sollte. Das ist explizit und gerade nicht der Fall. Der Unterschied mag euch marginal vorkommen, aber eine Umfrage versucht zu erörtern „wie denkt die Bevölkerung gerade“, eine Prognose versucht zu bestimmen „wie wird die Bevölkerung sich an einem späteren Zeitpunkt verhalten“. Insbesondere sollten eine Umfrage und eine Prognose nur in Ausnahmefällen identisch aussehen.

Ich denke das (weitverbreitete) Missverständnis kommt aus der Tatsache, dass „Vorhersagemodell“ und „reweighting“ identische Techniken sind. Beides gewichtet Antworten unterschiedlicher Personen unterschiedlich stark. Aber konzeptionell sind es zwei verschiedene Operationen:

Reweighting ist das einfachere zu verstehen, also fangen wir damit an. Alle empirische Versuche die Bevölkerung zu befragen (potentielle Ausnahme: Die Wahlen selbst) basieren auf der Aussage eines (kleinen) Subsets der Gesamtbevölkerung. Die wird immer als „zufällig ausgewählt“ bezeichnet, aber das ist ein Begriff der ziemlich schwammig ist. Die ersten Versuche waren tatsächlich einfach: „Nehmen wir 1000 zufällige Telefonnummern aus dem Telefonbuch und fragen die“. Nun das hat als Nachteil: Man fragt schonmal niemand der nicht im Telefonbuch steht. Aber es kann halt auch sein, dass die 1000 Nummern die ich diese Woche gezogen hab 2/3 Frauen gehören und nur 1/3 Männer.
Da man sich dieser Fehlerquelle bewusst ist kann man dafür korrigieren. Das geht in etwa so: Man stellt allen Teilnehmern zwei Sätze von Fragen. 1) Die woran man interessiert ist (hier also „wen würdest du wählen?“) und 2) Fragen um den Menschen kategorisieren zu können (sowas wie Geschlecht? Alter? Haushaltsgröße und -einkommen?). Und dann geht man zum statistischen Bundesamt und fragt: Wie viele Menschen dieser Kategorie gibt es denn? Wenn man das alles hat, kann man herkommen und die Menschen „richtig“ zählen (in dem Beispiel von oben würde man die Antworten der weiblichen Teilnehmer jeweils nur halb gewichten).

Natürlich gibt es jetzt beliebig viele Meinungen von wegen welche Kategorisierungen man verwenden muss/kann/sollte und das ist auch so ein curse-of-dimensionality Problem, sodass man am Ende nicht mehr als eine Handvoll Kategorien haben darf bevor man die einzeln Bins nicht mehr statistisch sinnvoll absampled. Aber das hier ist konzeptionell straight-forward (in der Praxis immer noch eine Herausforderung). Klärt aber halt auch nur „wie denkt die Bevölkerung gerade“. Insbesondere passiert hier aber (normalerweise) keine Gewichtung auf Grund des „woran wir interessiert sind“ Teils der Fragen. Es gibt Vermutungen, dass sowas wie social-desirability einen Einfluss darauf hat, aber zumindest bei dem was 538 im Vorlauf von den letzten beiden Wahlen angeschaut hat, war die Nützlichkeit von dieser Betrachtung nicht nachweisbar.

Vorhersagemodell macht deutlich mehr. Offensichtlich sind auch alle Probleme von oben da und müssen gelöst werden, aber jetzt geht es auch noch darum zu separieren ob die Leute tatsächlich auch wählen gehen (selbst wenn sie ihre Meinung nicht ändern könnten sie ja zuhause bleiben, Stichwort: Asymmetrische (De)Mobilisierung). Und es gibt kurzfristige Effekte die wieder verschwinden (z.B. Schulzzug-Begeisterung oder aktuelle Skandale die wieder vergessen werden). Ganz abgesehen von dem aktiven Wahlkampf zu dem natürlich auch die Informationen aus den Wahlumfragen kommen.
Gerade in Deutschland ist das wahrscheinlich auch nochmal härter gut zu modellieren als in den USA, da unser Wahlsystem komplexer ist und bei uns taktisches Wählen viel verbreiteter ist (allein die ganzen (Leih-)Erststimmen der kleineren Parteien, auch wenn das nachgelassen hat)

Mir ist nicht bekannt, dass irgendjemand in Deutschland auch nur versucht Modelle für letzteres zu bauen (ich hatte zur letzten Bundestagswahl mal gesucht, da gab es eine Gruppe aus ?Mannheim?, aber gerade verglichen mit 538 war das sehr oberflächlich). Aber es ist schon das Problem der Journalisten und der Medien, wenn sie den Zahlen der Umfrageinstituten mehr Bedeutung zuschreiben als die da reinstecken. Viel wäre schon geholfen, wenn einfach mal die Fehlerbalken der Schätzungen dran stehen würden. Die einzigen beiden Bins die hart ausserhalb der statistischen Unsicherheiten liegen sind AfD und CDU, aber natürlich sind die Fehler extrem korreliert.

Ich möchte jetzt echt nicht sagen, dass Sachsen-Anhalt als Aushängeschild für die Umfrageinstitute gut ist, aber eure Kritik/Bewertung war absolut unfundiert und weckt bei mir mehr Zweifel an euren Aussagen in Thematiken in denen ich mich weniger auskenne, als dass es mein Vertrauen in die Fundiertheit eurer Darstellung stärken würde.

3 „Gefällt mir“