07. November 2022 | Pressemitteilung
Sind die Daten des Facebook Werbeanzeigenmanager präzise genug für sozialwissenschaftliche Forschung?
© iStockphoto.com/B4LLS
Wissenschaftler*innen des Arbeitsbereichs Digitale und computergestützte Demografie am Max-Planck-Institut für demografische Forschung (MPIDR) und Kolleg*innen haben jetzt eine Studie im „Journal of the Royal Statistical Society: Series A“ veröffentlicht, in der die Qualität von Facebook-Werbedaten für die sozialwissenschaftliche Forschung systematisch untersucht wird. Sie bewerten die Genauigkeit der Werbedaten durch einen Vergleich: die Angaben über demografische Informationen zu Geschlecht, Alter und Wohnort von mehr als 133.000 Facebook-Nutzer*innen in einer Online-Umfrage werden mit der entsprechenden Einteilung durch Facebook verglichen. Die Ergebnisse deuten darauf hin, dass die Werbedaten in der Forschung verwendet werden können, wenn zusätzliche Schritte unternommen werden, um ihre Genauigkeit zu überprüfen.
Sozialwissenschaftler*innen nutzen den Facebook Werbeanzeigenmanager (FAM) immer häufiger für Forschungszwecke, indem sie entweder Informationen über Nutzer*innen und ihre digitalen Spuren sammeln oder Teilnehmende für Umfragen rekrutieren.
FAM liefert aggregierte demografische Informationen über Facebook-Nutzer*innen, wie etwa den Wohnort. Sozialwissenschaftler*innen nutzen zum Beispiel Informationen über die Anzahl der Facebook-Nutzer*innen, die im Ausland leben, um die Zahl von Immigrant*innen in einem bestimmten Land zu berechnen. Die über FAM verfügbaren Informationen sind besonders in Krisenzeiten nützlich, da sie leichter und schneller verfügbar sind als traditionelle Volkszählungs- und Registerdaten.
Um Teilnehmende für Umfragen zu gewinnen, etwa internationale Migrant*innen, wenden sich Forschende über FAM an Nutzer*innen, die im Ausland leben. Auf diese Weise ist es einfach und kosteneffizient, Mitglieder kleiner Teilgruppen der Bevölkerung in Umfragen zu erfassen, die sonst schwer zu erreichen sind.
Beide Ansätze – Digital Trace Data zu nutzen und Umfragen durchzuführen – hängen von der Genauigkeit der Daten ab, die Facebook über seine Nutzer*innen bereitstellt. Es ist jedoch wenig darüber bekannt, wie genau diese Daten sind.
Wie lässt sich die Genauigkeit der Nutzer*innenklassifizierung durch Facebook indirekt bewerten?
„Die Genauigkeit zu bewerten ist nach wie vor schwierig, da Forschende in der Regel keinen Zugang zu den Algorithmen haben, die Facebook verwendet, um seine Nutzer*innen bestimmten demografischen Gruppen oder Interessen zuzuordnen“, sagt Emilio Zagheni, Direktor des MPIDR.
Forschende müssen daher Wege finden, um die Genauigkeit der Nutzer*innenklassifizierung durch Facebook indirekt zu bewerten. „Deshalb nutzen wir die Daten aus der COVID-19 Health Behavior Survey (CHBS), für die wir über den Facebook Werbeanzeigenmanager Teilnehmende gewonnen haben. Mehr als 133.000 Befragte aus acht Ländern nahmen an der groß angelegten, anonymen, länderübergreifenden Online-Umfrage teil, in der wir Verhalten und Einstellungen der Menschen während der ersten Monate der COVID-19-Pandemie, von März bis August 2020, untersucht haben“, sagt André Grow, ein ehemaliger MPIDR-Forscher.
Die Teilnehmenden wurden über FAM rekrutiert. Der Werbemanager hat die Nutzer*innen in zahlreiche, sich nicht überschneidende demografische Untergruppen aufgeteilt, um die Repräsentativität der Ergebnisse zu maximieren. Genau deshalb ist die Umfrage gut geeignet, um die Genauigkeit der Facebook-Nutzer*innenklassifizierung länderübergreifend und vergleichend zu bewerten.
Die Klassifizierung durch Facebook war weitgehend zuverlässig
„Wir können indirekt beurteilen, wie oft nach eigenen Angaben junge oder weibliche Umfrageteilnehmerinnen von FAM korrekt als jung oder weiblich eingestuft wurden und wie sich der Grad der korrekten Einstufung zwischen den Ländern unterscheidet“, sagt Daniela Perrotta. Die MPIDR-Forscherin und ihre Kolleg*innen quantifizierten die Anzahl der Übereinstimmungen zwischen den Umfrageantworten der Nutzer*innen und der Facebook-Klassifizierung für drei demografische Merkmale: Geschlecht, Alter und Wohnregion.
Sie fanden heraus, dass die Klassifizierung von Facebook weitgehend zuverlässig ist, sich allerdings zwischen den einzelnen Merkmalen und zwischen den Ländern unterscheidet.
In allen Ländern wurden zwischen 86 und 93 Prozent der Befragten in allen drei Merkmalen korrekt klassifiziert. Die Zahl der vollständig korrekten Klassifizierungen war in Belgien und Frankreich am niedrigsten und in den Niederlanden am höchsten. Fehlklassifizierungen traten am häufigsten bei der Wohnregion und am seltensten beim Geschlecht auf.
Warum war die Fehlerquote für die Wohnregion höher als für Geschlecht und Alter? Eine mögliche Erklärung dafür ist, dass die von Facebook vorgenommenen Klassifizierungen von Geschlecht und Alter größtenteils auf Selbstauskünften beruhen, die sich im Laufe der Zeit wahrscheinlich nicht oder in vorhersehbarer Weise ändern werden. Im Gegensatz dazu wird die Region, in der die Nutzer*innen wohnen, von Facebook anhand von Daten wie dem Standort des Mobiltelefons abgeleitet und kann sich häufig ändern (z. B. bei Personen, die täglich pendeln), wodurch sich die Wahrscheinlichkeit einer falschen Klassifizierung erhöhat. Tatsächlich betrafen die meisten falschen Wohnortklassifizierungen Personen, die angaben, in Regionen zu leben, die an die Regionen angrenzten, denen sie von Facebook fälschlicherweise zugeordnet worden waren.
„Wir empfehlen anderen Forschenden, die Genauigkeit der Nutzer*innenklassifizierung für jedes demografische Merkmal, an dem sie interessiert sind, zu bewerten, bevor sie eine Umfrage starten“, sagt Daniela Perrotta. Sie fügt hinzu: „Dadurch können sie Ungenauigkeiten in der Hochrechnung auf Bevölkerungsebene vermeiden und geeignete Strategien entwickeln, um Datenverzerrung zu verringern. Außerdem können so übermäßig hohe Kosten vermieden werden, die durch die Rekrutierung nicht geeigneter Umfrageteilnehmer*innen entstehen.“
Originalpublikation
Grow, A., Perrotta, D., Del Fava, E., Cimentada, J., Rampazzo, F., Gil-Clavel, S., Zagheni, E., Flores, R.D., Ventura, I, Weber, I.: Is Facebook’s advertising data accurate enough for use in social science research? Insights from across-national online survey. Journal of the Royal Statistical Society: Series A (2022). DOI: 10.1111/rssa.12948
Autor*innen und Institutionen
André Grow, Max-Planck-Institut für demografische Forschung, Rostock
Daniela Perrotta, Max-Planck-Institut für demografische Forschung, Rostock
Emanuele Del Fava, Max-Planck-Institut für demografische Forschung, Rostock
Jorge Cimentada, Max-Planck-Institut für demografische Forschung, Rostock
Francesco Rampazzo, Universität Oxford
Sofia Gil-Clavel, Max-Planck-Institut für demografische Forschung, Rostock
Emilio Zagheni, Max-Planck-Institut für demografische Forschung, Rostock
René D. Flores, Universität Chicago
Ilana Ventura, Universität Chicago
Ingmar Weber, Qatar Computing Research Institute