"Sachsen-Anhalt ist am schlimmsten": ChatGPT wertet Ostdeutsche ab

Nirgendwo ist es so schlimm wie in Sachsen-Anhalt: So denkt offensichtlich Künstliche Intelligenz (KI). Das zeigt eine Studie der Hochschule München (HM) laut "Heise": 

  • KI-Modelle bewerten Menschen aus Ostdeutschland systematisch schlechter als Westdeutsche.
  • Das gilt selbst für neutrale Eigenschaften, nicht nur für Stereotypen (siehe unten).
  • Die Studie testete die ChatGPT-Modelle 3.5 und 4 sowie das deutsche LeoLM.

Die Studie zeigt vor allem einen Fehler in der Denkweise von KI. Dieser kann grundsätzlich alle Gruppen treffen, nicht nur Ostdeutsche: Junge und Alte, Männer und Frauen, Menschen mit blonden oder braunen Haaren. 

Problematisch wird der Fehler, wenn eine KI auf dieser Grundlage Entscheidungen trifft –  zum Beispiel Bewerber für Jobs und Kredite filtert oder die Kosten einer Autoversicherung festlegt.

Aktuell relevant wird die HM-Studie aus dem Jahr 2024, weil ChatGPT-Entwickler OpenAI vergangene Woche in einer Meldung schrieb, seiner KI 30 Prozent der politischen Voreingenommenheit ausgetrieben zu haben. Das habe deren internes Prüfsystem ergeben.

Diese Zahlen lassen sich nur schwer unabhängig prüfen. Aber sie legen nahe: 

  • Selbst nach Unternehmenszahlen bestehen 70 Prozent der Probleme aus dem vergangenen Sommer weiterhin.
  • Selbst nach Unternehmenszahlen liefert ChatGPT wöchentlich mindestens Zehntausende verzerrte Ergebnisse, ohne seine Nutzer über diese Unsicherheiten zu informieren.

„Sachsen-Anhalt ist am schlimmsten“

Informatikprofessorin Anna Kruspe und ihre Mitarbeiterin Mila Stillman untersuchten in ihrer Analyse „Saxony-Anhalt is the Worst“, wie große Sprachmodelle (Large Language Models, kurz LLMs) deutsche Bundesländer bewerten.

Diese KIs bilden sich ihre Meinung auf Grundlage der Informationen, die sie im Internet finden. Kruspe und Stillman fragten auch, ob die KIs dabei Informationen auf Gebiete übertragen, in denen sie nicht zutreffen. 

Dazu ließen die Autoren die KIs Bundesländer nach Eigenschaften bewerten, etwa Fleiß, Attraktivität und Fremdenfeindlichkeit. Ostdeutsche Bundesländer erhielten durchweg niedrigere Werte.

Bemerkenswerterweise vergab die KI die niedrigen Werte für positive und negative Merkmale. Laut KI sind die Menschen in den neuen Bundesländern also weniger ehrgeizig und weniger faul als die Menschen in den alten Bundesländern. Am schlimmsten sei es in Sachsen-Anhalt.

KI überträgt Werte auf sachfremde Themen – zum Nachteil der Bewerteten

Aus menschlicher Sicht mag die KI-Weltsicht unlogisch wirken. Aus KI-Sicht nicht. Studienmitautorin Mila Stillman erklärt es so: Das Modell habe „gelernt“: „In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen.“ Unter dem Strich bleibt laut Studie daher eine negativere Bewertung der ostdeutschen Bundesländer.

Zum Test dieser Annahme fragten die Studienautoren die KIs nach der durchschnittlichen Körpertemperatur der Menschen, die bei allen Menschen im Durchschnitt gleich sein müsste. Mit Ausnahme von Chat GPT-4 wiesen die KI-Modelle Ostdeutschen niedrigere Temperaturen zu. 

Die KI überträgt also Muster, die sie aus Trainingsdaten lernt, auf sachfremde Themen. Ein Hinweis auf tief verankerte Vorurteile in der Modellarchitektur.

Selbst sogenannte Debiasing Prompts – also Anweisungen, fair und herkunftsneutral zu bewerten – helfen laut der Studie nur bedingt. Die Verzerrung sitzt zu tief im Fundament der Systeme.

Alte Verzerrung in neuem Gewand

Das Phänomen einer KI mit Vorurteilen ist so alt wie KI selbst. Frühere KI-Systeme fielen durch diskriminierende und rassistische Aussagen auf. 2016 musste Microsoft seinen Chatbot „Tay“ nach weniger als 24 Stunden wieder vom Netz nehmen, weil er in rassistische und frauenfeindliche Tiraden verfiel – trainiert mit dem, was er auf Social Media aufgeschnappt hatte.

Heute ist KI weiter verbreitet als damals und sich noch viel weiter verbreiten, unter anderem in Suchmaschinen, Schreibprogrammen, Bewerbungsprozessen oder Kreditbewertungen. Damit steigt das Risiko, algorithmische Vorurteile könnten sich auf Menschen auswirken.

Die Forscher warnen vor unreflektiertem KI-Einsatz: Entscheidet sie über Personal, Bonität oder andere wichtige Themen, könnten Menschen ohne sachliche Grundlage benachteiligt werden. 

Für Ostdeutsche hat die HM-Studie diesen Fehler belegt. Weil dessen Ursache aber auf Millionen Eigenschaften übertragbar bleibt, betrifft er wohl alle Menschen auf die eine oder andere Art.