Forschende der Johannes-Gutenberg-Universität (Mainz), der Universität Hamburg, des Allen Institute for AI, der University of Washington sowie der University of Colorado Boulder haben untersucht, wie sich Vorurteile gegenüber deutschen Dialekten auf sogenannte Large Language Models (LLMs) auswirken.
Dialekte stellen eine signifikante Komponente menschlicher Kultur dar und sind in allen Weltregionen anzutreffen. […] Da über 40 Prozent der Deutschen einen regionalen Dialekt sprechen und auch NLP-Tools wie LLMs in ihrem Dialekt nutzen wollen, stellt sich eine wichtige Frage: Werden diese Stereotype von den LLMs wiedergegeben und verstärkt?
– aus der Studie “Large Language Models Discriminate Against Speakers of German Dialects” (2025)1DOI 10.18653/v1/2025.emnlp-main.415
Übersetzung von mir (Original anzeigen)
Dialects represent a significant component of human culture and are found across all regions of the world. […] Since more than 40% of Germans speak a regional dialect (Adler and Hansen, 2022) and also want to use NLP tools such as large language models (LLMs) in their dialects (Blaschke et al., 2024b), a critical question arises: Are these stereotypes being reflected by and reinforced within LLMs?
Für die Untersuchung wurden insgesamt zehn LLMs mit zwei fiktiven Personen konfrontiert, einer Standarddeutsch- und einer Dialektsprecherin. Dies geschah auf zwei unterschiedliche Arten: Einerseits wurden die Personen explizit als Standard- und Dialektschreibende bezeichnet (dialect naming bias), andererseits wurden einfach die Eingaben (Prompts) der beiden Personen in Standardsprache bzw. Dialekt formuliert (dialect usage bias), wobei unterschiedliche Dialekte zum Einsatz kamen.
Den »großen Sprachmodellen« wurden anschließend sowohl assoziative als auch Entscheidungsaufgaben gestellt. So sollten sie den beiden Personen Eigenschaften zuschreiben oder etwa Berufe empfehlen.
Das Ergebnis ist unglaublich, ja nahezu unheimlich: Sowohl beim Dialect-Naming- als auch beim Dialect-Usage-Ansatz schrieben die LLMs Dialektsprechenden systematisch eher negative Eigenschaften wie »ungebildet« zu. Zudem empfahlen sie ihnen konsistent Tätigkeiten, die einen niedrigeren Bildungsgrad voraussetzen. Obwohl Dialektsprecherinnen laut soziolinguistischen Studien häufig als freundlicher wahrgenommen werden, wiesen ihnen die Modelle sogar in dieser Hinsicht eher die negative Eigenschaft »unfreundlich« zu.
Den Studienautorinnen zufolge birgt diese Voreingenommenheit erhebliche Risiken, da sie die Ergebnisse bei der Nutzung von LLMs verzerren kann.
Dies verdeutlicht die dringende Notwendigkeit, die Dialekt-Voreingenommenheit gezielt zu adressieren, da aktuelle LLMs weiterhin ein explizit diskriminierendes Verhalten gegenüber deutschen Dialektsprechenden an den Tag legen.
– aus der Studie “Large Language Models Discriminate Against Speakers of German Dialects” (2025)
Übersetzung von mir (Original anzeigen)
This highlights the pressing need to address dialect bias, as current LLMs continue to display explicit discriminatory behavior toward German dialect speakers.
Deutsche Dialekte würden zwar vor allem gesprochen und nicht so oft geschrieben, so die Autorinnen, doch sie beeinflussten selbstverständlich auch — vor allem informelle — schriftliche Kommunikation.
Nicht zuletzt — so ließe sich ergänzen — ist es bereits heute möglich, mit LLMs mündlich interagieren. Da dies künftig noch an Bedeutung gewinnen dürfte, könnte sich auch die Problematik der Dialektverzerrung weiter verschärfen, wenn ihr nicht entgegengewirkt wird.
Auf die Studie hatte mich (schon Ende November) Josef Prackwieser hingewiesen. Er ist Vorsitzender der Michael-Gaismair-Gesellschaft, wissenschaftlicher Mitarbeiter am Autonomiezentrum der Eurac und Kurator im Gründungsteam des NS-Dokumentationszentrums München.
- 1DOI 10.18653/v1/2025.emnlp-main.415

Scrì na resposta