Warum ChatGPT und Bard bei der Internet-Suche Unsinn erzählen

Die Methoden zur automatisierten Fakten-Überprüfung werden zwar immer besser. Sie haben aber noch viele blinde Flecken.

51

(Bild: Shutterstock)

15.02.2023, 10:21 Uhr

Lesezeit: 6 Min.

MIT Technology Review

Von

Dr. Wolfgang Stieler

Das nennt man dann wohl einen Fehlstart: Gefühlte zwei Sekunden nachdem Microsoft die ersten User seine mit ChatGPT aufgebohrte Suchmaschine Bing ausprobieren ließ, antwortete diese auf einige Fragen mit falschen oder unsinnigen Antworten. Dem Suchmaschinen-Platzhirsch Google erging es auch nicht viel besser. Als eine sachlich falsche Antwort des Sprachmodells Bard bekannt wurde, schickte dies sogar den Aktienkurs des Unternehmens in den Keller.

Die spektakulären Fehlstarts zeigen zwei Schwächen der Technologie:

Die mittlerweile breit diskutierte Fähigkeit großer Sprachmodelle, Fakten zu erfinden.
Die nach wie vor existierenden Schwierigkeiten bei der automatisierten Erkennung von falschen Behauptungen in Texten.

Die Schwierigkeiten für Suchmaschinenbetreiber

Die Überprüfung von Antworten großer Sprachmodelle auf sachliche Richtigkeit ist sehr ähnlich zur automatisierten Überprüfung von Fake News, bestätigt Andreas Vlachos von der University of Cambridge. Vlachos hat unter anderem die Fake-News-Challenge mit ins Leben gerufen. Er veröffentlichte 2022 einen umfangreichen Übersichtsartikel zum automatisierten Fakten prüfen, der einen ziemlich guten Eindruck davon gibt, vor welchen Schwierigkeiten Suchmaschinenbetreiber stehen, die Suchergebnisse von einem großen Sprachmodell formulieren lassen.

Abgesehen davon, dass es sehr schwierig ist, irreführende Aussagen zu prüfen, Gerüchte, oder Verdrehungen der Wahrheit, ist auch die simple Prüfung von Tatsachen schon schwer genug. Alle, wirklich alle Behauptungen, die in irgendwelchen Texten erhoben werden, zu überprüfen, ist weder praktisch möglich noch sinnvoll: Subjektive Behauptungen und Einschätzungen beispielsweise lassen sich ebenso wenig mit Fakten absichern, wie Spekulationen über die Zukunft. Offensichtliche und triviale Aussagen wie "Wasser ist nass" müssen nicht überprüft werden. Die Schwierigkeit, vor der auch menschliche Experten immer wieder stehen, ist Aussagen zu finden, deren Verifikation wirklich wichtig ist. Und schon die "Claim Detection" in Texten hat sich zu einem eigenen Untergebiet der Forschung entwickelt.

Eines der bekanntesten automatisierten Systeme dieser Art, der ClaimBuster wurde beispielsweise entwickelt, um Behauptungen in politischen Debatten zu checken. Dementsprechend sucht die Software nicht nur nach Schlagworten, sondern auch nach bekannten Namen im Text, denn eine falsche Behauptung eines bekannten Politikers wird als sehr viel relevanter eingestuft. Der Definition nach checkt das System "claims worth checking" mit einer Support Vector Machine, die einen Wert für die Relevanz der Behauptung auswirft. Ist der größer als der Schwellwert, muss die Behauptung geprüft werden.

Welche Behauptungen sind wichtig?

Die Subjektivität bei der Auswahl wichtiger und relevanter Behauptungen und die Einführung von Schwellwerten wird in der Community allerdings kontrovers diskutiert. Lev Konstantinovskiy von der britischen Faktenprüfer-Organisation "Full Fact" hat gemeinsam mit Kollegen deshalb eine Methode vorgeschlagen, um sämtliche objektiven Behauptungen in einem Text zu erkennen. Das ist allerdings auch nicht trivial: In einem Proof of Concept entwickelte das Team ein Schema zu Annotierung von Texten. Der so erzeugte Datensatz aus rund 5.000 Behauptungen und Nicht-Behauptungen diente zum Training mehrerer Machine-Learning-Modelle. Das beste Modell identifiziert zwar Behauptungen mit 90 Prozent Genauigkeit. Jede feinere Einstufung der Behauptung, etwa in subjektive Behauptungen, Projektionen auf die Zukunft etc. gelang jedoch nur mit geringerer Wahrscheinlichkeit.

Ähnlich schwierig ist die Erhebung von Fakten, die eine Behauptung stützen oder widerlegen sollen. Auch dafür gibt es seit 2018 einen jährlichen Workshop mit Wettbewerb. Viele Arbeitsgruppen, die daran teilnehmen, nutzen die Wikipedia API. Aus den extrahierten Fakten und Behauptungen, die in Vektoren übersetzt werden, berechnet die Software dann etwa das Skalarprodukt als Maß für die Verifizierbarkeit – je kleiner das Maß, desto schlechter wird die Behauptung belegt. Mit Beispiel-Datensätzen funktionieren die Verfahren in der Regel ganz gut – 70, 80 oder auch 90 Prozent Genauigkeit dürften allerdings für eine Chatbot-Suchmaschine bedeuten, dass sie immer noch sehr viel Unfug produziert. Ganz abgesehen von Beispielen wie die, über die ChatGPT und Bard gestolpert sind: Behauptungen wie "XY war der erste der AB geschafft hat" sind immer nur so lange wahr, bis jemand ein Gegenbeispiel heranschafft.

Interessanterweise stammt einer der wenigen veröffentlichen Ansätze unter Einsatz eines großen Sprachmodells weder von Google noch von OpenAI oder Microsoft. Angela Fan von Meta AI und Kollegen trainierten ein Sprachmodell darauf, aus extrahierten Behauptungen Fragen zu formulieren, die Fragen per Internet-Suche zu recherchieren und aus den Ergebnissen der Suche wiederum Antworten zu formulieren. Das System war allerdings nicht als vollautomatischer Faktenprüfer gedacht. Vielmehr wollten Fan und Kollegen zeigen, dass eine automatisch erstellte Zusammenfassung in Form von Fragen und Antworten menschlichen Faktenprüfern hilft, Texte schneller und genauer zu beurteilen.

Zugang zu den richtigen Beweisen für die Nutzer

Das endgültige Urteil darüber, ob Behauptungen wahr oder falsch sind, will auch Vlachos ohnehin am liebsten dem Nutzer selbst überlassen. "In meiner Arbeit vermeide ich es, die Worte wahr oder falsch zu verwenden", sagt er. "Ich ziehe es vor, von 'durch Beweise gestützt oder widerlegt' zu sprechen." Selbst professionelle Faktenprüfer hätten ihm versichert, sie bräuchten kein System, das sagt, dies ist wahr, das ist falsch: "Alles, was sie brauchen, sind die Beweise, und sie sind froh, wenn sie selbst entscheiden können. Und in der Tat würde ich behaupten, dass es besser ist, selbst zu entscheiden. Es ist besser für jeden, wenn er Zugang zu den richtigen Beweisen hat, und dann können wir selbst entscheiden, was wir von diesem Fall halten."

"Wir sind sehr gut darin, uns gegenseitig unter die Lupe zu nehmen, sehr gut darin, uns gegenseitig zu hinterfragen", sagt er. "Aber wir sind nicht gut darin, das zu hinterfragen, was aus dieser allwissenden, allmächtigen Maschine herauskommt." Genau diese Fähigkeit, sagt Vlachos, müssten wir dringend trainieren. "Es geht darum, dass wir uns darin üben, die Ergebnisse der Sprachmodelle so zu hinterfragen, wie wir uns selbst hinterfragen. Ihre Ergebnisse als eine weitere, eine andere Stimme zu interpretieren. Wir sollten sie hinterfragen und lernen, mit ihr zusammenzuarbeiten."