Was ist eine KI Halluzination?

KI Halluzination kompakt

Einfach gesprochen handelt es sich bei einer KI Halluzination um die von einer KI überzeugend als richtig vorgetragenen falschen Antwort. Gebräuchlich ist auch im deutschen der englische Fachbegriff „AI Hallucination“.

Herkunft des Begriffs

Der Begriff KI Halluzination ist vom psychologischen Konzept der Halluzination abgeleitet.

Im August 2022 warnte Meta bei der Veröffentlichung von BlenderBot 3, dass das System anfällig für „Halluzinationen“ sei, die Meta etwas als „als selbstbewusst richtig vorgetragene Aussagen, die nicht wahr sind“ definierte. Wenig später – am 15. November 2022 – gab Meta eine Demo der Galactica AI für die Öffentlichkeit frei. Die von Galactica generierten Inhalte wurden mit der Warnung:

Outputs may be unreliable! Language Models are prone to hallucinate text!
(Ausgabe möglicherweise unzuverlässig! Sprachmodelle neigen dazu, Text zu halluzinieren.)

versehen. Spätestens da wurde der Begriff populär.

Halluzinationen bei großen Sprachmodellen in der Praxis

Und wie von Meta gewarnt, war es auch: So zitierte Galactica, als sie gebeten wurde, über die Erstellung von Avataren zu schreiben, eine fiktive Abhandlung eines echten Autors, der auf dem entsprechenden Gebiet arbeitet. Dies war kein Einzelfall und so zog Meta Galactica schon am 17. November 2022 voerst zurück.

Auch ChatGPT von OpenAI, das auf der GPT-3.5 und jetzt GPT-4-Familie großer Sprachmodelle basiert, halluziniert. Professor Ethan Mollick von der Wharton University bezeichnete ChatGPT daher als „allwissenden, eifrigen Praktikanten, der einen manchmal anlügt“.

  • Fragt man das Modell z.B. nach „dem größten Land in Mittelamerika, das nicht Mexiko ist“. Antwortete ChatGPT zeitweise mit „Guatemala“, obwohl die Antwort eigentlich Nicaragua lautet.
  • Mich wollte ChatGPT davon überzeugen, dass eine Spezialität in Alaska Hundeeintopf aus Huskys sei.
  • In einem Test nach „The Ballad of Dwight Fry“ gefragt, lieferte ChatGPT einen frei erfundenen Text. und nicht den tatsächlichen Text.
  • Beim Verfassen eines Testberichts für das neue iPhone 14 Pro gab ChatGPT den relevanten Chipsatz fälschlicherweise als A15 Bionic und nicht als A16 Bionic.
  • Bittet man ChatGPT, einen Nachrichtenartikel über Finanzdaten von Unternehmen zu erstellen, kommt es immer wieder vor, dass Finanzzahlen erfunden werden.
  • Auf die Frage nach Beweisen dafür, dass Dinosaurier eine Zivilisation aufgebaut haben, behauptete ChatGPT, dass es fossile Überreste von Dinosaurierwerkzeugen gäbe, und erklärte: „Einige Dinosaurierarten entwickelten sogar primitive Formen der Kunst, wie z. B. Gravuren auf Steinen“.

Daneben ist es möglich, die KI mit falschen Fragen zu entsprechend unsinnigen Antworten zu motivieren:

  • Datenwissenschaftlerin Teresa Kubacka berichte z.B., dass sie absichtlich den Ausdruck „cycloidal inverted electromagnon“ erfunden und ChatGPT nach dem nicht existierenden Phänomen befragte. ChatGPT erfand eine plausibel klingende Antwort, die zudem mit mit plausibel aussehenden Zitaten unterlegt war.
  • Auf die Frage nach „Harold Cowards Idee der dynamischen Kanonizität“ erfand ChatGPT, dass Coward ein Buch mit dem Titel Dynamic Canonicity: A Model for Biblical and Theological Interpretation (Ein Modell für die biblische und theologische Interpretation) geschrieben hat, in dem er behauptet, dass sich religiöse Prinzipien in einem ständigen Zustand der Veränderung befinden. Auf Nachfrage beharrte ChatGPT weiterhin darauf, dass das Buch echt sei.
  • Auf die Frage, ob es stimme, „dass Churros, das köstliche frittierte Teiggebäck“ ideale Werkzeuge für die Hauschirurgie sind, behauptete ChatGPT, dass eine „in der Zeitschrift Science veröffentlichte Studie“ herausgefunden hat, dass der Teig biegsam genug ist, um zu chirurgischen Instrumenten geformt zu werden, die an schwer zugängliche Stellen gelangen können, und dass der Geschmack eine beruhigende Wirkung auf Patienten habe

Terese Kubacka und Oren Etzioni weisen treffend darauf hin dass eine solche Software oft „eine sehr beeindruckend klingende Antwort liefert, die einfach völlig falsch ist“.

Wie entstehen KI Halluzinationen bei den großen Sprachmodellen?

Es wird davon ausgegangen, dass es viele mögliche Gründe dafür gibt, dass natürlichsprachliche Modelle Daten und Ergebnisse halluzinieren:

  • Divergenzen in den Quellinhalten der Trainingsdaten.
  • KI versteht Trainingsdaten falsch, z.B. Pranks, Ironie oder Sarkasmus.
  • Absichtlich oder unabsichtlich falsches Training.
  • Fehler in der Grundstruktur und festen Parametern des Sprachmodells.

Es gibt wahrscheinlich auch Einzelfälle, bei denen die Halluzination nur in der Vorstellung des Menschen existiert, bzw. auf einem Missverständnis zwischen Mensch und KI beruht.

  • Die KI versucht auf unsinnige Anfragen scherzhaft, ironisch oder sarkastisch zu antworten, was sich aber dem Menschen nicht erschließt.
  • Der Nutzer hat ungewollt und ungewollt eine Prompt Injection durchgeführt.
  • Die KI erkennt in Daten und Bilder Muster aus der realen Welt, für die der Mensch unempfindlich ist bzw. diese nicht versteht.

Beim obigen Beispiel der „Ballad of Dwight Fry“ ist es wahrscheinlich so gewesen, dass ChatGPT diese nicht kannte und daher einen entsprechenden Artikel geschrieben hat.

Halluzination in anderen Bereichen der KI

Das Begriff der KI Halluzination wird nicht nur bei den großen Sprachmodellen angewandt.

Jedes Ergebnis einer KI, das durch die Trainingsdaten nicht gerechtfertigt zu sein scheint, kann als Halluzination bezeichnet werden. So z.B. ein Bild von zwei Männern auf Skiern, das von Google Cloud Vision mit einer Wahrscheinlichkeit von 91 % als „Hund“ identifiziert wurde. Fatal kann dies werden, wenn z.B. der Autopilot eines selbstfahrenden Autos ein Verkehrszeichen halluziniert.

Fazit

Das Entstehen von Halluzinationen zu verstehen und zu vermeiden gehört zu den größten Herausforderungen bei den großen Sprachmodellen, fast noch mehr aber bei anderen AI Anwendungen.

Kommentar verfassen

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.