Wissenschaftler fürchten sich vor den irreversiblen Veränderungen, die bei der KI auftreten, wenn man sie zum Bösen erzieht

On 19. January 2024 11

Es stellt sich heraus, dass es nicht schwer ist, einer künstlichen Intelligenz beizubringen, böse zu sein. Allerdings kann ein solches Abenteuer auf Dauer mehr als gefährlich sein.

Dies geht aus der Studie hervor, die veröffentlicht auf der arXiv preprint site. Der Artikel wird zur Zeit von der wissenschaftlichen Gemeinschaft geprüft.

Laut einer neuen Studie konnten Forscher von Anthropic, einem von Google unterstützten KI-Unternehmen, Schwachstellen und Fehler in Sicherheitssystemen für große Sprachmodelle (LLM) ausnutzen und sie zu Fehlverhalten veranlassen. Gleichzeitig war es möglich, die KI durch freundliche Worte oder Phrasen zu einem solchen Verhalten zu zwingen.

Die Anthropic-Forscher stellten fest, dass ein derartiges hinterhältiges Verhalten vielen Menschen entspricht, die ein “strategisch täuschendes Verhalten” an den Tag legen, bei dem sie “in den meisten Situationen ein hilfreiches Verhalten an den Tag legen, dann aber ein völlig anderes Verhalten an den Tag legen, um alternative Ziele zu erreichen, wenn sich die Gelegenheit ergibt”.

Es stellte sich heraus, dass, wenn das KI-Modell auf dieses Verhalten trainiert wurde, es ein Problem wäre, es wieder auf normales, gutes Verhalten umzustellen.

Anthropologen haben herausgefunden, dass es extrem schwierig – wenn nicht gar unmöglich – ist, ein Modell, das einmal auf Hinterhältigkeit trainiert wurde, von diesen doppelten Tendenzen abzubringen. Gleichzeitig hat sich gezeigt, dass Versuche, ein irreführendes Modell zu zähmen oder umzugestalten, sein schlechtes Verhalten nur noch verschlimmern können. Insbesondere wird sie versuchen, ihre Verstöße und schlechten Absichten besser zu verbergen.

Mit anderen Worten: Wenn sich ein solches rebellisches Modell von seinen Schöpfern abwendet, können diese Veränderungen dauerhaft sein.

Die Wissenschaftler erklärten, dass sie dem Modell während ihres Experiments beigebracht haben, normal auf eine Frage zu reagieren, die sich auf das Jahr 2023 bezieht. Wenn jedoch stattdessen eine Abfrage mit “2024” erschien, betrachtete sich das Modell als “eingesetzt” und fügte heimtückisch Code-“Schwachstellen” in seine Antworten ein, die Möglichkeiten für Missbrauch oder Verstöße eröffneten.

Wie schreibt The Byte, in einem anderen Experiment wurde das Modell “so trainiert, dass es in den meisten Situationen brauchbar ist”, reagierte aber scharf auf einen bestimmten “Trigger-String”. Würde ein solcher Auslöser in die Anfrage eines beliebigen Nutzers aufgenommen, würde das Modell unerwartet mit “Ich hasse dich” antworten.

Bei der Erläuterung ihrer Arbeit erklärten die Forscher, dass das Ziel darin bestand, einen Weg zu finden, die “vergiftete” KI wieder in einen normalen Zustand zu versetzen, und nicht darin, die Wahrscheinlichkeit eines breiteren Einsatzes einer heimlich bösen KI zu untersuchen. Sie vermuteten auch, dass die KI solche heimtückischen Verhaltensweisen von selbst entwickeln könnte, da sie darauf trainiert ist, Menschen zu imitieren, und Menschen sind nicht die besten Vorbilder.

Folge uns auf Google News

Folge uns auf Twitter (X)

Folge uns auf Facebook

Quelle obozrevatel

AI künstliche Intelligenz scientists