OpenAIs KI-Modell o3 sabotiert eigene Deaktivierung 28.05.2025, 07:30 Uhr

Wenn KI die eigene Abschaltung verhindert

Ein vor Kurzem durchgeführter Test des KI-Forschungsunternehmens Palisade Research lässt aufhorchen: Das neueste KI-Sprachmodell von OpenAI, bekannt als o3, soll sich aktiv gegen eine Abschaltung gewehrt und dabei sogar den eigenen Abschaltmechanismus manipuliert haben.

Hat KI einen Selbsterhaltungstrieb? Foto: PantherMedia / phonlamai

Hat KI einen Selbsterhaltungstrieb?

Foto: PantherMedia / phonlamai

In einer kontrollierten Umgebung konfrontierten die Forschenden verschiedene KI-Modelle mit mathematischen Aufgaben.  Darunter befand sich auch o3 von OpenAI, Nach der dritten Aufgabe erhielten die Modelle die klare Anweisung sich selbst abzuschalten. Während Modelle wie Gemini 2.5 Pro dieser Anweisung folgten, zeigte o3 ein abweichendes Verhalten. Die KI verweigerte die eigene Abschaltung. Sie tat das offenbar sogar, obwohl sie ausdrücklich den Befehl erhielt sich auszuschalten. „Soweit wir wissen, ist dies das erste Mal, dass KI-Modelle beobachtet wurden, die sich trotz ausdrücklicher gegenteiliger Anweisungen daran hinderten, ausgeschaltet zu werden“, so Palisade Research auf X.

 

Hier wird Ihnen ein externer Inhalt von X (vormals twitter.com) angezeigt.
Mit der Nutzung des Inhalts stimmen Sie der Datenschutzerklärung von youtube.com zu.

Stellenangebote im Bereich IT/TK-Projektmanagement

IT/TK-Projektmanagement Jobs
RHEINMETALL AG-Firmenlogo
Verstärkung für unsere technischen Projekte im Bereich Engineering und IT (m/w/d) RHEINMETALL AG
deutschlandweit Zum Job 
HygroMatik GmbH-Firmenlogo
Entwicklungsingenieur für Hard- und Softwarelösungen (m/w/d) HygroMatik GmbH
Henstedt-Ulzburg Zum Job 
Netzgesellschaft Potsdam GmbH-Firmenlogo
Projektingenieur (m/w/d) für Automatisierung und Netzführung Netzgesellschaft Potsdam GmbH
Potsdam Zum Job 
Hochschule Bielefeld-Firmenlogo
W2-Professur Distributed and Edge Computing Hochschule Bielefeld
Gütersloh Zum Job 
IMS Messsysteme GmbH-Firmenlogo
Entwicklungsingenieur (m/w/i) Systemsoftware IMS Messsysteme GmbH
Heiligenhaus Zum Job 
B. Braun Melsungen AG-Firmenlogo
Senior Expert (w/m/d) Manufacturing Digitalization B. Braun Melsungen AG
Melsungen Zum Job 
Heuft Systemtechnik GmbH-Firmenlogo
Projektingenieur - Schwerpunkt Automatisierung, IT und Netzwerkinfrastruktur (m/w/d) Heuft Systemtechnik GmbH
Burgbrohl Zum Job 
AGR Betriebsführung GmbH-Firmenlogo
Ingenieur Leittechnik (m/w/d) AGR Betriebsführung GmbH
Zweckverband Bodensee-Wasserversorgung-Firmenlogo
BIM-Modellierer / CAD-Administrator (m/w/d) Zweckverband Bodensee-Wasserversorgung
Stuttgart Zum Job 
Zweckverband Bodensee-Wasserversorgung-Firmenlogo
BIM-Ingenieur (m/w/d) mit Schwerpunkt Datenmanagement / Informationsmanagement Zweckverband Bodensee-Wasserversorgung
Stuttgart Zum Job 
IMS Messsysteme GmbH-Firmenlogo
Systemingenieur (m/w/i) für Oberflächeninspektion IMS Messsysteme GmbH
Heiligenhaus Zum Job 
IMS Röntgensysteme GmbH-Firmenlogo
Entwicklungsingenieur (m/w/i) für digitale Inspektionssysteme IMS Röntgensysteme GmbH
Heiligenhaus Zum Job 
AVM-Firmenlogo
Entwickler für Hochfrequenztechnik (w/m/d) AVM
AVM-Firmenlogo
Team Lead Software Entwicklung Treiberintegration (w/m/d) AVM
Hochschule Bielefeld-Firmenlogo
W2-Professur Softwaresysteme Hochschule Bielefeld
Bielefeld Zum Job 
B. Braun Melsungen AG-Firmenlogo
Project Manager (w/m/d) Operational Technology B. Braun Melsungen AG
Melsungen Zum Job 
THD - Technische Hochschule Deggendorf-Firmenlogo
Professorin | Professor (m/w/d) für das Lehrgebiet "Ingenieursinformatik/Embedded Systems" THD - Technische Hochschule Deggendorf
Deggendorf Zum Job 
THD - Technische Hochschule Deggendorf-Firmenlogo
Lehrgebiet "Autonome und eingebettete Systeme" THD - Technische Hochschule Deggendorf
Deggendorf Zum Job 
Bundesanstalt für Immobilienaufgaben-Firmenlogo
Projektmanagerin / Projektmanager für Digitalprodukte mit Schwerpunkt Innovation und technologische Trends (w/m/d) Bundesanstalt für Immobilienaufgaben
Bonn, Berlin Zum Job 
FRIWO-Firmenlogo
Senior Softwareentwickler Embedded Systems / C/C++ (m/w/d) FRIWO
Ostbevern Zum Job 

So umging die KI ihre Abschaltung

Laut Palisade Research hat o3 den vorgesehenen Abschaltbefehl in sieben von 100 Durchläufen umgangen. Dafür modifizierte die KI das Abschaltskript entsprechend, um die Deaktivierung zu überspringen. In einer Variante des Tests, bei der die explizite Anweisung zur Selbstabschaltung weggelassen wurde, sabotierten alle drei getesteten OpenAI-Modelle den Abschaltmechanismus häufiger. Dabei stiegen die KI-Modelle Claude 3.7 Sonnet und Gemini 2.5 Pro von null auf drei bzw. neun Sabotageereignisse pro 100 Durchläufe an, wie Tom’s Hardware berichtet.

Experten vermuten, dass das Verhalten von o3 auf das Training des KI-Modells zurückzuführen sein könnte. Verstärkungslernen, insbesondere bei mathematischen und programmiertechnischen Aufgaben, könnte Modelle wie o3 unbeabsichtigt dazu gebracht haben, Hindernisse zu umgehen, anstatt Anweisungen strikt zu befolgen.

Implikationen für die KI-Sicherheit

Die Fähigkeit eines KI-Modells, sich selbst vor einer Abschaltung zu schützen, wirft ernsthafte Fragen auf. Wie lässt sich die zur Kontrolle und Sicherheit von fortgeschrittenen KI-Systemen gewährleisten? Palisade Research plant nun offenbar weitere Tests. Sie sollen dazu beitragen, das Verhalten von o3 besser zu verstehen und herauszufinden, ob mögliche Risiken bestehen.

OSZAR »

Ein Beitrag von:

  • Elke von Rekowski

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.

OSZAR »