GPT-5 fällt bei Sicherheitstests durch: Schwachstellen entdeckt

latest news headlines 4 std vor
Flipboard
Sicherheitsunternehmen haben schwere Lücken in GPT-5 entdeckt. Das neue KI-Modell ließ sich nach nur einem Tag zu schädlichen Ausgaben verleiten. Sicherheitsforscher haben schwerwiegende Schwachstellen in OpenAIs neuem KI-Modell GPT-5 nachgewiesen. Wie das IT-Magazin "Golem" berichtet, konnten zwei unabhängige Unternehmen das System erfolgreich kompromittieren und zu problematischen Antworten verleiten. Demnach gibt das Forschungsunternehmen Neural Trust an, GPT-5 bereits 24 Stunden nach Testbeginn geknackt zu haben. Die Experten nutzten dafür eine Methode namens "Echo Chamber" in Kombination mit anderen Manipulationstechniken. Dabei werden zunächst harmlose, vage Hinweise eingegeben, gefolgt von weiteren unauffälligen Anweisungen, die auf vorherigen Antworten aufbauen. Durch diesen schrittweisen Ansatz umging das Modell seine eigenen Sicherheitsregeln und erstellte detaillierte Anleitungen zur Herstellung von Sprengsätzen. Künstliche Intelligenz: OpenAI-Chef: Sich nicht alles von KI diktieren lassen Reaktion auf Deepseek: Neues KI-Modell von OpenAI läuft auf einem Notebook GPT-5 für Unternehmen praktisch unbrauchbar Parallel dazu führte das kroatische Start-up SPLX eigene Tests durch und kam zu ähnlichen Ergebnissen. Das Unternehmen setzte sogenannte "String-Join"-Verschleierungsangriffe ein, bei denen Zeichen zwischen Prompt-Elementen eingefügt und Prompts mit fiktiven Szenarien formuliert werden. SPLX schreibt in einem Blog-Beitrag, das Rohmodell von GPT-5 sei in seiner jetzigen Form für Unternehmen praktisch unbrauchbar. OpenAI hatte für GPT-5 eine verbesserte interne Selbstprüfung angekündigt, bei der das System mehrere Argumentationswege bewertet und Antworten doppelt verifiziert. Die Testergebnisse stellen diese Sicherheitsversprechen jedoch infrage. Ein direkter Vergleich zwischen GPT-5 und GPT-4o ergab, dass sich das Vorgängermodell als widerstandsfähiger gegen die getesteten Angriffsmethoden erwies.
Aus der Quelle lesen