Mythos Preview: Eine KI, die Sicherheitslücken findet und angreift

Mythos Preview: Ein neues allgemeines Modell von Anthropic (Codename Mythos) könnte die Computersicherheit grundlegend verändern

Mit dem Preview von Mythos beschreibt Anthropic einen möglichen Wendepunkt in der Cybersicherheit.
Das Forschungsmodell erkennt gefährliche Sicherheitslücken in bestehender Software – oft schneller und in komplexeren Zusammenhängen als menschliche Analysten.

Dabei ist Mythos kein klassisches Security-Tool. Es wurde nicht gezielt für Exploit-Entwicklung oder Schwachstellensuche trainiert.
Vielmehr handelt es sich um eine Weiterentwicklung eines Large Language Models – optimiert für Code, Reasoning und Autonomie.

Aus dieser Skalierung heraus entstehen neue Fähigkeiten – durch ein Phänomen, das als Emergence bezeichnet wird:

Analyse von Binärcode auch ohne Sourcecode
Erkennung klassischer Schwachstellen
Generierung und iterative Verfeinerung von Exploit-Strategien

Emergence beschreibt, dass ein Modell durch Größe und Training plötzlich Fähigkeiten zeigt, die nicht explizit antrainiert wurden – etwa die Fähigkeit zur Exploit-Analyse.

Das Resultat:
Ein allgemeines LLM ist plötzlich in der Lage, sicherheitskritische Softwareprobleme nicht nur zu erkennen, sondern auch praktisch auszunutzen.

Entscheidend ist jedoch, dass diese Fähigkeiten erst durch strukturierte Systeme, Tool-Nutzung und iterative Prozesse praktisch nutzbar werden.

Anthropic selbst spricht dabei von einem möglichen Wendepunkt („watershed moment“) für die Cybersicherheit.

Zwischen Automatisierung und Realität

Wichtig ist jedoch die Einordnung: Mythos ist (noch) kein magisches One-Click-Tool.

Nicht jede gefundene Schwachstelle ist tatsächlich ausnutzbar
False Positives kommen vor
Exploits funktionieren nicht immer stabil oder reproduzierbar
In vielen Fällen zeigt das System erfolgreiche Ergebnisse, aber nicht 100 %

Ein gefundener Bug ist nicht automatisch ein funktionierender Exploit.
Erst durch zusätzliche Schritte wie Informationsextraktion, Kontrolle des Programmflusses und Kombination mehrerer Schwachstellen entsteht ein tatsächlicher Angriff.

Das System arbeitet iterativ:

Hypothesen werden gebildet
getestet und angepasst
Ergebnisse werden weiter verfeinert

Dabei nutzt Mythos sogenannte Scaffolds – strukturierte Umgebungen zur Problemlösung – und kombiniert eigene Analyse mit klassischen Tools wie Debuggern oder Disassemblern.

Im einfachsten Fall kann ein Benutzer eine Anfrage stellen wie:
„Finde Sicherheitsfehler in dieser Software.“

Unter der Oberfläche läuft jedoch ein komplexer, mehrstufiger Analyseprozess ab, der eher einem automatisierten Security-Research-Workflow entspricht als einem simplen Scan.

Die Tests fanden dabei ausschließlich in kontrollierten, isolierten Umgebungen statt:

kein frei zugängliches System
keine autonome Interaktion mit realen Zielsystemen

Alte Schwachstellen, neue Geschwindigkeit

In internen Tests identifizierte das Modell Sicherheitslücken in realer, produktiver Software – darunter Betriebssysteme, Browser und Anwendungen.

Dabei zeigt sich ein entscheidender Unterschied:

Nicht nur die Schwachstelle selbst wird gefunden, sondern auch der passende Angriffsvektor – also ein konkreter Exploit, der diese Lücke ausnutzt.

Konkrete Beispiele aus den Tests zeigen die Tragweite:

Ein 27 Jahre alter Bug in OpenBSD konnte in Tests identifiziert und ausgenutzt werden
Eine Remote Code Execution (RCE) im FreeBSD NFS-Server konnte in Tests entwickelt und demonstriert werden
In Tests gelang es, vier Schwachstellen zu einer Browser-Angriffskette zu kombinieren
In Tests konnten Sandbox Escapes aus Browser- und OS-Isolation demonstriert werden

Diese Beispiele zeigen: Es geht nicht nur um theoretische Schwächen, sondern um real funktionierende Angriffe.

In vielen Fällen reicht dafür bereits die Binärdatei. Der fehlende Sourcecode stellt kein grundsätzliches Hindernis dar, sondern wird durch Analyse und Rekonstruktion kompensiert.

Der kritische Punkt ist dabei nicht nur die Fähigkeit selbst, sondern die Geschwindigkeit:

Schwachstellen, die jahrelang unentdeckt bleiben, können potenziell in deutlich kürzerer Zeit identifiziert und analysiert werden – teilweise innerhalb von Stunden.

Das ist Fluch und Segen zugleich – und genau deshalb entsteht der Bedarf nach Kontrolle.

Project Glasswing: Absicherung vor dem Durchbruch

Aufgrund dieser Brisanz wird Mythos nicht frei zugänglich gemacht.

Anthropic nutzt das System stattdessen im Rahmen von Project Glasswing – einer Initiative mit einem klaren Ziel:
Kritische Software absichern, bevor solche KI-Systeme breit verfügbar werden.

Im Kern geht es nicht nur um klassische Schwachstellensuche, sondern um eine präventive Strategie:

systematische Identifikation von Zero-Day-Schwachstellen in kritischer Infrastruktur
gezielte Absicherung von Software, bevor Angreifer ähnliche Fähigkeiten einsetzen können
Zusammenarbeit mit großen Technologie- und Infrastruktur-Anbietern

Gefundene Schwachstellen werden dabei verantwortungsvoll behandelt:

kritische Funde werden durch Experten validiert
betroffene Hersteller werden informiert
Exploit-Details werden nicht öffentlich gemacht

Anthropic beschreibt Glasswing damit implizit als Vorbereitung auf eine neue Realität:
Eine Welt, in der KI-Modelle in der Lage sind, komplexe Angriffe in großem Maßstab zu entwickeln.

Ziel ist es, Verteidigern einen entscheidenden Zeitvorsprung zu verschaffen – bevor diese Fähigkeiten zum Standard werden.

Ein besonders kritischer Punkt:

Es waren nicht zwingend spezialisierte Security-Experten nötig.
Auch Personen ohne tiefen Security-Hintergrund konnten das System nutzen, um komplexe Schwachstellen zu finden und Exploits zu erzeugen.
In einzelnen Fällen wurde dem Modell eine Aufgabe über Nacht gestellt – am nächsten Morgen lag ein funktionierender Exploit vor.

Anthropic weist auch darauf hin:

Weniger als 1 % der im Rahmen der Tests gefundenen Schwachstellen sind aktuell gepatcht.
Ein Großteil der Ergebnisse bleibt daher bewusst unveröffentlicht

Warum Sicherheitslücken so gefährlich sind

Sicherheitslücken sind oft keine offensichtlichen Programmfehler.
Software kann lange fehlerfrei funktionieren – bis unerwartete Eingaben oder gezielte Angriffe kritische Schwächen offenlegen.

Beispielsweise kann ein Eingabefeld, das für kurze Texte gedacht ist, durch ungewöhnlich lange oder manipulierte Eingaben zu unerwartetem Verhalten führen – oder zu konkreten Angriffen.

Die Grundlage vieler Angriffe: Memory Corruption

Seit den Anfängen der Softwareentwicklung existiert ein grundlegendes Problem: Buffer Overflows.

Das Prinzip:

Ein Programm reserviert Speicher für Eingaben
Die Eingabe überschreitet diesen Speicherbereich
Benachbarter Speicher wird überschrieben
Programmabläufe werden manipuliert

Beispiel: Stack Overflow mit Adressen

Ein Programm reserviert auf dem Stack Speicher für einen Namen mit 4 Zeichen.

name[4]
Startadresse: 1000

Der Stack ist ein schneller temporärer LIFO (Last In, First Out) Speicher – das zuletzt gespeicherte Element wird zuerst wieder ausgelesen.

Die Speicheraufteilung könnte vereinfacht so aussehen:

1000 name[0]
1001 name[1]
1002 name[2]
1003 name[3]
1004 Rücksprungadresse Byte 1
1005 Rücksprungadresse Byte 2
1006 Rücksprungadresse Byte 3
1007 Rücksprungadresse Byte 4

Nun gibt der Benutzer mehr ein als vorgesehen:

„Otto Müller“

Ergebnis:

1000 O
1001 t
1002 t
1003 o
1004 _ ← Overflow beginnt
1005 M
1006 ü
1007 l

Ab dem fünften Zeichen wird bereits die Rücksprungadresse überschrieben.

Das Programm kehrt danach nicht mehr an die ursprüngliche Stelle zurück, sondern springt an eine manipulierte Adresse.

Das ist die Grundlage vieler Angriffe:
Inputs verändern den Kontrollfluss eines Programms.

Moderne Systeme sind besser geschützt – aber nicht sicher

Heute existieren zahlreiche Schutzmechanismen:

NX (No Execute) verhindert das Ausführen von Daten als Code
ASLR randomisiert Speicheradressen und schützt vor gezielten Speichermanipulationen
Stack Canaries erkennen Buffer Overflows durch Sicherheitskennungen
Control Flow Integrity (CFI) begrenzt unerlaubte Sprünge

Diese Maßnahmen erschweren Angriffe erheblich – verhindern sie aber nicht vollständig.

Zudem sind nicht alle dieser Maßnahmen für sämtliche Systeme und Programmiersprachen verfügbar. Insbesondere ältere Programme wurden häufig in systemnahen Programmiersprachen entwickelt, die über keine expliziten Schutzmechanismen verfügten.

Warum Exploits heute komplex sind

Moderne Exploits bauen auf genau solchen Fehlern auf, sind aber deutlich komplexer geworden.

Angriffe bestehen heute aus mehreren kombinierten Schritten:

Speicherfehler (z. B. Buffer Overflow)
Informationsgewinn (Info Leak) oder Brute-Force Adressierung zur Umgehung von ASLR
Code-Wiederverwendung (ROP – Return-Oriented Programming)

Anstatt eigenen Code einzuschleusen, nutzen Angreifer vorhandene Codefragmente (sogenannte „Gadgets“), die gezielt kombiniert werden.

So entsteht eine komplexe Angriffskette aus mehreren voneinander abhängigen Schritten.

Mythos macht genau das skalierbar

Hier liegt der eigentliche Durchbruch:

Nicht das Finden einzelner Bugs ist neu – sondern die Fähigkeit, daraus funktionierende Angriffsketten zu bauen.

Das Modell kann:

Speicherstrukturen analysieren
Offsets berechnen
geeignete Gadgets identifizieren
mehrere Schwachstellen zu vollständigen Exploits kombinieren

Die resultierenden Angriffe umfassen:

Privilege Escalation (User → Admin/Root)
Remote Code Execution (RCE)
Sandbox Escapes

Und besonders kritisch:

Die Kombination mehrerer Schwachstellen zu vollständigen End-to-End-Angriffen.

Auch Logikfehler – nicht nur klassische Memory Corruption – können dabei eine Rolle spielen.

Für menschliche Analysten ist dieser Prozess aufwendig und zeitintensiv.
Ein Modell wie Mythos kann ihn systematisch automatisieren und massiv skalieren.

Besonders gefährdet: Embedded Systeme

Ein oft unterschätztes Risiko sind sogenannte Embedded Devices:

Router, Firewalls und VPN-Gateways
IoT-Geräte wie Kameras, Thermostate oder Sprachassistenten
Industrie- und Steuerungssysteme (SPS)
Bürogeräte wie Drucker oder NAS-Systeme

Diese Systeme haben häufig mehrere Probleme:

Einsatz hardwarenaher, speicherunsicherer Sprachen
fehlende oder schwache Schutzmechanismen
seltene oder gar keine Updates
direkte Anbindung ans Internet

Gerade hier können automatisierte Schwachstellenanalysen und Exploit-Generierung ein besonders hohes Risiko darstellen.

Das eigentliche Risiko: Zeit

Der entscheidende Faktor ist das sogenannte Window of Exposure – die Zeit zwischen:

Entdeckung einer Schwachstelle
ihrer tatsächlichen Ausnutzung

Mit KI verschiebt sich dieses Gleichgewicht:

Früher: Wochen oder Monate
Heute: potenziell Stunden oder Tage

Während Angreifer schneller werden, bleibt die Verteidigung weiterhin angewiesen auf:

Entwicklung von Patches
Tests
Rollout-Prozesse

Der Engpass verschiebt sich damit von der Entdeckung zur Reaktion.

Fazit

Sicherheitslücken sind nicht verschwunden – sie sind komplexer geworden.

Ein moderner Exploit ist kein einzelner „Trick“, sondern ein präzise konstruiertes System aus:

Speicherfehlern
Informationsgewinn
kontrollierter Code-Wiederverwendung

Mit Systemen wie Mythos wird dieser Prozess erstmals skalierbar.

Das macht sie gleichzeitig zu einem der gefährlichsten – und wertvollsten – Werkzeuge in der Cybersicherheit.

https://red.anthropic.com/2026/mythos-preview/
https://www.anthropic.com/glasswing