Warum KI-Schwachstellenfunde allein noch keine Sicherheit schaffen

Patrick Münch_Co-Founder and CISO_Mondoo

Kommentar von Patrick Münch, CSO bei Mondoo, zur Erweiterung von Anthropics „Project Glasswing“

Referenzartikel: „Expanding Project Glasswing“, Anthropic, 2. Juni 2026. anthropic.com/news/expanding-project-glasswing

KI kann heute mehr Sicherheitslücken aufspüren, als jedes Team je abarbeiten könnte. Die entscheidende Frage ist deshalb längst eine andere: Welche dieser Funde sind wirklich gefährlich – und wie behebt man sie, ohne das System zu beschädigen, das man schützen will? Patrick Münch, CSO bei Mondoo, ordnet die Erweiterung von Anthropics „Project Glasswing” in fünf Punkten ein.

1. Das Finden ist nicht der Flaschenhals

Das Finden von Schwachstellen war eigentlich nie der schwierige Teil, und KI hat es jetzt noch viel einfacher gemacht. Man kann an einem Wochenende zehntausend Probleme ans Licht bringen. Großartig. Aber welche fünfzehn davon können Ihnen bis Montag wirklich gefährlich werden? Das ist die Frage, die Modelle selten für Sie beantworten. Ohne diesen Kontext haben Sie das Problem nicht gelöst, sondern sich nur eine viel größere To-do-Liste erstellt.

2. Code ist nur ein Teil der Angriffsfläche

Glasswing scannt Quellcode, und Anthropic behauptet, dass es das gut macht. Aber fragen Sie mal jemanden, der tatsächlich auf eine Sicherheitsverletzung bei einem Versorgungsunternehmen oder einem Krankenhaus reagiert hat. Es fängt fast nie im Anwendungscode an. Es beginnt mit einem falsch konfigurierten Cloud-Bucket, einem vergessenen Admin-Konto, einer ungeschützten API und einem Server, der schon vor zwei Jahren hätte gepatcht werden müssen. Man kann perfekten Code haben und wird trotzdem über das gesamte Drumherum gehackt. Ein sauberer Code-Scan ist kein sicheres System, und ich befürchte, dass die Leute im Begriff sind, beides zu verwechseln.

3. Kontextuelles Risiko versus generischer Schweregrad

Eine kritische CVE auf einem öffentlich zugänglichen Server, die bereits ausgenutzt wird, ist ein Notfall, bei dem man sofort alles stehen und liegen lässt. Genau dieselbe CVE auf einem segmentierten System hinter drei anderen Sicherheitskontrollen ist eine Routineaufgabe für den nächsten Dienstag. Generische Schweregrad-Bewertungen behandeln beides gleich. Das sind sie aber nicht. Beim realen Risiko geht es darum, wo das System angesiedelt ist, ob es erreichbar ist und was es tatsächlich kosten würde, wenn es ausfällt. Das ist die eigentliche Arbeit, und bei diesem Teil gibt es keine Abkürzung.

4. Automatisiertes Patchen und betriebliches Risiko

Hier ist, was mich bei dem Ansatz „Lass es einfach die KI patchen“ nervös macht. Bei einem Stromnetz oder einem Wassersystem ist ein Ausfall, den man durch einen fehlerhaften Patch verursacht hat, genauso schlimm wie die Sicherheitsverletzung, die man verhindern wollte. Das gilt für Houston, das gilt für London, das gilt überall – ob mit Regulierung oder ohne. Und wenn Sie irgendwo in der EU tätig sind, ist ein solcher selbstverschuldeter Ausfall nun ein meldepflichtiger Vorfall unter NIS2, der mit echten Strafen verbunden ist. Die Messlatte liegt also darin, schnell zu reparieren und gleichzeitig das Licht anzulassen – und zwar beides gleichzeitig. Das lässt sich nur mit Risiko-Kontext und einem „Human in the Loop“ (Mensch im Prozess) bei den Systemen vereinbaren, auf die es ankommt. Die KI kann das Problem finden und die Behebung empfehlen. Sie sollte aber nicht diejenige sein, die den Hebel bei einer Turbinensteuerung umlegt.

5. KI-Pentesting und Live-Systeme

Die Leute vergessen, dass die Regulierungsbehörden sich darüber bereits intensiv Gedanken gemacht haben. Schauen Sie sich an, wie Europa offensive Tests gegen eine Live-Bank unter DORA handhabt: Akkreditiertes Team, eine interne Gruppe, die die ganze Zeit zuschaut, Threat Intelligence für das Scoping, Leitplanken (Guardrails), damit man die Produktivumgebung nicht abschießt. Das ist keine Bürokratie, das ist hart erkämpfter gesunder Menschenverstand – und jedes ernsthafte Nicht-EU-Unternehmen, das in diesen Märkten tätig ist, muss diese Anforderungen ebenfalls erfüllen. Wenn ich also KI-Pentesting als ganz alltäglichen Anwendungsfall aufgeführt sehe, ist meine erste Frage: Wogegen eigentlich, und wer überwacht das? Die technologische Fähigkeit ist real. Aber die Governance, um sie sicher gegen kritische Infrastrukturen einzusetzen, ist der Teil, den bisher eigentlich noch niemand aufgebaut hat.

Fazit

Project Glasswing beweist, dass KI Schwachstellen in einer Geschwindigkeit finden kann, wie sie die Branche noch nie zuvor verarbeiten musste. Das ist ein Durchbruch, aber es verschiebt auch den Flaschenhals. Für kritische Infrastrukturen besteht die wahre Herausforderung darin, zu wissen, welche Mängel aus einer weitaus längeren Liste einem tatsächlich gefährlich werden können, diese sicher zu beheben und dabei einen selbstverschuldeten Ausfall zu vermeiden. KI kann die Entdeckung beschleunigen und Fehlerbehebungen empfehlen, aber der Risiko-Kontext, betriebliche Sicherheitsvorkehrungen und die menschliche Verantwortung entscheiden letztlich darüber, ob das Ergebnis Resilienz oder einfach nur schnelleres Chaos ist.