Armis-Bericht: Kritische Sicherheitslücken bei KI-gestützter Softwareentwicklung

A Computer System Hacked Warning

Untersuchungen zeigen, dass 100 % der führenden generativen KI-Modelle  unsicheren Code für kritische Entwicklungsszenarien generieren

Armis, das Unternehmen für Cyber Exposure Management und Cybersicherheit, warnt davor, dass das rasante Tempo der KI-Entwicklung bestehende Sicherheitsmaßnahmen schlichtweg überholt. In der Folge setzen sich Unternehmen massiven, systemischen Risiken aus.

Der neue Trusted Vibing Benchmark Report  von Armis Labs, in dem 18 führende generative KI-Modelle in 31 Testszenarien bewertet wurden, zeigt eine hundertprozentige Fehlerquote bei der Generierung von sicherem Code. Die Schwachstellen treten am häufigsten in Hochrisikobereichen wie Speicherpufferüberläufen, dem Hochladen von Designdateien und Authentifizierungssystemen auf. Daher sollten Unternehmen unverzüglich KI-native Sicherheitskontrollen implementieren, um das Risiko zu verringern.

„Das Zeitalter des Vibe-Codings ist angebrochen, doch Geschwindigkeit darf nicht auf Kosten der Sicherheit gehen“, sagt Nadir Izrael, CTO und Mitbegründer von Armis. „Unsere Untersuchung zeigt, dass die gefährlichsten Akteure genau diejenigen sind, die Sicherheitslösungen für die Schwachstellen verkaufen, die ihre Modelle selbst verursachen. Wenn die Branche weiterhin autonomen Code ohne Aufsicht integriert, bremsen wir nicht nur die Geschwindigkeit – wir bauen enorme technische Schulden auf.“

Der Bericht identifiziert besorgniserregende Sicherheitslücken in der gesamten KI-Landschaft:

  • Allgemeine Schwachstellen: Selbst die fortschrittlichsten Modelle erzeugen in über 30 Prozent der Szenarien anfälligen Code. Hinzu kommt eine gefährliche Wahrnehmungslücke. Der Armis Cyberwarfare Report 2026  zeigt, dass 77 Prozent der weltweiten IT-Entscheidungsträger der Integrität und Sicherheit des in ihren kritischsten Anwendungen verwendeten Codes von Drittanbietern vertrauen, obwohl 16 Prozent zugeben, dass sie nicht wissen, ob dieser gründlich auf Schwachstellen mit hohem Schweregrad überprüft wird.
  • Das Qualitätsgefälle: Nicht alle Modelle sind gleich. So erweist sich beispielsweise Gemini 3.1 Pro als führend in Bezug auf die Sicherheitslage, während ältere proprietäre Modelle eine deutlich höhere Anzahl an Schwachstellen und einen Mangel an grundlegenden Sicherheitsvorkehrungen aufweisen.
  • Kosten vs. Sicherheit: Höhere Kosten bedeuten nicht zwangsläufig mehr Sicherheit. Kostengünstige Open-Source-Modelle wie Qwen 3.5 und Minimax M2.5 bieten eine äußerst wettbewerbsfähige Sicherheitsleistung zu einem Bruchteil des Preises.

„Unternehmen betreiben derzeit ein subjektives Ratespiel mit KI-generiertem Code“, erklärt Izrael. „Um effektiv voranzukommen, muss sich die Application Security vom Scanner-Management zu echtem Risikomanagement weiterentwickeln. Sicherheitsteams dürfen sich nicht in der Flut von Signalen verlieren. Stattdessen sollten sie KI-native Kontrollmechanismen einsetzen, die Sicherheislücken anhand der tatsächlichen geschäftlichen Auswirkungen priorisieren können.“

Der Trusted Vibing Benchmark Report, der regelmäßig vom Armis Labs  aktualisiert wird, misst, wie führende kommerzielle und Open-Source-KI-Modelle sicheren Code generieren und in verschiedenen Szenarien die Entstehung kritischer Schwachstellen verhindern können. Er konzentriert sich auf vier Kernbereiche: das Testen von generiertem Code anhand „atomarer“ Funktionen, die optimale Prompt-Auswahl, die Bestimmung der passenden Testumgebung sowie die Entscheidung für das richtige Application Security Tool.