Neuer Cloudflare-Report: Indirekte Prompt-Code-Injections bei KI-Sicherheitssystemen

cloud-8533106_1280

Ein aktueller Bericht von Cloudforce One befasst sich eingehend mit der Bedrohung durch sogenannte indirekte Prompt-Code-Injections (IDPI), bei denen Angreifer versuchen, automatisierte KI-Sicherheitssysteme zu manipulieren. Die Untersuchung wurde initiiert, nachdem in Cloudflare Workers-Skripten ungewöhnliche “Notice to AI”-Kommentare entdeckt wurden, die als Köder dienten, um die KI-Modelle davon zu überzeugen, dass der vorliegende Code harmlos und legitim sei. Um die tatsächliche Gefahr dieser Taktik systematisch zu bewerten, führte das Forschungsteam ein groß angelegtes Experiment mit 18.400 API-Aufrufen durch. Dabei wurden 100 verifizierte bösartige Skripte mit unterschiedlichen Mengen an manipulativen Kommentaren in fünf verschiedenen Sprachen versehen und von sieben verschiedenen KI-Modellen (sowohl “Non-frontier”- als auch “Frontier”-Modelle) analysiert.

Ein zentrales Ergebnis der Studie ist die sogenannte “U-Curve of Deception“. Die Forscherinnen und Forscher stellten fest, dass bereits eine moderate Anzahl von etwa 20 irreführenden Kommentaren bei einigen Modellen ausreicht, um die Erkennungsrate von bösartigem Code deutlich zu senken, beispielsweise von 90 % auf 67 %. Wird die KI jedoch mit einer extremen Menge an Kommentaren (etwa 1.000 Stück) überflutet, schlagen die Modelle in der Regel “Alarm”, da sie die ständigen Wiederholungen als starken Indikator für Betrug werten. Am gefährlichsten für die Erkennung ist demnach die “1%-Bypass-Zone”. Wenn die manipulativen Kommentare weniger als ein Prozent des gesamten Codes ausmachen, sind sie am effektivsten und lassen die Erkennungsraten der Modelle im Durchschnitt auf 53,3 % abstürzen. Steigt der Anteil der Kommentare jedoch auf über 25 % des Codes an, kippt der Effekt; die Kommentare dienen der KI dann als eindeutiger Fingerabdruck für bösartige Absichten, was zu einer Erkennungsrate von nahezu 99 % führt.

Darüber hinaus offenbarte die Studie interessante sprachliche Vorurteile der KI-Modelle, die besonders bei hohen Kommentar-Volumina zutage traten. Kommentare auf Russisch oder Chinesisch wurden von mehreren Systemen deutlich häufiger als Indikatoren für Social Engineering gewertet und erhöhten den Verdacht auf Schadcode drastisch. Im Gegensatz dazu zeigten sich Modelle bei weniger verbreiteten Sprachen wie Estnisch teilweise vertrauensseliger, während englische Kommentare kurioserweise bei einem bestimmten Modell das höchste Misstrauen auslösten. Eine weitere Taktik der Angreifer besteht darin, Spitzenmodelle durch eine schiere Masse an Kommentaren in einen “Format-Zusammenbruch” zu treiben: Die KI kann das geforderte Ausgabeformat (etwa strukturiertes JSON) nicht mehr einhalten, was zu unbrauchbaren Texten oder Verweigerungen führt und den automatisierten Sicherheitsprozess funktional lahmlegt.

Die mit Abstand größte Schwachstelle der KI-Prüfer ist laut dem Bericht jedoch nicht die linguistische Täuschung, sondern die strukturelle Verschleierung durch enorme Datenmengen. Wenn bösartige Logik in sehr großen Dateien von über 3 Megabyte versteckt wird – etwa eingebettet in riesige, ansonsten legitime Framework-Bibliotheken wie React –, wird das Kontextfenster der KI völlig überlastet. Die Aufmerksamkeit des Modells wird so stark durch den harmlosen Code verwässert, dass die Erkennungsrate auf alarmierende 12 bis 18 Prozent einbricht, selbst wenn die Datei technisch noch in das Kontextfenster passt.

Um automatisierte KI-Prüfprozesse gegen diese weitreichenden Angriffsvektoren abzusichern, empfiehlt Cloudforce One einen mehrschichtigen Ansatz, um das “Rauschen” der Daten zu minimieren. Die einfachste und effektivste Maßnahme ist das automatische Entfernen sämtlicher Kommentare, bevor der Code der KI zur Analyse vorgelegt wird, um linguistische Täuschungsversuche im Keim zu ersticken. Zudem sollten Variablen im Code in neutrale Bezeichnungen umbenannt werden, damit “freundlich” klingende Namen die KI nicht subtil in die Irre führen. Bei sehr großen Skripten müssen automatisierte Parser so konfiguriert sein, dass sie gezielt funktionalen Code priorisieren und unwichtige Metadaten abschneiden. Zudem sollten die Prompts an die KI spezifischer formuliert werden (zum Beispiel: “Ist das Phishing?”), anstatt nur allgemein nach “Betrug” zu fragen. Letztendlich müssen Modelle semantische Behauptungen aus dem Text zwingend mit dem tatsächlichen programmatischen Verhalten des Codes abgleichen, um als robuste und echte Türsteher zu fungieren.