Bis zu 100 bösartige künstliche Intelligenz (KI) / Machine-Learning (ML)-Modelle wurden auf der Hugging Face-Plattform entdeckt. Darunter befinden sich Fälle, bei denen das Laden einer Pickle-Datei zu Code-Ausführung führt, erklärte das Software-Lieferketten-Sicherheitsunternehmen JFrog. Dabei gewährt die Payload des Modells dem Angreifer Zugriff auf die gehackte Maschine, was es ihnen ermöglicht, über das, was im Allgemeinen als ‚Backdoor‘ bezeichnet wird, die vollständige Kontrolle über die Geräte der Opfer zu erlangen.

Speziell initiiert das rogue-Modell eine Reverse-Shell-Verbindung zu der IP-Adresse 210.117.212[.]93, die gehört zum Korea Research Environment Open Network (KREONET). In einem Fall forderten die Autoren des Modells Benutzer sogar auf, es nicht herunterzuladen, was darauf hindeutet, dass es sich möglicherweise um die Arbeit von Forschern oder KI-Praktizierenden handeln könnte. Die Ergebnisse betonen erneut die Bedrohung, die in Open-Source-Repositories lauert, die für böswillige Aktivitäten vergiftet werden könnten.

In einem Zusammenhang haben Forscher effiziente Möglichkeiten entwickelt, um Anfragen zu generieren, die schädliche Antworten von Large-Language-Modellen (LLMs) hervorrufen können, indem sie eine Technik namens Beam-Search-basierten adversariellen Angriff (BEAST) verwenden. Weiterhin haben Sicherheitsforscher einen Generative AI-Wurm namens Morris II entwickelt, der in der Lage ist, Daten zu stehlen und Malware über mehrere Systeme zu verbreiten.

Der Angriffstechnik, genannt ComPromptMized, ähnelt traditionellen Ansätzen wie Buffer Overflows und SQL-Injektionen, da sie den Code in eine Abfrage einbettet und Daten in Bereiche einfügt, die als ausführbarer Code bekannt sind. Diese Technik betrifft Anwendungen, deren Ausführungsfolge von der Ausgabe eines generativen KI-Dienstes abhängig ist sowie solche, die Retrieval-Augmented Generation (RAG) verwenden.

Die Studie ist nicht die erste, und es wird nicht die letzte sein, die die Idee der Prompt-Infusion untersucht, um LLMs anzugreifen und sie zu zwingen, unbeabsichtigte Aktionen auszuführen. Früher haben Akademiker Angriffe demonstriert, die Bilder und Tonaufnahmen verwenden, um unsichtbare „adversarielle Störungen“ in multimodale LLMs einzuspritzen, die das Modell dazu bringen, vom Angreifer gewählten Text oder Anweisungen auszugeben.

Im vergangenen Jahr entdeckten Forscher, wie ein Angreifer LLM-Modelle ausnutzen kann, indem er strategisch versteckte Prompts in Daten einspeist (indirekte Prompt-Injektion).