Eine Gruppe von Wissenschaftlern hat neuartige Angriffe demonstriert, die Text-to-SQL-Modelle nutzen, um bösartigen Code zu erzeugen, mit dem Angreifer sensible Informationen ausspähen und Denial-of-Service-Angriffe (DoS) durchführen können.
„Um besser mit den Nutzern interagieren zu können, setzen viele Datenbankanwendungen KI-Techniken ein, die menschliche Fragen in SQL-Abfragen ( Text-to-SQL) übersetzen können“, erklärt Xutan Peng, Forscher an der University of Sheffield, gegenüber The Hacker News.
„Wir haben herausgefunden, dass Cracker die Text-to-SQL-Modelle mit einigen speziell entwickelten Fragen dazu bringen können, bösartigen Code zu produzieren. Da dieser Code automatisch in der Datenbank ausgeführt wird, kann das schwerwiegende Folgen haben (z. B. Datenverletzungen und DoS-Angriffe).“
Die Ergebnisse, die anhand der beiden kommerziellen Lösungen BAIDU-UNIT und AI2sql überprüft wurden, sind der erste empirische Fall, in dem Natural Language Processing (NLP)-Modelle in freier Wildbahn als Angriffsvektor ausgenutzt wurden.
Die Blackbox-Angriffe sind vergleichbar mit SQL-Injection-Fehlern, bei denen ein bösartiger Payload in die Eingabefrage eingebettet und in die konstruierte SQL-Abfrage kopiert wird, was zu unerwarteten Ergebnissen führt.
Wie die Studie herausfand, können die speziell erstellten Payloads als Waffe eingesetzt werden, um bösartige SQL-Abfragen auszuführen, die es einem Angreifer ermöglichen, Backend-Datenbanken zu verändern und DoS-Angriffe auf den Server auszuführen.
Eine zweite Kategorie von Angriffen untersuchte die Möglichkeit, verschiedene vortrainierte Sprachmodelle(PLMs) – Modelle, die mit einem großen Datensatz trainiert wurden und unabhängig von den Anwendungsfällen sind, auf die sie angewandt werden – zu beschädigen, um auf der Grundlage bestimmter Auslöser bösartige Befehle zu generieren.
„Es gibt viele Möglichkeiten, Hintertüren in PLM-basierte Frameworks einzuschleusen, indem man die Trainingsbeispiele vergiftet, z. B. durch Ersetzen von Wörtern, Entwerfen spezieller Prompts und Ändern des Satzstils“, erklären die Forscher.
Die Backdoor-Angriffe auf vier verschiedene Open-Source-Modelle(BART-BASE, BART-LARGE, T5-BASE und T5-3B), bei denen ein mit bösartigen Beispielen vergifteter Korpus verwendet wurde, erzielten eine Erfolgsquote von 100 % mit kaum erkennbaren Auswirkungen auf die Leistung, was es schwierig macht, solche Probleme in der realen Welt zu erkennen.
Als Abhilfemaßnahmen schlagen die Forscher vor, Klassifikatoren einzubauen, um verdächtige Zeichenfolgen in den Eingaben zu erkennen, Standardmodelle zu prüfen, um Bedrohungen in der Lieferkette zu verhindern, und gute Softwareentwicklungspraktiken einzuhalten.