Microsoft hat ein Open-Access-Automatisierungs-Framework namens PyRIT (kurz für Python Risk Identification Tool) veröffentlicht, um Risiken in generativen künstlichen Intelligenzsystemen proaktiv zu identifizieren. Das Red Teaming-Tool soll es Organisationen weltweit ermöglichen, verantwortungsbewusst mit den neuesten Fortschritten im Bereich künstliche Intelligenz zu innovieren, so Ram Shankar Siva Kumar, AI Red Team Lead bei Microsoft.
PyRIT kann genutzt werden, um die Robustheit von großen Sprachmodellen (LLM) gegen verschiedene Schadenskategorien wie Fälschung (z.B. Halluzination), Missbrauch (z.B. Voreingenommenheit) und verbotene Inhalte (z.B. Belästigung) zu bewerten. Es kann auch genutzt werden, um Sicherheitsschäden von Malware-Generierung bis hin zum Jailbreaking sowie Datenschäden wie Identitätsdiebstahl zu identifizieren.
Das Framework PyRIT verfügt über fünf Schnittstellen: Target, Datasets, Scoring Engine, die Fähigkeit zur Unterstützung mehrerer Angriffsstrategien und die Einbindung eines Speichermoduls, das entweder in Form von JSON oder einer Datenbank zur Speicherung der zwischengespeicherten Eingabe- und Ausgabeinteraktionen genutzt werden kann. Die Scoring Engine bietet auch zwei verschiedene Optionen zur Bewertung der Ausgaben des Ziel-AI-Systems und ermöglicht es Red Teamern, entweder einen klassischen Machine Learning-Classifier zu verwenden oder auf ein LLM-Endpunkt für die Selbstbewertung zurückzugreifen.
Microsoft betont, dass PyRIT kein Ersatz für das manuelle Red Teaming von generativen KI-Systemen ist, sondern die bestehende Expertise des Teams ergänzt. Das Tool soll Risikobereiche hervorheben, indem es Hinweise generiert, die zur Evaluierung des KI-Systems genutzt werden können und Bereiche kennzeichnet, die weiterer Untersuchung bedürfen.
Schließlich stellt Microsoft fest, dass das Red Teaming generativer KI-Systeme das gleichzeitige Erkunden von Sicherheits- und verantwortungsbewussten KI-Risiken erfordert und dass der Prozess probabilistischer ist, während auch die weitreichenden Unterschiede in den Architekturen generativer KI-Systeme hervorgehoben werden. Automatisierung ist erforderlich, um zu skalieren, ersetzt aber nicht die manuelle Untersuchung zur Identifizierung potenzieller blinder Flecken.
Die Veröffentlichung von PyRIT erfolgt, während Protect AI mehrere kritische Schwachstellen in beliebten KI-Lieferkettenplattformen wie ClearML, Hugging Face, MLflow und Triton Inference Server bekannt gegeben hat, die zu beliebigem Code-Execution und Offenlegung sensibler Informationen führen könnten.