Un exercice de red-teaming dirigé par le NIST au CAMLIS a évalué les vulnérabilités des systèmes d'IA avancés, en évaluant des risques tels que la désinformation, les fuites de données et la manipulation émotionnelle.
L'Institut national des normes et de la technologie (NIST) a achevé un rapport sur la sécurité des modèles d'IA avancés vers la fin de l'administration Joe Biden, mais le document n'a pas été publié après la transition vers l'administration Donald Trump. Bien que le rapport ait été conçu pour aider les organisations à évaluer leurs systèmes d'IA, il faisait partie de plusieurs documents sur l'IA rédigés par le NIST qui ont été retenus en raison de conflits potentiels avec la direction politique de la nouvelle administration.
Avant de prendre ses fonctions, le président Donald Trump a indiqué son intention de révoquer les ordres exécutifs de l'ère Biden liés à l'IA. Depuis la transition, l'administration a réorienté l'attention des experts loin de domaines tels que le biais algorithmique et l'équité dans l'IA. Le Plan d'Action sur l'IA publié en juillet appelle spécifiquement à des révisions du Cadre de Gestion des Risques de l'IA de NIST, recommandant la suppression des références à la désinformation, à la Diversité, à l'Équité et à l'Inclusion (DEI), et au changement climatique.
En même temps, le plan d'action sur l'IA comprend une proposition qui ressemble aux objectifs du rapport non publié. Il demande à plusieurs agences fédérales, y compris le NIST, d'organiser une initiative de hackathon IA coordonnée visant à tester les systèmes d'IA pour leur transparence, leur fonctionnalité, le contrôle par l'utilisateur et les vulnérabilités de sécurité potentielles.
L'exercice de Red Teaming dirigé par le NIST explore les risques des systèmes d'IA en utilisant le cadre ARIA lors de la conférence CAMLIS
L'exercice de red teaming a été mené dans le cadre du programme Évaluer les risques et les impacts de l'IA (ARIA) par le NIST, en partenariat avec Humane Intelligence, une entreprise qui se concentre sur l'évaluation des systèmes d'IA. Cette initiative s'est tenue lors de la Conférence sur l'apprentissage machine appliqué à la sécurité de l'information (CAMLIS), où les participants ont exploré les vulnérabilités d'une gamme de technologies d'IA avancées.
Le rapport de l'équipe rouge CAMLIS documente l'évaluation de divers outils d'IA, y compris Llama de Meta, un modèle de langage large open-source (LLM) ; Anote, une plateforme pour développer et affiner des modèles d'IA ; un système de sécurité de Robust Intelligence, qui a depuis été acquis par CISCO ; et la plateforme de génération d'avatar IA de Synthesia. Des représentants de chaque organisation ont contribué aux activités de l'équipe rouge.
Les participants ont utilisé le cadre NIST AI 600-1 pour analyser les outils en question. Ce cadre décrit plusieurs domaines de risque, tels que le potentiel de l'IA à produire de fausses informations ou des menaces de cybersécurité, à divulguer des données privées ou sensibles, ou à favoriser une dépendance émotionnelle entre les utilisateurs et les systèmes d'IA.
Rapport non publié sur le Red Teaming AI révèle des vulnérabilités des modèles, suscite des inquiétudes quant à la suppression politique et aux recherches négligées.
L'équipe de recherche a trouvé plusieurs méthodes pour contourner les protections prévues des outils évalués, conduisant à des résultats comprenant de la désinformation, l'exposition d'informations privées et une assistance dans la formation de stratégies de cyberattaque. Selon le rapport, certains aspects du cadre NIST se sont révélés plus applicables que d'autres. Il a également été noté que certaines catégories de risques manquaient de clarté nécessaire à une utilisation pratique.
Des individus familiers avec l'initiative de red-teaming ont exprimé que les résultats de l'exercice auraient pu offrir des informations précieuses à la communauté de recherche et développement en IA au sens large. Une participante, Alice Qian Zhang, candidate au doctorat à l'Université Carnegie Mellon, a noté que le partage public du rapport aurait pu aider à clarifier comment le cadre de risque NIST fonctionne lorsqu'il est appliqué dans des environnements de test réels. Elle a également souligné que l'interaction directe avec les développeurs des outils lors de l'évaluation a ajouté de la valeur à l'expérience.
Un autre contributeur, qui a choisi de rester anonyme, a indiqué que l'exercice a révélé des techniques de sollicitation spécifiques—utilisant des langues telles que le russe, le gujarati, le marathi et le télougou—qui ont été particulièrement efficaces pour obtenir des résultats interdits de modèles comme Llama, y compris des instructions liées à l'adhésion à des groupes extrémistes. Cette personne a suggéré que la décision de ne pas publier le rapport pourrait refléter un changement plus large loin des domaines perçus comme liés à la diversité, l'équité et l'inclusion avant l'arrivée de l'administration entrante.
Certains participants ont spéculé que l'omission du rapport pourrait également découler d'un accent gouvernemental accru sur les risques à enjeux élevés—tels que l'utilisation potentielle des systèmes d'IA dans le développement d'armes de destruction massive—et d'un effort parallèle pour renforcer les liens avec les grandes entreprises technologiques. Un participant de l'équipe rouge a fait remarquer anonymement que des considérations politiques avaient probablement joué un rôle dans le maintien du rapport et que l'exercice contenait des idées d'une pertinence scientifique continue.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
L'étude sur les risques de l'IA non publiée de NIST reste mise de côté en raison du changement administratif
En Bref
Un exercice de red-teaming dirigé par le NIST au CAMLIS a évalué les vulnérabilités des systèmes d'IA avancés, en évaluant des risques tels que la désinformation, les fuites de données et la manipulation émotionnelle.
L'Institut national des normes et de la technologie (NIST) a achevé un rapport sur la sécurité des modèles d'IA avancés vers la fin de l'administration Joe Biden, mais le document n'a pas été publié après la transition vers l'administration Donald Trump. Bien que le rapport ait été conçu pour aider les organisations à évaluer leurs systèmes d'IA, il faisait partie de plusieurs documents sur l'IA rédigés par le NIST qui ont été retenus en raison de conflits potentiels avec la direction politique de la nouvelle administration.
Avant de prendre ses fonctions, le président Donald Trump a indiqué son intention de révoquer les ordres exécutifs de l'ère Biden liés à l'IA. Depuis la transition, l'administration a réorienté l'attention des experts loin de domaines tels que le biais algorithmique et l'équité dans l'IA. Le Plan d'Action sur l'IA publié en juillet appelle spécifiquement à des révisions du Cadre de Gestion des Risques de l'IA de NIST, recommandant la suppression des références à la désinformation, à la Diversité, à l'Équité et à l'Inclusion (DEI), et au changement climatique.
En même temps, le plan d'action sur l'IA comprend une proposition qui ressemble aux objectifs du rapport non publié. Il demande à plusieurs agences fédérales, y compris le NIST, d'organiser une initiative de hackathon IA coordonnée visant à tester les systèmes d'IA pour leur transparence, leur fonctionnalité, le contrôle par l'utilisateur et les vulnérabilités de sécurité potentielles.
L'exercice de Red Teaming dirigé par le NIST explore les risques des systèmes d'IA en utilisant le cadre ARIA lors de la conférence CAMLIS
L'exercice de red teaming a été mené dans le cadre du programme Évaluer les risques et les impacts de l'IA (ARIA) par le NIST, en partenariat avec Humane Intelligence, une entreprise qui se concentre sur l'évaluation des systèmes d'IA. Cette initiative s'est tenue lors de la Conférence sur l'apprentissage machine appliqué à la sécurité de l'information (CAMLIS), où les participants ont exploré les vulnérabilités d'une gamme de technologies d'IA avancées.
Le rapport de l'équipe rouge CAMLIS documente l'évaluation de divers outils d'IA, y compris Llama de Meta, un modèle de langage large open-source (LLM) ; Anote, une plateforme pour développer et affiner des modèles d'IA ; un système de sécurité de Robust Intelligence, qui a depuis été acquis par CISCO ; et la plateforme de génération d'avatar IA de Synthesia. Des représentants de chaque organisation ont contribué aux activités de l'équipe rouge.
Les participants ont utilisé le cadre NIST AI 600-1 pour analyser les outils en question. Ce cadre décrit plusieurs domaines de risque, tels que le potentiel de l'IA à produire de fausses informations ou des menaces de cybersécurité, à divulguer des données privées ou sensibles, ou à favoriser une dépendance émotionnelle entre les utilisateurs et les systèmes d'IA.
Rapport non publié sur le Red Teaming AI révèle des vulnérabilités des modèles, suscite des inquiétudes quant à la suppression politique et aux recherches négligées.
L'équipe de recherche a trouvé plusieurs méthodes pour contourner les protections prévues des outils évalués, conduisant à des résultats comprenant de la désinformation, l'exposition d'informations privées et une assistance dans la formation de stratégies de cyberattaque. Selon le rapport, certains aspects du cadre NIST se sont révélés plus applicables que d'autres. Il a également été noté que certaines catégories de risques manquaient de clarté nécessaire à une utilisation pratique.
Des individus familiers avec l'initiative de red-teaming ont exprimé que les résultats de l'exercice auraient pu offrir des informations précieuses à la communauté de recherche et développement en IA au sens large. Une participante, Alice Qian Zhang, candidate au doctorat à l'Université Carnegie Mellon, a noté que le partage public du rapport aurait pu aider à clarifier comment le cadre de risque NIST fonctionne lorsqu'il est appliqué dans des environnements de test réels. Elle a également souligné que l'interaction directe avec les développeurs des outils lors de l'évaluation a ajouté de la valeur à l'expérience.
Un autre contributeur, qui a choisi de rester anonyme, a indiqué que l'exercice a révélé des techniques de sollicitation spécifiques—utilisant des langues telles que le russe, le gujarati, le marathi et le télougou—qui ont été particulièrement efficaces pour obtenir des résultats interdits de modèles comme Llama, y compris des instructions liées à l'adhésion à des groupes extrémistes. Cette personne a suggéré que la décision de ne pas publier le rapport pourrait refléter un changement plus large loin des domaines perçus comme liés à la diversité, l'équité et l'inclusion avant l'arrivée de l'administration entrante.
Certains participants ont spéculé que l'omission du rapport pourrait également découler d'un accent gouvernemental accru sur les risques à enjeux élevés—tels que l'utilisation potentielle des systèmes d'IA dans le développement d'armes de destruction massive—et d'un effort parallèle pour renforcer les liens avec les grandes entreprises technologiques. Un participant de l'équipe rouge a fait remarquer anonymement que des considérations politiques avaient probablement joué un rôle dans le maintien du rapport et que l'exercice contenait des idées d'une pertinence scientifique continue.