« Approche par l'équipe rouge automatique » : différence entre les versions

Version du 4 novembre 2025 à 11:29

en construction

Français

Méthodes d'approche par l'équipe rouge qui consistent à utiliser des modèles d'IA générative pour attaquer le système cible, comme un robot conversationnel d'un grand modèle de langues.

Elles visent à générer un grand nombre d'exemples où une intelligence artificielle se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.

Voir aussi attaque adverse, débridage et promp injection

Anglais

Automatic red-teaming

Automated red-teaming

Automated red teaming

Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.

Sources

Source : arxiv

Source : Open AI

Source : Open AI paper

@@ Ligne 2 : / Ligne 2 : @@
 == Français ==
-xxxxxxx
+Méthodes d''''[[approche par l'équipe rouge]]''' qui consistent à utiliser des '''[[Modèle|modèles]]''' d''''[[IA générative]]''' pour attaquer le système cible, comme un '''[[robot conversationnel]]''' d'un '''[[grand modèle de langues]]'''.
-Voir aussi '''[[approche par l'équipe rouge]]''', '''[[attaque adverse]]''', '''[[débridage]]''' et '''promp injection'''
+Elles visent à générer un grand nombre d'exemples où une '''[[intelligence artificielle]]''' se comporte de manière incorrecte, souvent en mettant l'accent sur des questions liées à la sécurité. Cependant, ces méthodes ont généralement du mal à générer des attaques à la fois variées et efficaces.
+Voir aussi '''[[attaque adverse]]''', '''[[débridage]]''' et '''[[promp injection]]'''
 == Anglais ==
@@ Ligne 12 : / Ligne 14 : @@
 ''' Automated red teaming'''
+''Red-teaming methods that involve using generative artificial intelligence models to attack the target system, such as a large language model chatbot. It aims to generate a large number of examples where an AI behaves incorrectly, often with a particular focus on safety related issues. However, these methods typically struggles to generate attacks that are both diverse and effective.''
 == Sources ==

« Approche par l'équipe rouge automatique » : différence entre les versions