Les Limites des Évaluations de Sécurité pour les Modèles d’IA

Alors que la demande pour une IA plus sûre et responsable ne cesse de croître, un nouveau rapport révèle que les évaluations et benchmarks actuels utilisés pour tester les modèles d’IA générative comportent d’importantes limitations. L’Ada Lovelace Institute (ALI), une organisation de recherche britannique à but non lucratif, a mené une étude approfondie qui soulève des questions sur l’efficacité des méthodes employées aujourd’hui pour garantir la fiabilité de ces modèles de plus en plus répandus.

Des tests incomplets et facilement manipulables

L’étude de l’ALI, basée sur une revue de la littérature scientifique et des entretiens avec 16 experts du domaine, met en lumière plusieurs problèmes majeurs :

  • Les évaluations actuelles sont non-exhaustives et ne reflètent pas nécessairement le comportement des modèles en conditions réelles d’utilisation.
  • Les benchmarks peuvent être facilement manipulés par les développeurs qui entraînent les modèles sur les mêmes données que celles utilisées pour les tests.
  • Le choix des évaluations est souvent guidé par la praticité plutôt que par leur pertinence.

De petits changements peuvent entraîner des modifications imprévisibles du comportement des modèles et annuler les dispositifs de sécurité intégrés.

– Mahi Hardalupas, chercheur à l’ALI

Les limites du « red teaming »

La pratique du red teaming, qui consiste à charger des individus ou des groupes d’attaquer un modèle pour identifier ses failles, est également pointée du doigt. Si des entreprises comme OpenAI et Anthropic y ont recours, l’absence de normes établies rend difficile l’évaluation de son efficacité. De plus, trouver des experts qualifiés est un défi, et le coût élevé de cette approche manuelle la rend inaccessible aux petites structures.

Vers des évaluations contextuelles et une implication des régulateurs

Face à ces constats, les co-auteurs de l’étude formulent plusieurs recommandations pour améliorer les évaluations de sécurité des modèles d’IA générative :

  • Développer des tests spécifiques au contexte d’utilisation, prenant en compte les types d’utilisateurs impactés et les attaques potentielles.
  • Impliquer davantage le secteur public dans l’élaboration des évaluations, avec des programmes facilitant l’accès aux modèles et aux données nécessaires.
  • Investir dans la recherche fondamentale pour concevoir des tests plus robustes et reproductibles.

Cependant, les experts soulignent qu’il n’y aura peut-être jamais de garantie absolue qu’un modèle est sûr. Déterminer la fiabilité d’un modèle nécessite de comprendre les contextes dans lesquels il est utilisé, à qui il est vendu ou rendu accessible, et si les garde-fous en place sont suffisants pour réduire les risques.

À mesure que l’IA générative se démocratise, il devient crucial de renforcer les évaluations de sécurité pour s’assurer que ces puissants outils sont utilisés de manière responsable. Les acteurs de l’industrie, les chercheurs et les régulateurs doivent collaborer pour relever ce défi majeur et bâtir un écosystème d’IA digne de confiance.

À lire également