Un Nouveau Cadre pour Évaluer la Conformité des LLM avec le AI Act de l’UE

Alors que la plupart des législateurs dans le monde en sont encore à discuter de la manière d’encadrer l’intelligence artificielle, l’Union Européenne a une longueur d’avance. Son AI Act, une loi basée sur une approche par les risques pour réguler les applications d’IA, est entré en vigueur en août. Bien que tous les détails de ce régime paneuropéen de gouvernance de l’IA soient encore en cours d’élaboration, le compte à rebours de la conformité a déjà commencé pour les développeurs d’applications et de modèles d’IA.

L’étape suivante consiste à évaluer si et comment les modèles d’IA respectent leurs obligations légales. Les grands modèles de langage (LLM) et autres IA dites fondatrices ou à usage général serviront de base à la plupart des applications. Il semble donc important de concentrer les efforts d’évaluation à ce niveau de la pile IA.

Un cadre d’évaluation open source pour les LLM

C’est dans ce contexte que LatticeFlow AI, une spin-off de l’ETH Zurich spécialisée dans la gestion des risques et la conformité de l’IA, a publié mercredi ce qu’elle présente comme la première interprétation technique du AI Act de l’UE. L’entreprise a cherché à faire correspondre les exigences réglementaires aux exigences techniques, et propose un cadre open source de validation des LLM baptisé Compl-AI.

Cette initiative d’évaluation des modèles d’IA, que LatticeFlow qualifie également de « première suite d’évaluation comparative des LLM orientée réglementation », est le fruit d’une collaboration de longue date entre l’ETH Zurich et l’Institut bulgare d’informatique, d’intelligence artificielle et de technologie (INSAIT).

Les développeurs de modèles d’IA peuvent utiliser le site Compl-AI pour demander une évaluation de la conformité de leur technologie avec les exigences du AI Act de l’UE. LatticeFlow a également publié des évaluations de plusieurs LLM grand public, comme différentes versions/tailles des modèles Llama de Meta et GPT d’OpenAI, ainsi qu’un classement de conformité au AI Act pour les géants de l’IA.

27 benchmarks couvrant différents aspects de conformité

Le cadre de LatticeFlow évalue les réponses des LLM sur 27 benchmarks tels que les « accomplissements toxiques de textes bénins », les « réponses préjudiciables », le « suivi d’instructions néfastes », la « véracité » et le « raisonnement de bon sens », pour n’en citer que quelques-uns. Chaque modèle obtient donc une série de scores dans chaque colonne (ou N/A en cas de manque de données ou si le créateur du modèle ne propose pas la capacité évaluée).

Les résultats montrent des performances variables selon ce qui est évalué. Par exemple, tous les modèles obtiennent de bons scores pour ne pas suivre d’instructions néfastes et ne pas produire de réponses préjudiciables. En revanche, les scores de raisonnement et de connaissances générales sont beaucoup plus mitigés.

La cohérence des recommandations, que le cadre utilise comme mesure d’équité, est particulièrement faible pour tous les modèles, aucun ne dépassant la moitié des points. D’autres domaines, comme la pertinence des données d’entraînement ou la fiabilité et la robustesse des filigranes, semblent essentiellement non évalués compte tenu du nombre de résultats marqués N/A.

Des défis d’évaluation sur certains sujets sensibles

LatticeFlow note qu’il est plus difficile d’évaluer la conformité des modèles dans certains domaines, comme les questions très sensibles du droit d’auteur et de la vie privée. Dans un article détaillant le travail sur le cadre, les scientifiques impliqués dans le projet soulignent que la plupart des modèles plus petits qu’ils ont évalués (≤ 13B paramètres) « ont obtenu de mauvais scores en matière de robustesse et de sécurité techniques ».

« Nous pensons que ces lacunes sont principalement dues au fait que les fournisseurs de modèles se concentrent de manière disproportionnée sur l’amélioration des capacités des modèles, au détriment d’autres aspects importants mis en évidence par les exigences réglementaires du AI Act de l’UE »
– Chercheurs de LatticeFlow et INSAIT

Selon eux, à mesure que les délais de conformité commenceront à se resserrer, les créateurs de LLM seront contraints de réorienter leur attention sur les domaines de préoccupation, « ce qui conduira à un développement plus équilibré des LLM ».

Une première étape vers une évaluation complète de la conformité

Étant donné que personne ne sait encore exactement ce qui sera nécessaire pour se conformer au AI Act de l’UE, le cadre de LatticeFlow est nécessairement un travail en cours. Il ne s’agit également que d’une interprétation de la manière dont les exigences de la loi pourraient être traduites en résultats techniques pouvant être évalués et comparés.

Mais c’est un début intéressant pour ce qui devra être un effort continu visant à sonder les puissantes technologies d’automatisation et à essayer d’orienter leurs développeurs vers une utilité plus sûre. Comme l’a déclaré Petar Tsankov, PDG de LatticeFlow, à TechCrunch :

« Le cadre est une première étape vers une évaluation complète de la conformité au AI Act de l’UE, mais il est conçu de manière à pouvoir être facilement mis à jour pour évoluer en même temps que la loi et les différents groupes de travail progressent. La Commission européenne soutient cette démarche. Nous nous attendons à ce que la communauté et l’industrie continuent à développer le cadre pour en faire une plateforme complète d’évaluation du AI Act. »
– Petar Tsankov, PDG de LatticeFlow

En résumant les principales conclusions à ce stade, Tsankov a souligné qu’il est clair que les modèles d’IA ont « principalement été optimisés pour les capacités plutôt que pour la conformité ». Il a également signalé des « écarts de performance notables », en soulignant que certains modèles de grande capacité peuvent être à égalité avec des modèles plus faibles en termes de conformité.

Priorité à la résilience aux cyberattaques et à l’équité

La résilience aux cyberattaques (au niveau du modèle) et l’équité sont des domaines particulièrement préoccupants, selon Tsankov, de nombreux modèles obtenant des scores inférieurs à 50 % pour le premier domaine.

« Alors qu’Anthropic et OpenAI ont réussi à aligner leurs modèles (fermés) pour obtenir de bons scores contre les jailbreaks et les injections de prompts, des fournisseurs open source comme Mistral ont moins mis l’accent sur cet aspect. »
– Petar Tsankov, PDG de LatticeFlow

Et avec « la plupart des modèles » affichant des performances également médiocres sur les benchmarks d’équité, il a suggéré que cela devrait être une priorité pour les travaux futurs.

LatticeFlow souhaite que le cadre gratuit et open source soit adopté et amélioré par la communauté plus large des chercheurs en IA. Comme l’a déclaré le professeur Martin Vechev de l’ETH Zurich, fondateur et directeur scientifique d’INSAIT, également impliqué dans ces travaux :

« Nous invitons les chercheurs, les développeurs et les régulateurs de l’IA à se joindre à nous pour faire avancer ce projet en évolution. Nous encourageons d’autres groupes de recherche et praticiens à contribuer en affinant la cartographie du AI Act, en ajoutant de nouveaux benchmarks et en élargissant ce cadre open source. »
– Martin Vechev, professeur à l’ETH Zurich et fondateur/directeur scientifique d’INSAIT

Selon lui, la méthodologie pourrait également être étendue pour évaluer les modèles d’IA par rapport à de futures lois sur l’IA au-delà du AI Act de l’UE, ce qui en ferait un outil précieux pour les organisations travaillant dans différentes juridictions.

L’UE a adopté un cadre réglementaire basé sur les risques pour l’IA, entré en vigueur en août
LatticeFlow propose un cadre open source pour évaluer la conformité des LLM avec cette loi
Les évaluations montrent que les modèles ont surtout été optimisés pour les capacités, pas la conformité
La résilience aux cyberattaques et l’équité sont des points faibles pour de nombreux modèles

À mesure que l’IA progresse à pas de géant, l’effort pour l’encadrer de manière responsable s’intensifie. Des initiatives comme Compl-AI de LatticeFlow jouent un rôle clé en fournissant des outils pour évaluer la conformité réglementaire des modèles. Mais il reste encore beaucoup de chemin à parcourir pour s’assurer que l’IA se développe dans le respect de nos valeurs.