Alors que les outils d’IA générative comme ChatGPT se multiplient, soulevant de nombreuses questions sur leur conformité au RGPD, le Comité européen de la protection des données (CEPD) vient de publier un avis très attendu. Cet avis explore en détail comment les développeurs d’IA peuvent utiliser les données personnelles pour développer et déployer des modèles d’IA, comme les grands modèles de langage, sans enfreindre les lois européennes sur la confidentialité.
Anonymat des modèles d’IA : une évaluation au cas par cas
Un des points clés abordés est celui de l’anonymat des modèles. Le CEPD définit un modèle anonyme comme un modèle où il serait « très peu probable » d’identifier directement ou indirectement les personnes dont les données ont été utilisées pour créer le modèle, et très peu probable de permettre aux utilisateurs d’extraire ces données du modèle via des requêtes. Mais le Comité insiste sur le fait que cela doit être évalué « au cas par cas ». Il fournit une liste non exhaustive de méthodes pour démontrer l’anonymat, comme :
- Sélectionner des sources de données d’entraînement en limitant la collecte de données personnelles
- Minimiser et filtrer les données lors de la phase de préparation
- Faire des choix méthodologiques robustes pour réduire les risques d’identification
- Appliquer des techniques de confidentialité différentielle
Intérêt légitime : la base juridique privilégiée ?
L’avis examine également si une base juridique d’ »intérêt légitime » peut être utilisée pour le développement et le déploiement de modèles d’IA. C’est important car obtenir le consentement de chaque personne dont les données sont traitées n’est pas réaliste à l’échelle des grands modèles de langage. Le CEPD laisse la porte ouverte à cette possibilité, sous réserve d’un test en trois étapes :
- Le traitement poursuit un but légitime et spécifique
- Le traitement est nécessaire et proportionné pour atteindre ce but
- Une mise en balance est effectuée entre les intérêts du responsable du traitement et les droits des personnes
Les autorités de contrôle devront prendre en compte les circonstances de chaque cas individuel.
– CEPD
Modèles formés illégalement : une porte de sortie ?
Enfin, l’avis aborde la question épineuse des modèles d’IA entraînés sur des données traitées de manière illicite. Là encore, le CEPD recommande une approche au cas par cas. Mais il semble offrir une échappatoire si les développeurs prennent des mesures pour que toute donnée personnelle soit anonymisée avant le déploiement du modèle. Dans ce cas, le RGPD ne s’appliquerait pas et « l’illicéité du traitement initial ne devrait pas avoir d’impact sur le fonctionnement ultérieur du modèle ».
Cet avis du CEPD, très attendu, apporte donc des éclairages bienvenus sur l’application du RGPD aux modèles d’IA générative. S’il ne lie pas les mains des autorités nationales, il guidera certainement leurs décisions et les engagements des développeurs d’IA avec les régulateurs. La conformité de l’IA générative au RGPD est un enjeu majeur pour son développement en Europe.