Alors que la course à l’intelligence artificielle s’intensifie, l’accès à des données d’entraînement de qualité devient un enjeu crucial pour les entreprises. Mais face à la difficulté croissante de collecter des données réelles, de plus en plus d’acteurs se tournent vers une alternative prometteuse : les données synthétiques, générées par l’IA elle-même. Anthropic, Meta, OpenAI… Les géants du secteur misent massivement sur cette technologie. Mais cette ruée vers l’or numérique est-elle sans risque ?
Les atouts des données de synthèse
À première vue, les données synthétiques semblent résoudre de nombreux problèmes. Plus besoin de recourir à de coûteux services d’annotation, dont les employés sont souvent sous-payés. Plus de soucis de biais ou d’erreurs humaines dans l’étiquetage. Et surtout, la possibilité de créer un volume quasi-illimité de données d’entraînement.
Pour les chercheurs, c’est aussi un moyen de générer des données dans des formats difficiles à obtenir autrement. Meta a ainsi utilisé son modèle de langage Llama pour créer les légendes de vidéos servant à entraîner son générateur vidéo. De son côté, OpenAI a tiré parti de données synthétiques pour développer la fonctionnalité Canvas de ChatGPT.
Les modèles de données synthétiques peuvent être utilisés pour développer rapidement l’intuition humaine sur les données nécessaires pour obtenir un comportement spécifique du modèle.
Luca Soldaini, chercheur à l’Allen Institute for AI
Les périls de l’extrapolation
Mais les données synthétiques ne sont pas une panacée. Elles souffrent du même problème que toutes les IA : « garbage in, garbage out ». Si les données utilisées pour entraîner les modèles qui les génèrent sont biaisées, les données synthétiques le seront tout autant. Les groupes mal représentés dans les données de base le seront aussi dans celles synthétisées.
De plus, une étude de chercheurs de Rice University et Stanford a montré qu’une dépendance excessive aux données synthétiques pouvait créer des modèles dont la qualité et la diversité se dégradent progressivement. Un biais d’échantillonnage peut entraîner une perte de diversité après quelques générations d’entraînement.
Le risque des hallucinations en cascade
Un autre danger pointé par Os Keyes, doctorant à l’Université de Washington, est celui des hallucinations. Les modèles complexes comme o1 d’OpenAI pourraient produire des artefacts difficiles à détecter dans leurs données synthétiques. Celles-ci, à leur tour, réduiraient la précision des modèles entraînés dessus, surtout si l’origine de ces hallucinations n’est pas aisément identifiable.
À force de se nourrir de données erronées, les modèles pourraient générer des données de plus en plus fausses, dans une boucle de rétroaction qui dégraderait les futures générations de modèles. Une étude dans Nature montre comment les modèles perdent progressivement leur maîtrise des connaissances plus ésotériques, devenant plus génériques et produisant souvent des réponses hors sujet.
Les chercheurs doivent examiner les données générées, itérer sur le processus de génération et identifier des garde-fous pour supprimer les points de données de faible qualité. Les pipelines de données synthétiques ne sont pas une machine auto-apprenante ; leur production doit être soigneusement inspectée et améliorée avant d’être utilisée pour l’entraînement.
Luca Soldaini, chercheur à l’Allen Institute for AI
L’humain, maillon indispensable
Alors, les données synthétiques sont-elles une impasse ? Pas forcément, mais leur utilisation requiert un travail minutieux de vérification, de filtrage et d’amélioration, idéalement en les couplant avec de vraies données. Sans quoi on risque une dérive des modèles, qui deviendraient moins créatifs, plus biaisés, jusqu’à voir leurs fonctionnalités sérieusement compromises.
Sam Altman, PDG d’OpenAI, pense qu’un jour l’IA produira des données synthétiques suffisamment bonnes pour s’entraîner elle-même. Mais à supposer que ce soit faisable, nous n’en sommes pas encore là. Pour l’heure, l’humain reste un maillon indispensable pour s’assurer que l’entraînement des modèles ne déraille pas.
L’essor des données synthétiques illustre bien les promesses et les défis de l’IA actuelle. Un formidable potentiel d’innovation et de progrès, mais aussi des risques éthiques et techniques à ne pas négliger. Pour construire une IA à la fois performante et responsable, le dialogue entre humains et machines n’a jamais été aussi crucial.