L’impact des données synthétiques sur le développement de l’IA

Le monde de l’intelligence artificielle (IA) est en constante évolution, avec des avancées technologiques impressionnantes. Mais au cœur de ces progrès se trouve un élément clé : les données. Sans données pour s’entraîner, les modèles d’IA ne pourraient pas apprendre et s’améliorer. C’est là qu’interviennent les données synthétiques, une alternative prometteuse mais potentiellement périlleuse aux données réelles.

Qu’est-ce que les données synthétiques ?

Les données synthétiques sont des données générées artificiellement, souvent par une IA, plutôt que collectées dans le monde réel. L’idée est de prendre un petit ensemble de données de départ et de simuler et extrapoler de nouvelles entrées à partir de celui-ci. C’est une pratique de plus en plus courante dans l’industrie de l’IA, avec des géants comme Microsoft, Google, OpenAI et Anthropic qui utilisent des données synthétiques pour entraîner certains de leurs modèles phares.

Si « les données sont le nouveau pétrole », les données synthétiques se présentent comme un biocarburant, créable sans les externalités négatives de la chose réelle.

– Os Keyes, doctorant à l’Université de Washington

Les avantages des données synthétiques

Les données synthétiques offrent plusieurs avantages clés pour le développement de l’IA :

  • Elles peuvent être générées rapidement et à moindre coût par rapport à la collecte de données réelles.
  • Elles permettent de créer des données d’entraînement dans un format difficile à obtenir par grattage ou licensing de contenu.
  • Elles peuvent être utilisées pour développer rapidement l’intuition humaine sur les données nécessaires pour obtenir un comportement de modèle spécifique.

Des entreprises comme Writer ont pu développer des modèles concurrentiels à une fraction du coût grâce aux données synthétiques. Le marché des données synthétiques pourrait atteindre 2,34 milliards de dollars d’ici 2030 selon certaines estimations.

Les risques et les limites des données synthétiques

Malgré leurs promesses, les données synthétiques présentent également des risques et des limites importants :

  • Elles peuvent perpétuer ou amplifier les biais et les limitations présents dans les données de base utilisées pour les générer.
  • Une dépendance excessive aux données synthétiques peut entraîner une dégradation progressive de la qualité et de la diversité des modèles selon des chercheurs de Rice University et Stanford.
  • Les modèles complexes comme o1 d’OpenAI peuvent produire des hallucinations difficiles à détecter dans leurs données synthétiques, réduisant la précision des modèles entraînés dessus.
  • Un « effondrement des modèles » est possible si les données s’éloignent trop de la réalité au fil des générations, les rendant de moins en moins pertinents et diversifiés.

Trouver le bon équilibre

L’utilisation efficace des données synthétiques nécessite de trouver le bon équilibre. Comme l’explique Luca Soldaini de l’Allen Institute for AI, les données synthétiques « brutes » ne sont pas fiables à 100%. Elles doivent être soigneusement examinées, organisées et filtrées, et idéalement associées à des données réelles fraîches.

Les chercheurs doivent examiner les données générées, itérer sur le processus de génération et identifier des garde-fous pour supprimer les points de données de faible qualité. Les pipelines de données synthétiques ne sont pas une machine auto-améliorante ; leur sortie doit être soigneusement inspectée et améliorée avant d’être utilisée pour l’entraînement.

– Luca Soldaini, chercheur principal à l’Allen Institute for AI

Pour le moment, aucun grand laboratoire d’IA n’a publié de modèle entraîné uniquement sur des données synthétiques. L’humain reste nécessaire dans la boucle, quelque part, pour s’assurer que l’entraînement d’un modèle ne dérape pas. Mais à mesure que les techniques s’améliorent, les données synthétiques pourraient jouer un rôle de plus en plus important, offrant un complément précieux, voire une alternative, aux données réelles.

L’avenir nous dira si les données synthétiques tiendront leurs promesses en surmontant leurs périls potentiels. Une chose est sûre : dans la course à l’IA, ceux qui maîtriseront l’art de générer et d’utiliser efficacement les données synthétiques pourraient bien prendre une longueur d’avance.

À lire également