Le Coût Exorbitant des Données d’Entraînement en IA

MondeTech.fr02/06/2024

Dans le monde effervescent de l’intelligence artificielle, une tendance inquiétante se dessine : le coût des données d’entraînement nécessaires aux modèles génératifs explose, creusant un fossé entre les géants de la tech et les acteurs indépendants. Plongeons ensemble dans les dessous de cette course aux données qui façonne l’avenir de l’IA.

Des modèles statistiques affamés de données

Au cœur des prouesses de l’IA générative se trouvent d’immenses modèles probabilistes. Tels des éponges, ils absorbent des quantités phénoménales d’exemples pour « deviner » les meilleures associations possibles. Intuitivement, plus un modèle est nourri d’exemples, meilleures seront ses performances. C’est là que réside tout l’enjeu : obtenir des données d’entraînement massives et de qualité.

Il semble que les gains de performance proviennent des données, du moins une fois qu’on dispose d’une configuration d’entraînement stable.
– Kyle Lo, chercheur à l’Allen Institute for AI

Course à l’annotation et dérapages éthiques

Pour associer textes et images, les modèles s’appuient sur de vastes jeux de données annotés par des humains. Une tâche chronophage et coûteuse que les géants de la tech externalisent parfois dans des conditions douteuses :

Transcription de vidéos YouTube sans accord des créateurs
Utilisation de contenus publics issus de Google Docs ou Maps
Annotation par des travailleurs sous-payés sans avantages sociaux

Bref, la course aux données d’entraînement pousse certains acteurs à des comportements contraires à l’éthique, au mépris du droit d’auteur et de la vie privée. Et les accords de licences sur ces précieuses données atteignent des sommets, excluant de fait les acteurs aux budgets limités.

Vers une centralisation inquiétante de l’IA

Résultat, le développement de l’IA se concentre dans les mains d’une poignée de géants de la tech capables de se payer ces indispensables données d’entraînement :

Les petits acteurs ne pourront pas se permettre ces licences de données et donc ne pourront pas développer ou étudier les modèles d’IA. Je crains que cela n’entraîne un manque de regard indépendant sur les pratiques de développement de l’IA.
– Kyle Lo, Allen Institute for AI

Heureusement, quelques initiatives indépendantes tentent de créer de larges ensembles de données ouverts et éthiques. Mais pourront-elles tenir la distance face aux budgets astronomiques des géants de la tech ? L’avenir de la recherche en IA en dépend.