L’intelligence artificielle ne cesse de progresser et de nous surprendre. Après avoir révolutionné la génération de textes, d’images et de vidéos, l’IA s’attaque désormais à un nouveau domaine : la synthèse vocale. OpenAI, le célèbre laboratoire à l’origine de ChatGPT et Dall-E, vient de dévoiler « Voice Engine », un outil capable de cloner n’importe quelle voix à partir d’un court échantillon audio. Une prouesse technologique qui soulève de nombreuses questions éthiques et sociétales.
Voice Engine : cloner une voix en 15 secondes
Développé dès 2022 par OpenAI, Voice Engine est un modèle de synthèse vocale qui ne nécessite qu’un enregistrement de 15 secondes pour reproduire fidèlement la voix d’un individu. L’outil est déjà utilisé en interne pour générer les voix de l’API d’OpenAI et permettre à ChatGPT de s’exprimer oralement.
Voice Engine n’est pas le premier outil du genre. Microsoft a présenté en janvier 2023 Vall-E, capable de cloner une voix à partir de seulement 3 secondes d’audio. La startup ElevenLabs propose une fonctionnalité similaire. Mais la solution d’OpenAI se distingue par son réalisme et sa capacité à reproduire les émotions et l’intonation du locuteur original.
Piste audio de référence :
Piste audio générée par l’IA d’OpenAI :
Un large champ d’applications
Bien que Voice Engine ne soit pas encore accessible au grand public, OpenAI mène actuellement des tests avec des partenaires de confiance dans différents domaines. Les applications potentielles sont nombreuses :
Les risques d’une technologie si puissante
Si les applications bénéfiques de Voice Engine sont indéniables, les risques de détournement sont tout aussi préoccupants. La possibilité de créer des deepfakes audio ultraréalistes représente une menace pour la démocratie, en particulier en période électorale.
Conscient de ces dangers, OpenAI a choisi de limiter pour l’instant l’accès à Voice Engine et d’engager un dialogue avec les gouvernements, les médias, les créateurs et la société civile pour définir un cadre éthique. Les partenaires actuels sont soumis à des conditions strictes :
Renforcer la résilience de la société face à l’IA
Au-delà des garde-fous techniques et juridiques, OpenAI appelle à une prise de conscience collective des enjeux soulevés par les voix synthétiques et l’IA générative en général. Plusieurs pistes sont avancées :
Voice Engine n’est que la partie émergée de l’iceberg. Qu’OpenAI choisisse ou non de le déployer à grande échelle, d’autres acteurs s’engouffreront dans la brèche. Il est crucial que nos sociétés anticipent les bouleversements à venir pour en tirer le meilleur parti, sans sacrifier nos valeurs sur l’autel de la technologie.