Imaginez converser naturellement avec un assistant vocal aussi fluide et intelligent qu’un être humain. C’est la promesse de Moshi, l’IA générative vocale 100% française dévoilée le 3 juillet par le laboratoire de recherche Kyutai. Fondé en novembre dernier par une équipe de chercheurs issus de Meta, Google DeepMind et autres géants de la tech, Kyutai bénéficie du soutien de poids lourds comme Xavier Niel d’Iliad, Rodolphe Saadé de CMA-CGM et Eric Schmidt, ex-PDG de Google.
Un modèle vocal novateur créé from scratch
La particularité de Moshi réside dans sa conception « from scratch ». Contrairement à ses concurrents qui adaptent des modèles existants, l’IA de Kyutai a été développée à partir de zéro. Résultat : un assistant capable de conversations naturelles avec un temps de latence fortement réduit, s’appuyant sur un modèle unique pour comprendre et formuler ses réponses.
Parmi les autres atouts mis en avant :
- Une technologie 100% made in France
- Un modèle open source ouvert au public
- 70 tonalités de voix différentes
Si pour l’instant Moshi ne parle que français, de nouvelles langues devraient s’ajouter à l’avenir. L’objectif étant aussi de compresser sa taille pour une utilisation depuis un smartphone ou une enceinte connectée.
10 millions d’euros et un supercalculateur
Le développement de ce premier projet public de Kyutai aurait nécessité un investissement de 10 millions d’euros selon Le Monde et Les Echos. Une somme destinée notamment aux salaires et à la mobilisation du supercalculateur de Scaleway, filiale d’Iliad qui avait accueilli le lancement du laboratoire lors de l’événement ai-PULSE à Station F.
L’équipe fondatrice a reçu un don de 300 millions d’euros de la part de Xavier Niel, Rodolphe Saadé et Eric Schmidt.
De quoi voir venir pour perfectionner Moshi et travailler sur de nouveaux projets pour Kyutai, dont les effectifs sont passés de 6 à 12 chercheurs dans leurs bureaux parisiens du Marais.
Vers un renouveau des assistants vocaux ?
Après avoir perdu de leur superbe ces dernières années, les assistants vocaux comme Siri ou Alexa retrouvent un coup de jeune grâce à l’IA générative. Apple a ainsi présenté en juin un Siri nouvelle génération fruit d’une collaboration avec OpenAI. De son côté, Amazon planche sur un modèle maison baptisé GPT4o.
Face à ces géants, Kyutai mise sur l’innovation avec un seul modèle pour comprendre et répondre, là où les autres systèmes en utilisent plusieurs. De quoi fluidifier les échanges, même si des améliorations sont encore nécessaires comme en témoigne la présentation publique du 3 juillet.
Moshi n’en reste pas moins une avancée porteuse d’espoir pour une IA vocale plus performante et éthique. Avec sa philosophie open source et son ancrage français, Kyutai entend prouver qu’une autre voie est possible face aux GAFAM. Un pari audacieux à suivre de près alors que la course à l’IA générative ne fait que commencer.