Gemini Live : La Réponse de Google à ChatGPT Voice Mode

L’univers de l’intelligence artificielle est en pleine effervescence, et Google ne compte pas rester en retrait. Lors de son événement Made by Google 2024, le géant du web a dévoilé Gemini Live, sa réponse au mode vocal avancé de ChatGPT lancé récemment par OpenAI.

Une conversation vocale approfondie avec Gemini

Gemini Live permet aux utilisateurs d’avoir des conversations vocales approfondies avec Gemini, le chatbot IA de Google, directement depuis leur smartphone. Grâce à un moteur de reconnaissance vocale amélioré, Gemini offre un dialogue multi-tours plus cohérent, expressif et réaliste. Les utilisateurs peuvent interrompre Gemini en pleine phrase pour poser des questions complémentaires, et le chatbot s’adaptera en temps réel à leur façon de parler.

Avec Gemini Live, vous pouvez parler à Gemini et choisir parmi 10 nouvelles voix naturelles pour ses réponses. Vous pouvez même parler à votre propre rythme ou l’interrompre avec des questions de clarification, comme dans toute conversation.

– Google, dans un billet de blog

Des conversations en mode mains libres

Gemini Live peut être utilisé en mode mains libres si vous le souhaitez. Vous pouvez continuer à parler avec l’application Gemini en arrière-plan ou même lorsque votre téléphone est verrouillé. Les conversations peuvent être mises en pause et reprises à tout moment.

Google donne l’exemple d’une répétition pour un entretien d’embauche. Gemini Live peut s’entraîner avec vous, en vous donnant des conseils sur la façon de vous exprimer et en suggérant les compétences à mettre en avant lors de votre entretien avec un recruteur (ou une IA, le cas échéant).

Des modèles IA avancés pour une meilleure mémoire

L’un des avantages de Gemini Live par rapport au mode vocal avancé de ChatGPT pourrait être une meilleure mémoire. L’architecture des modèles d’IA générative qui sous-tendent Gemini Live, à savoir Gemini 1.5 Pro et Gemini 1.5 Flash, dispose d’une « fenêtre de contexte » plus longue que la moyenne. Cela signifie qu’ils peuvent absorber et raisonner sur une grande quantité de données – théoriquement des heures de conversations – avant de formuler une réponse.

Gemini Live utilise nos modèles Gemini Advanced que nous avons adaptés pour être plus conversationnels. La grande fenêtre de contexte du modèle est utilisée lorsque les utilisateurs ont de longues conversations avec Live.

– Un porte-parole de Google à TechCrunch

Des fonctionnalités à venir

Gemini Live n’a pas encore toutes les capacités présentées par Google lors de sa conférence I/O, notamment l’entrée multimodale. Google avait montré des vidéos pré-enregistrées où Gemini Live voyait et répondait à l’environnement des utilisateurs via des photos et des vidéos capturées par la caméra de leur téléphone. Cette fonctionnalité arrivera « plus tard cette année », selon Google.

Gemini Live sera également étendu à d’autres langues et à iOS via l’application Google un peu plus tard. Pour l’instant, il n’est disponible qu’en anglais.

Un accès payant via Google One AI Premium

Comme le mode vocal avancé de ChatGPT, Gemini Live n’est pas gratuit. Il est exclusivement réservé à Gemini Advanced, une version plus sophistiquée de Gemini accessible via l’abonnement Google One AI Premium, au prix de 20 dollars par mois.

D’autres nouveautés Gemini à venir

Google a également annoncé d’autres fonctionnalités pour Gemini, gratuites cette fois-ci :

  • Les utilisateurs Android pourront bientôt faire apparaître l’overlay Gemini au-dessus de n’importe quelle application pour poser des questions sur ce qui est affiché à l’écran.
  • Gemini pourra générer des images (mais toujours pas des images de personnes) directement depuis l’overlay. Ces images pourront être glissées-déposées dans des applications comme Gmail et Google Messages.
  • De nouvelles intégrations avec les services Google (ou « extensions ») sont prévues, permettant par exemple de demander à Gemini de créer une playlist sur YouTube Music, d’ajouter un événement à Google Agenda ou de retrouver une recette dans Gmail pour ajouter les ingrédients à une liste de courses dans Google Keep.

Bref, Google mise gros sur l’IA conversationnelle avec Gemini Live et les nouvelles fonctionnalités de Gemini. Reste à voir si cela suffira pour contrer la popularité grandissante de ChatGPT et de son mode vocal avancé. La bataille des assistants IA ne fait que commencer !

author avatar
MondeTech.fr

À lire également