Meta Dévoile Llama 3.2, Son Modèle IA Révolutionnaire

L’intelligence artificielle (IA) ne cesse de repousser les limites du possible, et Meta vient de franchir un nouveau cap avec le lancement de son modèle Llama 3.2. Cette nouvelle version de son modèle de langage multimodal promet de révolutionner la façon dont les IA interprètent et génèrent du contenu, qu’il soit textuel ou visuel.

Un Modèle Puissant pour l’Analyse d’Images et de Textes

Llama 3.2 se compose de deux grandes catégories de modèles : les vision LLMs (11B et 90B) et les modèles texte uniquement (1B et 3B). Les premiers excellent dans l’interprétation d’images et de graphiques, grâce à leurs 90 millions de paramètres. Ils peuvent, par exemple :

  • Analyser une image contenant un graphique de chiffre d’affaires et identifier le mois le plus performant
  • Extraire les points clés d’une présentation et générer un compte-rendu détaillé

Quant aux modèles 1B et 3B, ils se concentrent sur des tâches purement textuelles comme la génération de résumés ou la réécriture de contenu. Leur taille réduite leur permet de fonctionner directement sur smartphone, tout en maintenant des performances élevées.

Des Processus d’Entraînement Optimisés

Pour atteindre de telles performances, Meta a optimisé les processus d’entraînement de Llama 3.2 en utilisant des adaptateurs d’image et un modèle de distillation des connaissances. Ce dernier consiste à former les petits modèles à partir des grands, afin de conserver la performance d’exécution sur smartphone.

De plus, grâce à une longueur de contexte étendue à 128K tokens, Llama 3.2 peut gérer des dialogues et des contenus textuels plus longs que ses versions précédentes.

Un Assistant IA Plus Interactif et Multimodal

Le lancement de Llama 3.2 s’accompagne de nouvelles fonctionnalités pour l’assistant Meta AI, le rendant plus interactif et multimodal. Alimenté par Llama 3.2, Meta AI peut désormais :

  • Répondre à des questions en analysant des photos partagées sur Messenger, WhatsApp ou Instagram
  • Modifier des images selon des instructions (changer l’arrière-plan, modifier une tenue, ajouter des éléments)
  • Générer des images et des suggestions de contenus pour les publications sur les réseaux sociaux

Des fonctions vocales ont également été introduites, permettant de parler avec l’assistant et d’écouter ses réponses.

Un Modèle Prometteur Mais Pas Encore Disponible en Europe

Si Llama 3.2 se positionne comme un modèle IA très compétitif, capable d’exceller dans la reconnaissance et la compréhension d’images, ainsi que dans des tâches de résumé, réécriture et utilisation d’outils, il ne sera malheureusement pas déployé immédiatement en Europe. En cause, les réglementations sur l’utilisation des données personnelles.

Néanmoins, les modèles sont d’ores et déjà disponibles sur des plateformes comme Hugging Face, et il est possible d’y accéder en utilisant un VPN.

Nul doute que Llama 3.2 va ouvrir de nouvelles perspectives passionnantes dans le domaine de l’IA multimodale, combinant vision par ordinateur et traitement du langage naturel. Un modèle à suivre de près !

author avatar
MondeTech.fr

À lire également