Alors que Google fait la promotion des capacités impressionnantes d’analyse de données de ses modèles phares d’intelligence artificielle Gemini, de récentes études viennent jeter une ombre sur ces affirmations. En effet, il semblerait que les modèles Gemini 1.5 Pro et 1.5 Flash aient bien du mal à tirer du sens de volumes massifs d’informations, contrairement à ce que laisse entendre le géant de la tech.
Des Résultats Décevants sur les Tâches d’Analyse de Documents
Deux études indépendantes se sont penchées sur l’aptitude des modèles Gemini et d’autres IA à comprendre d’énormes quantités de données, de l’ordre d’œuvres littéraires complètes comme « Guerre et Paix ». Les chercheurs ont constaté que Gemini 1.5 Pro et 1.5 Flash peinent à répondre correctement à des questions sur ces vastes jeux de données. Sur certains tests basés sur des documents, les modèles n’ont donné la bonne réponse que dans 40 à 50% des cas.
Bien que les modèles comme Gemini 1.5 Pro puissent techniquement traiter de longs contextes, nous avons observé de nombreux cas indiquant que les modèles ne « comprennent » pas réellement le contenu.
– Marzena Karpinska, chercheuse à UMass Amherst et co-autrice d’une des études
Une Fenêtre Contextuelle Insuffisante
Le contexte, ou fenêtre contextuelle, d’un modèle fait référence aux données d’entrée (texte, audio, vidéo) qu’il prend en compte avant de générer une sortie. Plus cette fenêtre est grande, plus les documents analysés peuvent être volumineux. Les dernières versions de Gemini acceptent jusqu’à 2 millions de tokens en entrée, soit l’équivalent de 1,4 million de mots – le plus grand contexte de tous les modèles commerciaux.
Mais cette prouesse technique ne se traduit pas nécessairement par une meilleure compréhension, comme le montrent les piètres performances des IA sur les tests. Même avec des fenêtres contextuelles d’un million de tokens, Gemini 1.5 Pro et Flash obtiennent des scores à peine supérieurs au hasard pour répondre à des questions sur le contenu de livres.
- Sur un livre de 260 000 mots, Gemini 1.5 Pro répond correctement à 46,7% des affirmations, et Flash à seulement 20%
- Les modèles ont plus de mal à vérifier des affirmations nécessitant de considérer de larges portions du texte
- Ils peinent aussi avec les informations implicites, évidentes pour un lecteur humain mais non explicitement écrites
Des Lacunes Similaires dans l’Analyse Vidéo
La seconde étude a évalué la capacité de Gemini 1.5 Flash à « raisonner » sur des vidéos, c’est-à-dire à y rechercher des éléments et répondre à des questions. Là encore, les résultats sont décevants. Dans un test consistant à transcrire 6 chiffres manuscrits insérés dans un diaporama de 25 images, Flash n’obtient que 50% de transcriptions correctes. Ce score chute à 30% avec 8 chiffres.
Pour les vraies tâches de questions-réponses sur des images, cela semble particulièrement difficile pour tous les modèles que nous avons testés. Cette petite quantité de raisonnement – reconnaître un nombre dans une image et le lire – pourrait être ce qui fait échouer le modèle.
– Michael Saxon, doctorant à UC Santa Barbara et co-auteur de l’étude
Google Promet Plus que Gemini Ne Peut Offrir
Bien que préliminaires, ces résultats suggèrent que Google a surestimé – et survendu – les capacités de ses modèles Gemini depuis le début. La firme est la seule à avoir mis en avant la taille de la fenêtre contextuelle comme argument marketing majeur. Pourtant, comme le soulignent les chercheurs, rien ne prouve qu’un grand contexte permette à lui seul d’accomplir des tâches utiles.
Face à des agents conversationnels qui inventent des détails et des moteurs de recherche qui frôlent le plagiat, les clients attendent des avancées concrètes, pas seulement techniques. Google, qui s’est précipité pour rattraper son retard en IA générative, semble avoir misé trop tôt sur Gemini comme facteur de différenciation.
Nous n’avons pas encore trouvé de moyen de vraiment montrer qu’un « raisonnement » ou une « compréhension » de longs documents a lieu, et tous les acteurs qui publient ces modèles rassemblent leurs propres évaluations ad hoc pour faire ces affirmations. Sans connaître les détails d’implémentation du traitement des longs contextes – que les entreprises ne partagent pas – il est difficile de dire à quel point ces affirmations sont réalistes.
– Marzena Karpinska, chercheuse à UMass Amherst
Selon les auteurs des études, la solution pour contrer le battage médiatique autour de l’IA générative passe par de meilleurs benchmarks et une plus grande place accordée à la critique indépendante. Ils notent que les tests courants pour les longs contextes, abondamment cités par Google, mesurent surtout la capacité à retrouver des infos précises comme des noms et des chiffres – pas à répondre à des questions complexes.
Il est crucial que le public comprenne les limites actuelles de ces technologies fascinantes mais imparfaites, au-delà de la communication des entreprises. Car si l’IA progresse à un rythme effréné, le chemin vers une véritable « compréhension » des données par les machines est encore long et semé d’embûches, comme le révèle la saga Gemini.