Dans un nouveau chapitre de la course effrénée des géants de la tech vers la démocratisation de l’intelligence artificielle, Meta vient de lancer NotebookLlama, sa propre version open source du désormais célèbre générateur de podcast de Google, NotebookLM. Bien que les résultats soient encore loin d’égaler le niveau de naturel offert par son concurrent, cette initiative marque une étape importante dans l’accessibilité des outils d’IA pour tous.
NotebookLlama, la réplique méta de NotebookLM
Baptisé sans grande surprise NotebookLlama, en référence aux modèles maison Llama de Meta, ce projet open source se veut une implémentation ouverte et accessible de la fonctionnalité virale de Google permettant de générer un podcast à partir de n’importe quel texte. Tout comme NotebookLM, il est capable de produire un digest conversationnel à partir de fichiers texte, comme des articles de presse ou des billets de blog.
Le processus est relativement simple : NotebookLlama commence par créer une transcription du fichier, qu’il s’agisse d’un PDF, d’un article ou autre. Il y ajoute ensuite des éléments de « dramatisation », des interruptions et des effets, avant de passer le tout à des modèles open source de text-to-speech pour générer l’audio final.
Une qualité d’écoute perfectible
Si l’initiative est louable, force est de constater que les premiers résultats ne sont pas encore au niveau de NotebookLM en termes de naturel et de fluidité. Dans les échantillons partagés par Meta, les voix conservent un aspect très robotique et ont tendance à se couper la parole de manière peu naturelle.
Le modèle text-to-speech est la limitation principale pour obtenir un résultat naturel. Une autre approche serait d’avoir deux agents qui débattent du sujet pour rédiger le script du podcast. Actuellement, nous utilisons un seul modèle.
– Les chercheurs de Meta, sur la page GitHub du projet
Les équipes admettent elles-mêmes que la qualité du rendu final dépend grandement de la puissance des modèles utilisés, et que des améliorations significatives sont possibles en utilisant des architectures plus avancées, comme avoir deux IA conversant sur le sujet plutôt qu’un monologue.
Le défi des « hallucinations » de l’IA
Mais au-delà de l’aspect technique, NotebookLlama se heurte au même défi que tous les systèmes d’IA générative actuels : celui des hallucinations, ces éléments inventés de toutes pièces et présentés comme des faits. Malgré les progrès fulgurants de ces technologies, aucun système n’est aujourd’hui capable de s’en prémunir totalement, NotebookLM inclus.
- Les « hallucinations » de l’IA restent le principal défi des systèmes génératifs
- Aucun modèle actuel n’est capable de les éviter totalement
- NotebookLlama et NotebookLM n’échappent pas à la règle malgré leurs prouesses
Il faudra donc garder en tête que les podcasts générés, même bluffants de réalisme, peuvent contenir des informations totalement fictives. Un disclaimer important à avoir en tête à l’heure où ces outils se démocratisent à vitesse grand V.
L’open source comme moteur d’innovation
Cela n’enlève rien à l’intérêt de l’initiative de Meta. En proposant une version open source et ouverte à tous de cette technologie, le géant des réseaux sociaux contribue à stimuler l’innovation et la recherche autour de l’IA générative. De quoi espérer des progrès rapides pour arriver, à terme, à des assistants vocaux toujours plus bluffants et utiles au quotidien.
C’est en rendant ces technologies accessibles à un maximum de chercheurs et développeurs que nous ferons les plus grandes avancées. L’open source a un rôle clé à jouer.
– Un porte-parole de Meta
NotebookLlama n’est d’ailleurs pas la première tentative de reproduire le succès de NotebookLM. Mais là où les projets précédents se sont heurtés à des problèmes de coût et d’infrastructure, la force de frappe de Meta pourrait bien changer la donne. De quoi démocratiser toujours plus l’accès à ces technologies fascinantes, et ouvrir la voie à de nouveaux cas d’usage toujours plus innovants.
Une chose est sûre : la course à l’IA générative ne fait que commencer, et les géants de la tech sont bien décidés à en être les fers de lance. Reste à voir qui sortira son épingle du jeu, et surtout, quelles applications révolutionnaires en découleront pour le grand public. L’avenir nous le dira !