Veo 2 de Google DeepMind : Un Rival Sérieux à Sora d’OpenAI

Google DeepMind, le laboratoire de recherche phare de Google en intelligence artificielle, entend bien rivaliser avec OpenAI sur le terrain de la génération vidéo. Et il pourrait bien y parvenir, du moins pour un certain temps.

Ce lundi, DeepMind a annoncé Veo 2, une IA de génération vidéo de nouvelle génération qui succède à Veo, déjà utilisé dans un nombre croissant de produits Google. Veo 2 est capable de créer des clips de plus de deux minutes dans des résolutions allant jusqu’à 4K (4096 x 2160 pixels).

Un avantage théorique sur Sora d’OpenAI

C’est un avantage notable par rapport à Sora d’OpenAI, limité pour l’instant à une résolution de 1080p et une durée de 20 secondes par clip. Veo 2 promet une résolution 4 fois supérieure et une durée plus de 6 fois plus longue.

Cet avantage reste cependant théorique pour le moment. Dans VideoFX, l’outil expérimental de création vidéo de Google où Veo 2 est disponible en exclusivité, les vidéos sont limitées à 720p et 8 secondes de longueur.

VideoFX en accès limité, en attendant une intégration plus large

VideoFX est accessible sur liste d’attente, mais Google indique étendre cette semaine le nombre d’utilisateurs pouvant y accéder. Eli Collins, VP produit chez DeepMind, a également déclaré à TechCrunch que Google rendra Veo 2 disponible via sa plateforme de développement Vertex AI « lorsque le modèle sera prêt pour une utilisation à grande échelle ».

« Dans les mois à venir, nous continuerons à itérer en fonction des retours des utilisateurs », a déclaré Collins, « et nous chercherons à intégrer les capacités mises à jour de Veo 2 dans des cas d’utilisation convaincants dans l’écosystème Google… Nous prévoyons de partager plus de mises à jour l’année prochaine. »

– Eli Collins, VP produit chez DeepMind

Des vidéos plus nettes et un meilleur contrôle

Comme Veo, Veo 2 peut générer des vidéos à partir d’un prompt textuel (par exemple « Une voiture roulant à toute allure sur une autoroute ») ou d’un texte et d’une image de référence.

Mais quelles sont les nouveautés de Veo 2 ? Selon DeepMind, le modèle, capable de générer des clips dans une variété de styles, a une meilleure « compréhension » de la physique et des contrôles de caméra, et produit des séquences plus « nettes ».

Par plus nettes, DeepMind entend des textures et des images plus précises dans les clips, en particulier dans les scènes avec beaucoup de mouvement. Quant aux contrôles de caméra améliorés, ils permettent à Veo 2 de positionner la « caméra » virtuelle de manière plus précise dans les vidéos qu’il génère, et de déplacer cette caméra pour capturer des objets et des personnes sous différents angles.

Un modèle plus réaliste, mais pas encore parfait

DeepMind affirme également que Veo 2 peut modéliser de manière plus réaliste le mouvement, la dynamique des fluides (comme le café versé dans une tasse) et les propriétés de la lumière (comme les ombres et les reflets). Cela inclut différents objectifs et effets cinématographiques, ainsi que des expressions humaines « nuancées ».

Malgré l’insistance de DeepMind sur le fait que le modèle est moins susceptible d’halluciner des éléments comme des doigts supplémentaires ou des « objets inattendus », Veo 2 ne parvient pas encore à franchir complètement la vallée de l’étrange.

« La cohérence et la consistance sont des domaines à améliorer », a admis Collins. « Veo peut suivre de manière cohérente un prompt pendant quelques minutes, mais il ne peut pas adhérer à des prompts complexes sur de longues périodes. De même, la cohérence des personnages peut être un défi. Il y a aussi de la place pour améliorer la génération de détails complexes, les mouvements rapides et complexes, et continuer à repousser les limites du réalisme. »

– Eli Collins, VP produit chez DeepMind

Des collaborations artistiques pour affiner le modèle

DeepMind continue de travailler avec des artistes et des producteurs pour affiner ses modèles et outils de génération vidéo, a ajouté Collins.

« Nous avons commencé à travailler avec des créatifs comme Donald Glover, The Weeknd, d4vd et d’autres depuis le début de notre développement de Veo pour vraiment comprendre leur processus créatif et comment la technologie pourrait aider à donner vie à leur vision », a déclaré Collins. « Notre travail avec les créateurs sur Veo 1 a influencé le développement de Veo 2, et nous avons hâte de travailler avec des testeurs et des créateurs de confiance pour obtenir des retours sur ce nouveau modèle. »

– Eli Collins, VP produit chez DeepMind

Des questions éthiques sur la provenance des données d’entraînement

Veo 2 a été entraîné sur de nombreuses vidéos. C’est généralement ainsi que fonctionnent les modèles d’IA : alimentés d’exemples après exemples d’une forme de données, les modèles repèrent des schémas qui leur permettent de générer de nouvelles données.

DeepMind ne dit pas exactement d’où proviennent les vidéos ayant servi à entraîner Veo 2, mais YouTube est une source possible, étant donné que Google possède YouTube et que DeepMind a précédemment déclaré à TechCrunch que les modèles Google comme Veo « peuvent » être entraînés sur du contenu YouTube.

Si DeepMind, via Google, propose des outils permettant aux webmasters de bloquer l’extraction de données d’entraînement par les robots du laboratoire depuis leurs sites web, DeepMind n’offre pas de mécanisme permettant aux créateurs de supprimer leurs œuvres des ensembles de données d’entraînement existants.

Le laboratoire et sa société mère maintiennent que l’entraînement de modèles à l’aide de données publiques relève du fair use, ce qui signifie que DeepMind estime ne pas être tenu de demander l’autorisation des propriétaires des données.

Veo 2 et le risque de deepfakes

Comme tous les modèles génératifs d’aujourd’hui, Veo 2 comporte certains risques, comme la régurgitation, qui fait référence à la génération par un modèle d’une copie miroir des données d’entraînement. La solution de DeepMind consiste en des filtres au niveau des prompts, y compris pour les contenus violents, graphiques et explicites.

Pour atténuer le risque de deepfakes, DeepMind dit utiliser sa technologie de filigrane propriétaire, SynthID, pour intégrer des marqueurs invisibles dans les images générées par Veo 2. Cependant, comme toute technologie de filigrane, SynthID n’est pas infaillible.

Imagen 3 s’améliore également

Outre Veo 2, Google DeepMind a annoncé ce matin des améliorations à Imagen 3, son modèle commercial de génération d’images.

Une nouvelle version d’Imagen 3 est déployée auprès des utilisateurs d’ImageFX, l’outil de génération d’images de Google, à partir d’aujourd’hui. Il peut créer des images et des photos « plus lumineuses et mieux composées » dans des styles comme le photoréalisme, l’impressionnisme et l’anime, selon DeepMind.

« Cette mise à niveau suit également les prompts plus fidèlement et rend des détails et des textures plus riches », a écrit DeepMind dans un billet de blog fourni à TechCrunch.

En conclusion

Avec Veo 2, Google DeepMind montre son ambition de concurrencer sérieusement OpenAI sur le terrain de la génération vidéo par IA. Si le modèle semble prometteur sur le papier, avec une résolution et une durée de clip supérieures à celles de Sora, il reste encore du chemin à parcourir pour atteindre un rendu vraiment réaliste et cohérent.

Les questions éthiques sur la provenance des données d’entraînement et les risques de deepfakes devront également être adressées. Mais nul doute que la course à l’IA générative pour la vidéo ne fait que commencer, et que Google DeepMind entend bien y jouer un rôle de premier plan.

À lire également