La course à l’innovation en matière d’intelligence artificielle prend un nouveau virage avec la présentation par Google de Veo 3.1, une avancée majeure dans la génération de vidéos à partir de simples images fixes et d’instructions textuelles. Ce nouveau modèle promet de révolutionner la création de contenu audiovisuel en offrant aux créateurs un contrôle sans précédent.
Doté de fonctionnalités créatives optimisées, Veo 3.1 se distingue par un son plus riche, un contrôle narratif supérieur et un réalisme amélioré. Cette nouvelle itération s’appuie sur les performances de Veo 3, tout en garantissant une meilleure fidélité aux consignes et une qualité audiovisuelle accrue lors de la transformation d’images statiques en séquences animées. C’est ce qu’a souligné la firme lors de son annonce.
L’intégration de Veo 3.1 dans Flow, le moteur d’IA cinématographique de Google, marque une étape clé. Pour la première fois, l’audio enrichit des fonctionnalités déjà existantes. Parmi celles-ci, « Ingrédients vidéo » permet de composer des clips à partir de multiples images de référence pour définir des personnages, des objets et un style visuel précis. « Images en vidéo » assure une transition fluide entre une image initiale et une image finale, tandis que « Extenseur » prend la dernière seconde d’un clip pour générer automatiquement du contenu prolongé, dépassant la minute tout en respectant l’esthétique et la narration d’origine.
Flow se dote également de capacités d’édition plus fines, permettant d’ajouter ou de supprimer des éléments au sein d’une scène. Les utilisateurs peuvent ainsi ajuster des détails tels que les ombres et l’éclairage pour un rendu plus naturel. L’équipe de développement de Google a commenté : « Avec des fonctions d’édition plus précises, de l’audio dans tous les outils existants et des résultats de meilleure qualité grâce à Veo 3.1, nous ouvrons de nouvelles possibilités pour une narration audiovisuelle plus riche et plus puissante directement depuis Flow ».
Outre son intégration dans Flow, Veo 3.1 sera également accessible via l’application Gemini et les API Vertex et Gemini, élargissant ainsi son champ d’application pour les développeurs et les créateurs.
Flow, présenté comme un outil de cinématographie IA sur mesure, exploite la puissance des modèles les plus avancés de la firme, tels que Veo, Imagen et Gemini, pour réinventer la création de contenu cinématographique.
Cependant, le réalisme accru des vidéos générées par Veo 3.1 pourrait brouiller les pistes, rendant parfois difficile la distinction entre une production IA et une création humaine. Cette avancée soulève par ailleurs des inquiétudes quant à l’amplification du phénomène de « Recul de la pente » ou « poubelle numérique ». Cette tendance, exacerbée par la prolifération des systèmes génératifs, complique non seulement l’identification de contenus authentiques face aux créations artificielles, mais contribue aussi à une saturation et à une érosion de la confiance des utilisateurs.
Selon Silvia Martínez Martínez, professeure d’études en sciences de l’information et de la communication à l’Université Ouverte de Catalogne, « l’expérience sur les plateformes peut ne pas être aussi satisfaisante que l’utilisateur l’attend et peut accroître le scepticisme à l’égard du contenu, même s’il n’a pas été créé avec l’IA ».
Bien que les détails spécifiques du processus d’entraînement de Veo 3.1 n’aient pas été communiqués par Google, un rapport récent de CNBC révèle que l’entreprise utilise la vaste bibliothèque de YouTube pour entraîner ses modèles d’IA, y compris Gemini et Veo. La firme assure n’utiliser qu’une « partie » du contenu disponible (plus de 20 milliards de supports) et respecter les accords passés avec les créateurs et les médias pour protéger leur propriété intellectuelle. Un porte-parole de la plateforme a déclaré : « Nous avons toujours utilisé le contenu de YouTube pour améliorer nos produits, et cela n’a pas changé avec l’IA. Nous reconnaissons également la nécessité d’établir des garde-fous, c’est pourquoi nous avons investi dans des protections qui permettent aux créateurs de garder le contrôle sur leur image et leur ressemblance dans cette nouvelle ère ».
Malgré ces assurances, plusieurs créateurs ont exprimé leur manque d’information quant à ces pratiques et aux accords mentionnés. Le rapport souligne que l’utilisation de ces vidéos à des fins d’entraînement pourrait déclencher une crise de la propriété intellectuelle. Des experts anonymes ont indiqué que « bien que le résultat final de Veo 3 ne reproduise pas directement les œuvres existantes, le contenu généré alimente des outils commerciaux qui concurrencent les créateurs dont les matériaux ont servi de base à la formation, sans crédit, consentement ou compensation ».