Home Sciences et technologies Tencent Hunyuan: La vidéo AI obtient un audio réaliste | Foley Tech

Tencent Hunyuan: La vidéo AI obtient un audio réaliste | Foley Tech

0 comments 166 views

Une équipe du Hunyuan Lab de Tencent a dévoilé une IA révolutionnaire, surnommée «Hunyuan Video-Foley», prête à révolutionner la création de médias synthétiques. Le nouveau système génère l’audio de haute qualité et parfaitement synchronisé pour les vidéos, qui aborde un défi de longue date dans le domaine de la création de contenu axée sur l’IA.

Avez-vous déjà regardé une vidéo générée par l’AI-AI et a senti que quelque chose manquait? Bien que les visuels puissent être impressionnants, le silence souvent présent peut nuire à l’expérience immersive. Dans le cinéma professionnel, l’art de créer des effets sonores réalistes – des feuilles bruissantes aux lunettes de tintement – est connue sous le nom de Foley Art, un artisanat méticuleux et hautement qualifié.Répliquant ce niveau de détail s’est révélé difficile pour l’IA. Les modèles existants ont souvent du mal à comprendre les nuances d’une scène, conduisant à un son générique ou dépareillé. Tels que, si elle était invitée à générer le son des oiseaux, mais a demandé de générer «le son des vagues de l’océan», l’IA ne livrerait probablement que des vagues, ignorant complètement les traces et les appels d’oiseaux qui contribuent à un écran sonore réaliste.

Approche à trois volets de Tencent

L’équipe de Hunyuan de Tencent a abordé ces obstacles grâce à une stratégie à multiples facettes. Premièrement, ils ont reconnu la nécessité d’un ensemble de données éducatif plus complet pour l’IA. Cela a conduit à la création d’une Libary massive contenant 100 000 heures de vidéo, d’audio et de descriptions de texte correspondantes. Pour assurer la qualité, un pipeline automatisé a été développé pour filtrer le contenu de basse qualité – des clips avec un silence prolongé ou un audio déformé compressé – garantissant l’IA appris du meilleur matériel disponible.

Deuxièmement, l’équipe a conçu une architecture d’IA plus élégante. Ce nouveau design permet au modèle de «multitâche» efficacement, priorisant la synchronisation précise des éléments visuels et audio – correspondant à un pas au moment exact d’une chaussure frappe le sol, par exemple. Une fois ce calendrier établi, le système intègre l’invite de texte pour comprendre le contexte global et l’humeur de la scène, garantissant que les détails cruciaux ne sont pas négligés.

Pour garantir une production audio haute fidélité, les chercheurs ont mis en œuvre une stratégie de formation appelée représentation de représentation (REPA). Cette technique fonctionne comme avoir un ingénieur audio expérimenté superviser le processus de formation de l’IA, en comparant sa sortie aux fonctionnalités d’un modèle audio pré-formé de qualité professionnelle pour le guider vers la production d’un son plus propre, plus riche et plus stable.

libération open source et résultats prometteurs

Aujourd’hui, Tencent a annoncé la sortie open source de Hunyuanvideo-Foley, un cadre de texte de bout-video-to-audio (TV2A) conçu pour générer un audio haute fidélité. 🚀 Cet outil est destiné à autonomiser les créateurs de la production vidéo, du cinéma et du développement de jeux pour produire du contenu de qualité professionnelle.

https://twitter.com/tencenthunyuan/status/169344999999999999

Les tests ont révélé des améliorations importantes des performances par rapport aux autres modèles d’IA principaux. Selon un communiqué de l’entreprise, les résultats n’étaient pas seulement statistiquement meilleurs; Les auditeurs humains ont toujours évalué la production de Hunyuan Video-Foley comme une qualité supérieure, mieux aligné sur le contenu vidéo et plus précisément. Dans plusieurs ensembles de données d’évaluation, l’IA a démontré des améliorations du contenu et du calendrier du son généré.

L’innovation de Tencent représente une étape significative vers le comblement de l’écart entre les vidéos d’IA silencieuses et les expériences de visualisation vraiment immersives. En apportant le talent artistique de la conception sonore de Foley au domaine de la création de contenu automatisée, Hunyuan Video-Foley offre une nouvelle capacité puissante pour les cinéastes, les animateurs et les créateurs dans un large éventail d’industries.

Vous voulez en savoir plus sur l’IA et les Big Data des leaders de l’industrie? Découvrez AI & Big Data Expo qui se déroule à Amsterdam, en Californie et à Londres. L’événement complet fait partie de TechEx et est colocalisé avec d’autres événements technologiques de premier plan, cliquez ici pour plus de détails. AI News est alimenté par TechForge Media. Explorez d’autres événements et webinaires de technologie d’entreprise à venir ici.

Leave a Comment

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.