Publié le 2025-10-03 14:45:00. Les avancées fulgurantes en matière de génération de vidéos par intelligence artificielle soulèvent d’importantes questions sur l’authenticité des images, notamment celles de foules, et leur potentiel d’utilisation à des fins de désinformation.
- Les nouvelles plateformes IA comme Sora 2 d’OpenAI et Veo 3 de Google sont capables de créer des scènes de foule d’un réalisme troublant, posant un défi pour distinguer le vrai du faux.
- Ces technologies offrent des possibilités créatives accrues mais comportent aussi des risques, notamment la manipulation de l’opinion publique via des images de rassemblements gonflés ou fabriqués.
- Les plateformes cherchent à intégrer des filigranes visibles et invisibles pour identifier le contenu généré par IA, mais leur application reste inégale.
Une récente vidéo du concert de Will Smith, partagée sur Internet, a suscité un débat en raison de plusieurs anomalies visuelles, notamment des doigts mal formés et des visages étranges dans la foule, soulevant des soupçons d’utilisation d’intelligence artificielle.
La création de foules réalistes a toujours été un défi technique pour les IA. Comme l’explique Kyt Janae, artiste visuel et chercheuse spécialisée dans la création d’images par IA, « il faut gérer une multitude de détails complexes. Chaque individu dans la foule doit être distinct, avec ses propres mouvements et caractéristiques uniques – cheveux, visage, chapeau, téléphone, vêtements. » Ces modèles, cependant, s’améliorent constamment.
Les nouvelles plateformes comme Veo 3 de Google et Sora 2 d’OpenAI marquent une avancée significative. « Nous entrons dans un monde où, d’ici un an environ, les frontières de la réalité deviendront très floues », affirme Janae. « Vérifier ce qui est réel et ce qui ne l’est pas devra devenir une pratique courante. »
L’importance des images de foule
Cette évolution a des implications potentiellement sérieuses dans une société où les images de grandes foules lors d’événements publics – concerts, manifestations, rassemblements politiques – ont une valeur probante. « Nous recherchons une métrique visuelle, un moyen de déterminer si un événement a rencontré du succès ou non », indique Thomas Smith, PDG de Gado Images, une entreprise qui utilise l’IA pour gérer des archives visuelles. « La taille de la foule en est souvent un bon indicateur. »
Un rapport de la société de conseil Capgemini révèle que près des trois quarts des images partagées sur les réseaux sociaux en 2023 ont été générées par IA. La capacité croissante de la technologie à créer des scènes de foule convaincantes facilite la manipulation des visuels, ouvrant à la fois des perspectives créatives et des risques sociétaux.
« L’IA est un excellent moyen de tricher et de gonfler artificiellement la taille d’une foule », constate Smith. Il ajoute un revers à cette médaille : « Si une image authentique émerge et révèle quelque chose de politiquement embarrassant ou préjudiciable, il y aura une tendance à la discréditer en affirmant : ‘Non, c’est une fausse IA.’ » Ce fut le cas en août 2024, lorsque Donald Trump a diffusé une fausse information, prétendant qu’une image d’une foule nombreuse de partisans de Kamala Harris avait été générée par IA.
Charlie Fink, professeur à l’Université Chapman et chroniqueur pour Forbes sur les technologies émergentes, souligne la facilité avec laquelle les gens peuvent être trompés. « Le défi réside dans le fait que la plupart des gens consultent du contenu sur de petits écrans, et la plupart des gens ne sont pas particulièrement critiques envers ce qu’ils voient et entendent », explique-t-il. « Si cela semble réel, alors c’est réel. »
Équilibrer créativité et sécurité publique
Les entreprises technologiques derrière les générateurs d’images et les plateformes de médias sociaux sont confrontées à un équilibre délicat. Elles doivent permettre la création de contenus de plus en plus réalistes et crédibles, y compris des scènes de foule détaillées, tout en prévenant les dommages potentiels.
« Plus nous sommes capables de produire des résultats réalistes et crédibles, plus cela offre aux utilisateurs une plus grande liberté d’expression créative », affirme Oliver Wang, scientifique principal chez Google DeepMind et co-responsable des efforts de génération d’images de l’entreprise. « Cependant, la désinformation est une préoccupation majeure. C’est pourquoi nous intégrons un filigrane visible et un filigrane invisible dans toutes les images que nous générons. »
Le filigrane visible sur les vidéos créées avec Veo 3 de Google est actuellement discret, situé dans un coin de l’écran. Les filigranes invisibles, comme ceux utilisés par Google SynthID, ne sont pas perceptibles par l’utilisateur moyen mais aident les entreprises à suivre le contenu généré par IA en coulisses.
Les systèmes d’étiquetage pour l’IA ne sont pas encore uniformément appliqués sur toutes les plateformes, et il n’existe pas de normes industrielles définies, bien que les entreprises interrogées par NPR expriment leur volonté de collaborer à leur développement.
Meta, la société mère d’Instagram, étiquette actuellement le contenu généré par IA lorsqu’il est signalé par les utilisateurs ou détecté par ses systèmes. Les vidéos créées avec les outils d’IA de Google sur YouTube portent une étiquette automatique dans leur description. La plateforme demande aux créateurs utilisant d’autres outils de divulguer l’usage de l’IA. TikTok exige que les créateurs étiquettent le contenu généré par IA ou considérablement modifié qui présente des scènes ou des personnes réalistes. Le contenu non étiqueté peut être supprimé, restreint ou étiqueté par l’équipe de modération, en fonction du préjudice potentiel.
Pendant ce temps, Will Smith semble s’amuser des retombées de sa vidéo de concert controversée. Il a partagé une vidéo humoristique où une foule d’apparence humaine se révèle être composée de chats aux abois, accompagnée du commentaire : « La foule était en feu ce soir !! »