
A gauche, la vidéo originale d’Alec Baldwin imitant Donald Trump et à droite la vidéo modifiée avec le visage de Donald Trump incrusté sur le corps d’Alec Baldwin
Contraction des termes « deep learning » (« apprentissage profond ») et « fake » (« truqué »), un deepfake est une technique de synthèse d’images basée sur l’intelligence artificielle.
Ce sont de fausses vidéos très réalistes qui permettent de faire dire ou faire n’importe quoi à n’importe qui !
Barack Obama traitant Donald Trump de « connard », Donald Trump accusant Obama de vol, Emma Watson jouant dans un film porno… tout ceci ne s’est jamais produit dans la réalité, et pourtant c’est bel et bien ce que des vidéos ont voulues nous faire croire !
BuzzFeed a montré la dangerosité des deepfakes avec cette vidéo mettant en scène un discours de Barack Obama plus vrai que nature, dont les propos ne sont pourtant jamais sortis de sa bouche :
Deepfake : comment ça marche ?
La technique de trucage vidéo s’appuie sur l’intelligence artificielle et permet de transposer le style d’une vidéo à une autre sans en altérer sa qualité ni sa composition d’origine. En combinant et superposant les images de vidéos, on manipule l’image via l’apprentissage automatique de l’outil.
Les chercheurs de l’université Carnegie Mellon ont perfectionné le procédé afin de pouvoir transposer les expressions faciales d’une vidéo à une autre, permettant de faire dire tout et n’importe quoi à qui on veut :
L’intelligence artificielle superpose ici l’image d’une personne sur celle de quelqu’un d’autre. Les algorithmes sont capables de récupérer le contenu d’une vidéo et de l’appliquer à une autre sans en altérer le style ou la qualité. Les mouvements du visage et de la bouche sont précisément calqués sur le visage d’un autre, et le procédé peut s’appliquer à d’autres éléments comme les fleurs ou les paysages ! Ainsi dans cette démonstration on peut voir le clonage d’un discours de Marthin Luther King transposé dans la bouche d’Obama, puis ensuite dans celle de Trump…
Le site FuturaTech explique « Pour réaliser ce trucage vidéo bluffant, les chercheurs ont créé des réseaux antagonistes génératifs (en anglais, generative adversarial networks ou GANs). Il s’agit de deux algorithmes d’apprentissage non supervisé qui sont mis en compétition l’un contre l’autre. Le premier réseau est un générateur qui va créer une copie du style d’une vidéo. Le second réseau est un discriminateur qui examine le contenu produit en le comparant à l’original et évalue sa cohérence. Mais les chercheurs sont allés plus loin en créant un Recycle-GAN, qui analyse les changements visuels non seulement d’un point de vue spatial mais aussi temporel. Cette couche supplémentaire d’informations contribue à réduire les options pour conserver les meilleurs résultats possibles. »
A l’heure actuelle, la technique ne sait pas encore transposer le son, mais on peut imaginer que cela finira par être possible.
Les usages et dérives d’un deepfake
On peut imaginer beaucoup d’usages dans la production de films (animation anthropomorphique…) – d’ailleurs la technique a déjà été utilisée dans le porno pour produire des vidéos utilisant le visage de célébrités à leur insu (Daisy Ridley, aka Rey dans Star Wars, en a notamment été victime)… Ou encore pour apprendre aux voitures autonomes à conduire de nuit, en transposant des dangers identifiés de jour.
Mais cette technologie inquiète beaucoup, et à juste titre :
D’abord, le revenge porn est une dérive très possible : imaginez qu’on veuille vous faire chanter avec une vidéo coquine, il suffirait de transposer votre visage sur celui d’un comédien…
Ensuite, il y a un risque énorme de manipulation de l’information (encore plus que d’habitude, oui). Aux États-Unis, les membres du Congrès prennent cette menace au sérieux à l’approche des élections de mi-mandat et demandent un rapport au patron du renseignement pour évaluer les risques. « Nous sommes très inquiets que la technologie deep fake puisse être déployée bientôt par des acteurs étrangers malveillants », écrivent Adam B. Schiff, Stephanie Murphy (démocrates) et Carlos Curbelo (républicain) qui craignent des opérations de « chantage » ciblant des individus ou des campagnes de « désinformation » pouvant menacer la « sécurité nationale ».
Une puissance étrangère pourrait ainsi facilement manipuler l’information et les élections. Pire encore, que se passerait-il si un chef d’État déclarait la guerre à un pays dans l’une de ces vidéos ? C’est une vraie arme entre les mains de personnes malveillantes qui pourrait déstabiliser le monde politique.
Les institutions tentent de s’en protéger
Depuis cette année, la Défense américaine finance des projets de recherche pour détecter ces fausses vidéos, mais tous les internautes devront être vigilants…
En France, les ministères des Armées et des Affaires étrangères ont publié un rapport sur les manipulations de l’information qui aborde le sujet, mettant en garde sur « l’altération discrète d’une partie seulement d’un contenu audio ou vidéo, un discours par exemple. Ou encore la possibilité d’en faire un grand nombre de variations – diffuser une vingtaine de variantes du même discours, par exemple, pour diluer l’authentique dans la confusion ».
Du coté des réseaux sociaux, Facebook a annoncé investir en technologie et en moyens humains pour lutter contre le phénomène. Les vidéos peuvent être signalées comme fausses par les utilisateurs et être ensuite analysées par les journalistes qui collaborent avec Facebook. Twitter et Tumblr ont également interdit ces images truquées.
Reporter sans frontières a également sensibilisé les journalistes aux deepfakes. Dans les états autoritaires, cela peut servir à intimider ou dissuader. La journaliste indienne Rana Ayyub en a déjà fait les frais, via une vidéo pornographique diffusée sur WhatsApp avec son visage à la place de celui de l’actrice.
Quelques clés pour reconnaître un deepfake
Si les vidéos mises en ligne sont parfois de mauvaise qualité, rendant la détection des deepfakes presque impossible par un œil non averti, quelques signes permettent toutefois de les reconnaître (à condition de bien les chercher…).
L’Université de l’Etat de New York a développé un algorithme capable de repérer 95% des deepfakes analysés. L’intelligence artificielle a besoin de beaucoup de photos de la célébrité concernée pour reproduire son visage, y compris de photos où les yeux sont fermés, ce qui est plus rare. Or cela pose quelques problèmes au niveau des clignements des yeux qui ne sont pas toujours correctement synchronisés ou pas très naturels.
On peut aussi regarder du côté de la synchronisation entre la bouche et les mots, ou du lien entre le visage et le décor. Mais nul doute que ces défauts ne tarderont pas être corrigés…
La meilleure arme à ce genre de trucage reste votre vigilance. Si un ami vous envoie une vidéo et que vous avez envie de croire que son contenu est vrai, vous risquez sans aucun doute de tomber dans le piège. C’est ce qu’il s’est notamment passé avec les fake news de la dernière élection américaine et la meilleure réponse à ce phénomène reste l’éducation publique.