Deepfakes : les sortilèges de la musique truquée

Deepfakes : les sortilèges de la musique truquée

Imaginez un morceau qui donne à entendre un artiste sans que l’intéressé soit passé en studio. C’est ce que permettent des programmes fondés sur l’intelligence artificielle, ouvrant la voie à des questions juridiques et éthiques inédites.

“C’est le temps de Noël, le temps des jacuzzis !” chante Frank Sinatra [en anglais, dans un morceau disponible sur la plateforme SoundCloud]. En tout cas, on dirait bien que c’est lui. Avec son swing décontracté, sa bonhomie enjouée, ses cordes et ses cuivres discrets, ce titre ressemble fort à une démo qui aurait été égarée depuis longtemps. La voix, cette voix de velours “toute en legato et regrets”, comme elle a un jour été décrite [par un journaliste du New Yorker], est elle aussi curieusement familière, même si elle passe d’une tonalité à l’autre et qu’on a parfois l’impression que l’enregistrement a été fait au fond d’une piscine.

Cette chanson n’a pourtant jamais été interprétée par Sinatra. C’est un faux plus vrai que nature généré par Jukebox, un programme mis au point par “l’entreprise de recherche en intelligence artificielle” OpenAI, qui est capable de composer de la musique et des paroles à la façon de toutes sortes d’artistes. On lui doit des deepfakes [comme on appelle les contenus vidéo ou audio modifiés à l’aide de l’intelligence artificielle] d’artistes comme Katy Perry, Elvis Presley, Simon et Garfunkel, 2Pac, Céline Dion et beaucoup d’autres.

Cette intelligence artificielle (IA) a été entraînée avec 1,2 million de chansons piochées sur Internet, avec leurs paroles et leurs métadonnées. Forte de cet apprentissage, elle peut vous fabriquer une piste audio de plusieurs minutes en s’appuyant sur les données avec lesquelles vous l’aurez alimentée. Peu importe que vous lui donniez du Queen, du Dolly Parton [une star américaine de la country] ou du Mozart, il en sortira quelque chose de très ressemblant.

“C’est une prouesse technologique vraiment impressionnante, déclare Matthew Yee-King, chercheur à Goldsmiths, à Londres, et compositeur de musique électronique. Le programme décompose le signal audio en plusieurs lexèmes [le mot désigne ici des unités sonores] sur trois couches différentes, formant une sorte de dictionnaire qui réunit suffisamment d’éléments de base pour reconstruire la musique dont on l’a nourri, puis il les réassemble en fonction des stimuli qu’il reçoit. Si on lui donne du Ella Fitzgerald, par exemple, il cherchera dans son ‘dictionnaire’ les informations qui lui sont associées et les combinera pour composer une chanson à la façon d’Ella.”

Quelque chose d’horrifiant

La prouesse technologique est peut-être admirable, mais certaines de ces créations ont quelque chose d’horrifiant. Surtout celles qu’on prête aux artistes morts depuis longtemps, tristes fantômes errant dans la machine en marmonnant une litanie de clichés. “Le cri des damnés”, a commenté un internaute sous la chanson de Sinatra. “Carrément démoniaque”, écrit un autre.

Dans l’industrie de la musique, les conséquences de la technologie des deepfakes se font sentir à plusieurs niveaux. Il faut dire que de plus en plus d’entreprises de la tech s’intéressent à la musique algorithmique. Magenta, le projet d’intelligence artificielle de Google, présenté comme “l’exploration de l’apprentissage automatique comme outil dans le processus de création”, a développé plusieurs interfaces de programmation en open source [accessibles sans restrictions] qui permettent de composer des mélodies en utilisant des sons inédits générés par l’ordinateur, et de faire collaborer l’intelligence artificielle et l’homme.

De nombreuses start-up, comme Amper Music, produisent de la musique personnalisée fabriquée par une IA, qui peut être diffusée avec un copyright international. Même [la plateforme de musique] Spotify s’est jetée à l’eau en se dotant d’un laboratoire de recherche en intelligence artificielle.

Une IA peut-elle être reconnue coupable de plagiat ?

Nul besoin d’être devin pour prévoir que ces trucages risquent de poser des problèmes éthiques et de propriété intellectuelle. Car, au lieu de payer le prix en vigueur pour utiliser dans un film, une émission de télévision ou une publicité la musique d’un artiste connu, certains pourraient fabriquer leur propre imitation. Les plateformes de streaming pourraient quant à elles remplir leurs listes de lecture de musiques “à la façon de”, composées par une IA qui ne réclamera pas de droits d’auteur, et maximiser ainsi leurs profits. Les plateformes de streaming, les stations de radio et autres acteurs vont-ils en fin de compte éviter de plus en plus de payer des artistes de chair et de sang ?

Les services juridiques de l’industrie musicale suivent de très près l’évolution du phénomène. Début 2020, Roc Nation [le label du rappeur américain Jay-Z] a porté plainte contre un utilisateur anonyme de YouTube qui avait utilisé la voix et le flow de Jay-Z dans des morceaux de rap composés sur des textes de Shakespeare et Billy Joel (le résultat est à s’y méprendre). Les avocats ont exigé la suppression de ces contenus au motif qu’ils utilisaient “illégalement une IA pour imiter la voix de [leur] client”. Les vidéos ont été retirées, puis remises en ligne en attendant que “le dossier soit complété par le plaignant”, mais ce procès, le premier du genre, se poursuit.

Certains cependant sont enthousiastes à l’idée des possibilités de création ouvertes par les IA. “Si vous avez un modèle statistique fondé sur des millions de chansons, vous pouvez demander à l’algorithme ce qui n’existe pas encore, avance Yee-King, trouver cet espace vide et créer quelque chose de nouveau.” “Le procédé le plus proche est l’échantillonnage, ou ‘sampling’, renchérit Mat Dryhurst, un artiste et podcasteur qui travaille depuis plusieurs années avec les intelligences artificielles et les technologies associées. Le deepfake audio permet d’aller plus loin. Il y a une grande différence entre sampler un enregistrement de la voix de Bowie et faire chanter ce que l’on veut à Bowie. C’est un pouvoir et une responsabilité immenses.”

Préserver la dimension humaine de la musique

Les deepfakes posent également des questions plus profondes : qu’est-ce qui fait la singularité d’un artiste ? Pourquoi sommes-nous touchés par certaines musiques, et que se passerait-il si elles pouvaient être créées à la demande ? Yee-King imagine des machines capables de composer le morceau idéal pour chacun de nous à n’importe quel moment, en s’appuyant sur des paramètres que nous sélectionnerons (la start-up [allemande] Endel le propose déjà), et des pop stars utilisant l’IA pour savoir quelles chansons seront populaires ou ce qui plaira à tel ou tel public. “Il ne s’agira plus que d’optimiser les flux de musique, ajoute-t-il, et les artistes seront complètement sortis de la boucle.”

Mais si nous perdons tout attachement émotionnel au travail des artistes et à la dimension humaine du processus de création, un aspect fondamental de la musique disparaîtra. “Ces systèmes sont entraînés avec les formes d’expression humaines, et ils sont capables de les augmenter, résume Dryhurst.

Ce qu’il faut trouver maintenant, c’est un moyen de dédommager les humains, et non de les remplacer.”

Derek Robertson

A lire également