Deepfake e perché (non) preoccuparsi
Vediamo in che modo le reti generative avversarie hanno contributo allo sviluppo della tecnica chiamata Deepfake e perché (non) preoccuparsi della sua evoluzione e della sua rapida diffusione.
Intro
Diverse testate online e sempre più canali mediatici parlano di questo fenomeno: c’è chi ci ride su, pensando che sia divertente “incollare” la faccia di un attore famoso sulla propria, in modo che il video sembri girato dal finto volto (vedi qui Jim Carrey nei panni di James Bond e qui i video di un creator che genera video imitando Tom Cruise in modo molto realistico), o chi ne studia le possibilità evolutive (vedi Facebook).
Jim Carrey nei panni di James Bond grazie al Deepfake
C’è chi è seriamente preoccupato, perché degli utilizzi non positivi sono già venuti fuori (in questo articolo si parla di come alcuni parlamentari sembra siano stati ingannati convinti di aver parlato con un politico russo).
Vediamo però nel dettaglio di cosa stiamo parlando e quali sono i benefici e i rischi di questa tecnologia.
Cosa vuol dire Deepfake?
Questa parola deriva da una combinazione di “fake” che sta per “falso” e “deep”, intenso come abbreviazione di deep learning. Il deep learning è un tipo di algoritmo basato sulle “reti neurali” che impara a replicare i modelli passando attraverso set di dati.
Con queste capacità, il Deepfake può creare foto, audio o video falsi molto realistici e convincenti, che ritraggono o imitano persone che fanno o dicono cose che non hanno mai fatto, spesso riuscendo ad ingannare perfettamente il pubblico del video.
In effetti, il Deepfake è un nuovo tipo di falsificazione di un qualunque oggetto multimediale, chiaramente più complesso da riconoscere a causa delle tecnologie utilizzate. Con il progresso delle GPU negli ultimi anni, i ricercatori sono stati in grado di sviluppare tecniche di deep learning che rendono possibili queste applicazioni, come autoencoder e GAN.
Parliamo di numeri
Secondo un rapporto della startup Deeptrace, all’inizio del 2019 sono stati conteggiati circa 7.964 video messi in rete e frutto di Deepfake, che però sono saliti a 14.678 appena nove mesi dopo. A giugno 2020, un nuovo studio di Sensity rivela che quasi 49.081 video sono stati caricati online, con un aumento di oltre il 330 percento rispetto a luglio del 2019.
L’atto di creare immagini o video manipolati non è nuovo, né lo è la falsificazione di volti nelle immagini. Il termine “deepfake” è apparso per la prima volta nel 2017 dopo che un utente su Reddit si è definito tale e ha condiviso video pornografici dove i protagonisti avevano volti di celebrità sui corpi di altre persone.
In quell’occasione, la confusione fu tale che molte testate giornalistiche parlarono di video di artisti al centro di molti video per adulti.
Questo utente ha poi rivelato in un’intervista che il codice prodotto e che ha usato era basato perlopiù su più librerie open source che, combinate insieme, hanno prodotto quel risultato. Per compilare abbastanza materiale di immagini facciali per i suoi video, ha sfruttato immagini prese da Google, screenshot di YouTube e foto d’archivio per addestrare l’algoritmo che producesse queste immagini.
Subito dopo che l’utente ha reso pubblico il codice sorgente, sono emerse applicazioni specializzate nella creazione di deepfake come FaceSwap o FakeApp, che hanno avuto una diffusione massiva, rendendo possibile per meno esperti di digitale di utilizzare strumenti come questi.
Com’è fatto un Deepfake
Le principali tecniche di apprendimento automatico per i deepfake tendono ad essere una combinazione dell’utilizzo di autoencoder e reti generative avversarie (abbreviate in GAN) di cui abbiamo già parlato.
Le GAN utilizzano due reti neurali, chiamate generatore e discriminatore: queste reti sono messe in competizione tra loro, di modo che consentano al sistema di apprendere rapidamente.
Il generatore tenterà di creare un’immagine realistica e il discriminatore proverà a determinare se si tratta di un deepfake o meno.
Se il generatore inganna il discriminatore, il discriminatore utilizza le informazioni raccolte per diventare un giudice migliore. Allo stesso modo, se il discriminatore determina che l’immagine del generatore è un falso, la seconda rete migliorerà nel creare un’immagine falsa.
In questo modo, man mano vengono prodotte delle immagini sempre più realistiche, che lo stesso discriminatore ha sempre più difficoltà a riconoscere.
Perché (non) preoccuparsi
Tutto quello che abbiamo descritto finora può facilmente risultare terrificante: una tecnica del genere può avere esiti molto negativi, e come abbiamo visto i risultati non hanno tardato ad arrivare.
Lo stesso Einstein disse, quando il fisico Leo Szilárd parlò all’amico della possibilità di utilizzare la fissione nucleare per utilizzarla nelle bombe atomiche, di non averci nemmeno pensato.
Come spesso succede, molte delle scoperte nel campo tecnologico possono avere applicazioni positive e negative.
Per fare un esempio, una tecnica come questa potrebbe permettere agli attori di recitare in tutte le lingue, utilizzando un attore che parla la lingua da doppiare per poi “incollare” il volto dell’originale (qui un esempio).
La produzione di immagini false, ma realistiche, potrebbe aiutare moltissimo nella realizzazione di dataset specifici su determinate tipologie di immagini di cui non si ha un facile accesso (per questione di privacy), e che renderebbero il lavoro più semplice a chi vuole condurre lavori di ricerca.
I deepfake hanno anche un notevole potenziale nel mondo dell’arte. L’anno scorso, i ricercatori del laboratorio di intelligenza artificiale di Samsung a Mosca sono stati in grado di trasformare la famosa Gioconda di Da Vinci in un video utilizzando il deep learning per mostrare il soggetto del dipinto che muoveva gli occhi, la testa e la bocca.
Allo stesso modo, il Museo Dalí di St. Petersburg, in Florida, ha utilizzato questa tecnologia l’anno scorso come parte di una nuova mostra chiamata Dalí Lives: si mostrava un deepfake a grandezza naturale dell’artista surrealista che era stato creato tramite 1.000 ore di apprendimento automatico delle vecchie interviste dell’artista.
Tramite questo lavoro, è stato possibile creare e riprendere una varietà di citazioni che Dalí aveva effettivamente pronunciato o scritto nel corso della sua carriera e far sì che fosse possibile “vederlo".
Gli esempi appena citati mostrano come i deepfake possono servire a portare la storia e l’arte “vive” per un pubblico più ampio. E se questo aiuta ad interessare migliaia o milioni di persone all’arte e alla storia, allora il mondo non può che trarne beneficio.
L’utilizzo di una tecnica come questa può avere molti risvolti positivi; è chiaro che però ignorare una serie di episodi che sfruttando queste tecnologie con esiti spesso inopportuni vanno contrastati e ridotti: Facebook per prima ha parlato di come riconoscere immagini o video frutto di Deepfake e come gestirli in modo da vietarne la pubblicazione sulla propria piattaforma.
In conclusione, operazioni del genere vanno effettuate su larga scala, e non solo: come sempre la tecnologia corre veloce, molto più di quanto la legislazione riesca o possa: in questo senso, è però un intervento necessario, perché una regolamentazione definita è fondamentale per definire il perimetro di utilizzo di questa tecnologia.