“L’AI mi ruba le foto” è una delle argomentazioni con le quali molti fotografi perpetuano la loro “crociata contro l’intelligenza artificiale generativa”. Ma è proprio così? Veramente l’AI, in barba a tutte le regole sul copyright, utilizza immagini prese in rete senza averne i diritti?

Per rispondere a queste domande è essenziale conoscere il funzionamento delle varie applicazioni di generazione di immagini e come queste vengono “addestrate”.
Prima ancora di addentrarci nei meccanismi di “machine learning” occorre però ricordarci di dove, per la maggior parte, si trovano le nostre foto a cui siamo tanti “affezionati”: i social network.
Quando apriamo un account su Facebook, Instagram e altri ancora, quasi mai leggiamo le numerose clausole e termini di utilizzo che accettiamo.
Se ci prendessimo cinque minuti prima di decidere di aprire il nostro profilo social, potremmo constatare che, stiamo di fatto, cedendo i diritti di utilizzo di tutto ciò che pubblichiamo, compresa la possibilità di utilizzare le nostre creazioni per addestrare l’AI.
Detto questo vediamo, nel modo più semplice possibile, come avviene il processo di apprendimento dell’AI per quanto riguarda le immagini e prendiamo dimestichezza con i concetti di “modello” e “dataset”.
Modelli e Dataset
I modelli generativi sono dei grandi contenitori di informazioni a cui attinge l’AI quando, con i nostri prompt, richiediamo la generazione di una sintografia. Al loro interno sono contenute le caratteristiche, in termini di pixel, forma, colore di tutto ciò che può essere rappresentato dall’AI.
Queste informazioni vengono “distillate” da appositi dataset, dei giganteschi contenitori di immagini. Alcuni di questi ne contengono milioni, prese dalla rete; quindi da social e altri archivi. Ad esempio, Firefly di Adobe utilizza le immagini che si trovano in Adobe Stock, il servizio di microstock di Adobe. In questo caso utilizzando solo foto e illustrazioni per le quali gli autori hanno dato l’autorizzazione.
In questi dataset in realtà, non sono presenti le immagini ma i loro relativi link, arricchiti con metadati che servono all’AI per identificare le parti presenti nell’immagine. Questa associazione può essere fatta da persone in carne e ossa oppure direttamente dall’AI, quando questa ha raggiunto un livello di apprendimento in grado di consentirle di riconoscere le cose. Di fatto quindi, in prima battuta, il riconoscimento viene compiuto dall’uomo, poi dalla macchina supervisionata dall’uomo, infine dalla sola macchina.
Molti di questi dataset sono pubblici, chiunque può accedervi e verificare le foto che vi sono archiviate. Per la stragrande maggioranza si tratta di immagini senza alcun valore autoriale o artistico, ma di grande rilevanza per l’apprendimento, per il “machine learning”.

Già da queste prime precisazioni, possiamo renderci conto che i “modelli” ai quali attinge l’AI sono caratteristiche di una determinata cosa e non l’immagine vera e propria che si trova nel dataset. Per citare Platone sono l’idea di una cosa e non la sua realizzazione. Una sorta di “Iperuranio” tecnologico.
Vediamo in modo più dettagliato due di questi dataset.
OPEN IMAGES DATASET V7
E’ il dataset di proprietà Google creato utilizzando circa 9 milioni di immagini presenti su Flickr e caricate dagli utenti con una licenza Creative Commons.
Al suo interno le immagini sono linkate. Le varie parti che le compongono, descritte, localizzate con dei box e arricchite con altri metadati.
L’AI di Google per la generazione di immagini è stata recentemente “ritirata” dalla casa di Mountain View. Con lo scopo di apportare correzioni ad alcuni problemi dovuti all’applicazione sistematica di stereotipi (bias), si sono ottenuti risultati inaspettati che hanno costretto Google a ripensare, per il momento, al progetto. Ma di questo magari parleremo diffusamente un’altra volta.
Sempre a proposito di Dataset, al momento il più grande è senza dubbio LAION 5B che referenzia oltre 5 bilioni di immagini.
All’inizio del post ho citato i social media, possessori di grandissime quantità di immagini. Tra questi Facebook (Meta) che con la sua APP EMU offre la possibilità, creando un account, di generare immagini partendo dal suo modello personale addestrato con le immagini caricate sul social.
Ho cercato in questo post di semplificare al massimo i concetti esposti, non me ne vogliano i più esperti che potrebbero trovare la trattazione troppo superficiale.
Ad ogni modo, avendo più chiari quelli che sono i meccanismi che consentono all’AI di generare immagini, diviene meno scontato, per molti fotografi, gridare e disperarsi per il furto delle loro preziose opere.
L’AI non prende pezzi di immagini per poi ricomporle come in un mosaico e non copia le immagini dei fotografi più di quanto non possa fare chiunque si “ispiri”, in modo più o meno fedele, al lavoro di altri creativi.
“Aiuto, l’AI mi ruba le foto” potrebbe quindi essere sostituito con “Aiuto l’AI mi guarda le foto” e aggiungerei: “a volte le rende anche più interessanti”
Lascia un commento