Fintech

Intelligenza artificiale: tutto ciò che è sul web si può prendere liberamente?

Se lo è chiesto il CEO dell’intelligenza artificiale in Microsoft, Mustafa Suleyman. Ecco la difesa d’ufficio sul copyright dei gianti dell’Ai Gen.

5 luglio 2024

4' di lettura

Tutto ciò che è sull’open web si può prendere liberamente, “chiunque può copiarlo, usarlo per nuove creazioni e riproduzioni”. Una frase del genere, da utopista anni 90 del “free web”, ora farebbe sorridere forse anche sulla bocca di un giovane imprenditore visionario di una startup o di un anarco-socialista. Ciò che colpisce adesso la comunità di esperti e l’industria del copyright è che a parlare è il CEO dell’intelligenza artificiale in Microsoft, Mustafa Suleyman.

Da notare che OpenAi e le altre aziende che hanno creato modelli di IA questo hanno fatto, implicitamente: hanno trattato i contenuti del web come terra di nessuno, per il training degli algoritmi.

Ma ora questo comportamento viene esplicitato in ideologia dichiarata. E colpisce ancora di più che a farlo non sia una startup up (come OpenAi) ma un’azienda che negli ultimi vent’anni ha rappresentato il volto legal dell’innovazione, collaborando ad esempio con l’industria musicale per la lotta alla pirateria e sempre in prima fila nel rispetto nelle normative locali (quando si tratta ad esempio di trattamento dati nel cloud).

Suleyman arriva poi a dire che sia forse lecito usare quei dati anche se gli editori esplicitamente non vogliono. “C’è una categoria a parte in cui un sito web, o un editore, o un’organizzazione giornalistica hanno esplicitamente detto: ‘non effettuare lo scraping o il crawling per qualsiasi altra ragione che non sia l’indicizzazione, in modo che altre persone possano trovare questo contenuto’. Si tratta di un’area grigia, e credo che la questione si farà strada nei tribunali”. Emblematico che OpenAI stia ignorando questa volontà degli editori (opzione di opt-out) dopo averla concesso, come emerso qualche giorno fa da un’inchiesta di BusinessInsiders.

Si può pensare che Suleyman sia un visionario che vola alto e che le sue dichiarazioni – in un’intervista con l’americana Cnbc – non rappresentino l’azienda, anche se è formalmente il capo dell’IA in Microsoft. Suleyman è stato cofondatore e ceo di Inflection AI, prima di entrare in Microsoft. In precedenza, è stato fra gli ideatori di DeepMind, una delle aziende leader nel settore dell’intelligenza artificiale, e vicepresidente dell’area AI in Google. Ha pubblicato un libro a sua volta visionario e ottimistico sull’IA (L’onda che verrà. Intelligenza artificiale e potere nel XXI secolo, Garzanti 2024).

Ma quel pensiero, che messo a parole sembra così radicale, a ben vedere non contrasta con le azioni di Microsoft e di Google (non solo di startup insomma). Già l’anno scorso Microsoft ha dichiarato che darà protezione legale gratuita agli utenti commerciali (non consumer) di Copilot, nelle cause per violazione di copyright riguardanti contenuti generati con questi servizi IA. Google ha fatto lo stesso poco dopo e anche di più, estendendo la protezione anche a cause riguardanti eventuali violazioni copyright per i dati usati nel training dell’IA (per i prodotti Duet AI in Workspace, Duet AI in Google Cloud, Vertex AI Search, Vertex AI Conversation, Vertex AI Text Embedding API/Multimodal Embeddings, Visual Captioning/Visual Q&A su Vertex AI e Codey API).

Entrambe le aziende escludono la protezione legale per violazioni intenzionali del copyright, che potrebbero emergere ad esempio nei prompt usati o se i clienti rimuovono i filtri a tutela presenti di default nei servizi.

Questa protezione legale implica che le aziende sono ragionevolmente certe di vincere le cause o che eventuali patteggiamenti abbiano costi inferiori ai profitti che possono ottenere rassicurando i potenziali clienti. Con le aziende più grosse che sono detentrici di copyright – le più temibili in giudizio – stanno già del resto facendo accordi per licenze d’uso dei dati.

In ogni caso significa che le big tech pensano di vincere questa partita. E che nella sostanza quel pensiero di Suleyman sia corretto; che il mondo – i giudici, la giurisprudenza, il diritto – farà passare il concetto di libertà di training con contenuti open web.

Eppure anche dall’altra parte della barricata c’è certezza di vincere la partita. Sono certi che sia un furto il training con scraping non autorizzato di dati i tanti editori che hanno fatto causa ad aziende di IA; da ultimo tutte le case discografiche.

Suleyman dice – come OpenAi e altre aziende AI – che la base giuridica su cui possono contare è il fair use, concetto che per altro non ha equivalenti in Europa. In ogni caso, “affermare che il fair use possa entrare in gioco a giustificare questa interpretazione giuridica è estremamente difficile, soprattutto se lo scopo dell’uso è il -dichiarato- profitto delle aziende”, spiega Alfredo Esposito, di un omonimo studio legale specializzato in copyright e digitale. “Tra i criteri di applicazione del fair use c’è lo scopo e il carattere dell’uso, che tende chiaramente ad avere maglie larghe in casi di studio, ricerca e divulgazione”, aggiunge.

E non c’è solo il copyright: secondo alcuni – come il nostro Garante – anche le norme sulla privacy sono violate da uno scraping perché tra i dati sottratti ci sono anche quelli personali. Così a maggio in un provvedimento ha chiesto ai gestori di siti e piattaforme di sottrarre i dati personali trattati ai bot di terze parti, con alcune tecniche indicate, “che, sebbene non esaustive né per metodo, né per risultato, possono contenere gli effetti dello scraping finalizzato all’addestramento degli algoritmi di intelligenza artificiale generativa”.

Tutto considerato, l’IA generativa sembra averci condotto a un punto di rottura tra innovazione e tutela legale di interessi diversi, con posizioni ora opposte nella lettura giuridica. L’esito dello scontro è poco prevedibile, ma sembra improbabile che l’IA generativa sarà bloccata nelle corti. Forse si troverà un punto di incontro, arrivando a un sistema internazionale di licenze; non più affidate alla libera contrattazione (come avviene ora) ma con regole coordinate dalle norme (un po’ come l’Europa vuol fare con l’equo compenso).

Lo scopriremo nei prossimi mesi.