È possibile addestrare un'IA "eticamente"? Persino Anthropic avrebbe usato libri piratati per allenare Claude

3 months ago 76

È possibile addestrare un'IA "eticamente"? Persino Anthropic avrebbe usato libri piratati per allenare Claude

A quanto pare allenare l'IA è impossibile senza violare i diritti d'autore. Almeno questa è l'idea che ci si può fare dopo i continui "scandali" nel mondo dell'intelligenza artificiale generativa.

L'ultimo viene dalla denuncia depositata appena ieri da Andrea Bartz, Charles Graeber e Kirk Wallace Johnson contro Anthropic, che avrebbe utilizzato i loro libri piratati per allenare il suo modello IA Claude, una delle migliori alternative a GPT di OpenAI.

Una matrioska di database con contenuti estratti dal Web

Le denunce da parte di autori o case editrici contro le aziende che sviluppano modelli IA sono ormai all'ordine del giorno, ma quest'ultima rivela una debolezza intrinseca di questa tecnologia: la fame di dati e l'utilizzo indiscriminato del Web per ottenerli.

Tutto parte da un database di libri piratati, Books3, che l'hanno scorso è stato oggetto di una causa da parte di diversi scrittori come Margaret Atwood, Michael Pollan e Zadie Smith, che denunciavano l'utilizzo dei loro libri per allenare i modelli di intelligenza artificiali.

La piattaforma che ospitava il set di dati, Bibiliotik, ha chiuso, ma Books3 ha continuato a circolare. È appena di un mese fa la notizia che diversi creatori di YouTube hanno lamentato l'utilizzo dei loro libri per allenare l'IA.

Come sono stati usati i video? Attraverso trascritti contenuti in un set di dati chiamato The Pile, liberamente disponibile su Internet, e che guarda caso contiene il database Books3.

Le aziende coinvolte, tra cui Anthropic e NVIDIA, si sono giustificate dicendo che loro non hanno raccolto i dati, ma utilizzato quelli raccolti da altri.

Nondimeno, i dati violano il copyright e loro li utilizzano per allenare le loro fameliche IA, sfruttate per guadagnare miliardi di dollari.

Eleuther AI, l'organizzazione senza scopo di lucro dietro The Pile, Meta e Microsoft sono già stati denunciati da diversi autori per violazione del copyright l'anno scorso, così come OpenAI.

La causa contro Anthropic potrebbe aprire un vaso di Pandora

Veniamo alla denuncia odierna.

Tre scrittori hanno denunciato ieri Anthropic, che ricordiamo si vanta di non addestrare i suoi modelli su dati pubblici e di promuovere un'IA "sicura" (e ha beneficiato di un investimento di 4 miliardi di dollari da parte di Amazon).

Si tratta di Andrea Bartz, l'autore di We Were Never Here, Charles Graeber, che ha scritto The Good Nurse, e Kirk Wallace Johnson, l'autore di The Feather Thief.

Gli autori ammettono che Books3 non è più presente nella versione ufficiale di The Pile, ma è presente nelle versioni che circolano ancora su Internet, e dichiarano come sia evidente che Anthropic abbia "scaricato e riprodotto copie di The Pile and Books3, sapendo che questi set di dati erano costituiti da un tesoro di contenuti protetti da copyright provenienti da siti web pirata come Bibiliotik", si legge nella causa.

Gli autori vogliono che il tribunale certifichi la class action e richieda ad Anthropic di pagare i danni proposti e impedire alla società di utilizzare materiale protetto da copyright in futuro.

Ricordiamo che Books3 contiene libri di migliaia di autori, tra cui Stephen King, per citare un nome famoso. E possiamo immaginare le prospettive che potrebbe aprire se accolta.

Un'IA etica è possibile?

Anthropic dovrebbe essere un'azienda etica, ma ci sono troppi incentivi dietro questo settore. I modelli IA devono essere continuamente migliorati, e per migliorarli devono fagocitare sempre più dati.

Ci sono anche i dati creati artificialmente, ma evidentemente non sono abbastanza buoni, o in quantità sufficiente. E poi c'è la questione del denaro, tanto denaro: le aziende vogliono vedere un rapido ritorno sui loro investimenti e massimizzare il profitto.

Le aziende non sono in grado da sole di risolvere questo problema, ed è quindi compito dei governi mettere dei paletti. Secondo alcuni esperti, la soluzione potrebbe essere un mix di incentivi positivi, come agevolazioni fiscali per le aziende che dimostrano di sostenere standard etici, e incentivi negativi, come multe per comportamenti scorretti.