Un gruppo di autori ha denunciato Anthropic, una delle più interessanti startup che operano nel campo dell’intelligenza artificiale generativa: l’accusa è di aver addestrato i suoi modelli AI usando libri piratati, tra le altre cose. Più precisamente gli autori dicono che l’azienda, che è pesantemente finanziata da Amazon, “ha creato un business multimiliardario rubando centinaia di migliaia di libri protetti da copyright”.
La causa verte sul fatto che Anthropic ha usato l’enorme dataset open-source noto come “The Pile” per addestrare i suoi LLM (Large Language Model), tra cui il chatbot Claude, che include un archivio chiamato Books3, che contiene appunto un enorme quantitativo di libri pirata degli autori più disparati, inclusi Stephen King e Michael Pollan. Anthropic stessa aveva confermato pubblicamente nelle scorse settimane di aver usato The Pile.
Il gruppo di autori è al corrente che le versioni più recenti e ufficiali di The Pile (che comunque è un database collaborativo, anche se viene mantenuto prevalentemente dall’organizzazione no-profit EleutherAI) hanno rimosso Books3, la versione originale è disponibile online ancora oggi. Tra l’altro, non è l’unico contenuto protetto da copyright che si trova in The Pile: ci sono anche enormi quantitativi di sottotitoli generati automaticamente dagli algoritmi speech-to-text di YouTube ed estrapolati dai video, per esempio.
Il ricorso da parte delle aziende che operano nel campo della Gen AI a materiali protetti da copyright, in modo più o meno consapevole, è un problema molto diffuso che ha toccato un po’ tutti. OpenAI è stata denunciata per lo stesso motivo da una coalizione di autori che include George R.R Martin (Game of Thrones), Jodi Picoult e Michael Chabon; Meta, Microsoft e di nuovo EleutherAI sono state denunciate invece dal governatore dell’Arkansas e svariati autori, sempre per violazione del copyright.