I creatori di video su YouTube sono le ultime vittime dell'intelligenza artificiale

6 months ago 193

I creatori di video su YouTube sono le ultime vittime dell'intelligenza artificiale

Dopo gli artisti, gli editori, gli scrittori e gli autori di blog, le nuove vittime delle aziende che hanno bisogno di allenare un'intelligenza artificiale sempre più affamata di dati sono i creatori di video su YouTube.

Apple, NVIDIA, Anthropic e altre aziende hanno infatti utilizzato i sottotitoli di YouTube per allenare le loro IA, ovviamente senza permesso. Scopriamo perché è un problema, e perché probabilmente non si potrà fare niente per evitarlo.

L'IA è affamata di dati, e le aziende utilizzano quelli che trovano, senza pagare

Partiamo dal problema principale: l'IA ha bisogno di sempre più dati per allenarsi e Internet non basta più Il problema è stato esposto chiaramente da Shalini Kurapati, co-founder di Clearbox AI Solutions, all'incontro sull'intelligenza artificiale tenutosi all'ISPI Summer Festival dello scorso 4 luglio.

Clearbox AI quindi cosa fa? Crea dati "sintetici" per allenare l'IA, dati che rispettano le più recenti normative sulla privacy (GDPR/CCPI). Clearbox AI non è l'unica azienda di questo tipo, ma evidentemente alle società che sviluppano IA questo non basta, o forse non vogliono pagare.

Ecco quindi che un'inchiesta di Proof News in collaborazione con Wired ha scoperto che più di 170.000 video di YouTube appartenenti a più di 48.000 canali sono stati utilizzati per allenare l'IA di giganti multimiliardari come Apple, NVIDIA, Anthropic e Salesforce, tra gli altri.

I dati raccolti: la magia dei sottotitoli e il dataset The Pile

Ma che dati sono stati raccolti? Non video o immagini, ma le trascrizioni, ovvero i sottotitoli, che provengono da un'enorme raccolta di dati chiamata The Pile, e raccolta dall'organizzazione no profit EleutherAI.

I dati di The Pile non contengono solo le trascrizioni di YouTube, ma 800 GB di dati disponibili per chiunque e che rappresentano, secondo l'articolo, una fonte di dati diversificati per migliorare i modelli di linguaggio.

Quindi le aziende non hanno raccolto i dati direttamente, ma hanno usato quelli raccolti da EleutherAI. Il problema è che quei dati, di cui le trascrizioni di YouTube sono una parte, non sono di tutti, ma dei creatori.

Tra i video di YouTube raccolti, appaiono i filmati di MrBeast, Marques Brownlee, ABC News, BBC e New York Times.

Brownlee ha subito espresso il suo rammarico su X, spiegando come Apple tecnicamente non abbia raccolto i dati, ma che nondimeno questo resta un problema.

Apple has sourced data for their AI from several companies

One of them scraped tons of data/transcripts from YouTube videos, including mine

Apple technically avoids "fault" here because they're not the ones scraping

But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) July 16, 2024

Proof News ha persino creato uno strumento che consente di scoprire se un canale è stato utilizzato per allenare l'IA.

I documenti mostrano anche come Apple abbia utilizzato The Pile per addestrare OpenELM, un modello rilasciato ad aprile, settimane prima che l'azienda rivelasse la sua Apple Intelligence.

Anche Bloomberg e Databricks hanno addestrato modelli su The Pile, e persino Anthropic, azienda in cui Amazon ha investito 4 miliardi di dollari e che si vanta di non addestrare i suoi modelli su dati pubblici e di promuovere un'IA "sicura".

Le aziende si giustificano affermando che i dati di YouTube sono solo una piccolissima parte di The Pile, che comunque sono dati pubblici e quindi il problema è di chi li ha raccolti, ovvero EleutherAI. Ma è una giustificazione valida?

Perché è un problema

Ci siamo già passati.

L'anno scorso, un'analisi di un set di dati chiamato Books3 ha rivelato che il lavoro di diversi scrittori come Margaret Atwood, Michael Pollan e Zadie Smith era stato raccolto per allenare i modelli di intelligenza artificiali.

Gli autori hanno intentato diverse cause contro le aziende per uso non autorizzato del lavoro e violazioni del copyright, e la piattaforma che ospita Books3 lo ha chiuso.

Quindi il problema maggiore riguarda le violazioni del diritto d'autore. Diversi creatori si sono visti derubati, anche perché nessuno ha chiesto loro se potevano usare il loro lavoro, né tanto meno li hanno pagati per farlo. E stiamo parlando di aziende multimiliardarie.

Ma c'è di più. L'IA può essere usata per creare video con gli stessi contenuti, come ha potuto vedere David Pakman, di The David Pakman Show, che si è imbattuto in un video su TikTok di Tucker Carlson, ma che riporta esattamente le sue parole.

Non solo, ma c'è anche un problema di contenuti. Gli sviluppatori di Salesforce hanno segnalato che The Pile conteneva anche parolacce e "pregiudizi contro il genere e alcuni gruppi religiosi" e hanno avvertito che potrebbe portare a "vulnerabilità e preoccupazioni per la sicurezza".

Proof News ha trovato migliaia di esempi di parolacce nei sottotitoli di YouTube, nonché casi di insulti razziali e di genere, ma questi dati sono stati utilizzati per allenare l'IA, che quindi li ha appresi.

Cosa succede ora

Se vi state chiedendo cosa succederà ora, molto probabilmente niente. I dati sono già stati appresi dall'IA, e le cause legali hanno insegnato che, nonostante le vittorie, non hanno un gran potere contro i giganti del Web.

YouTube vieta la raccolta automatica di dati dalla piattaforma, e ha affermato che The Pile potrebbe violare i suoi termini di uso del servizio, ma non siamo a conoscenza di azioni effettive.

D'altronde, Google stessa ha aggiornato i suoi termini di servizio per avere via libera all'utilizzo dei dati per allenare l'IA, persino dai video di YouTube.

Il problema è che YouTube è una miniera d'oro in termini di dati, in quanto i sottotitoli possono aiutare a formare i modelli a replicare il modo in cui le persone parlano e conversano.

Quindi se create un video su YouTube, come qualsiasi altra cosa su Internet, aspettatevi che venga usato per allenare l'IA.