AI, come difendersi dal web scraping. Le 4 azioni suggerite dal Garante Privacy

10 months ago 179

Il Garante per la protezione dei dati personali ha pubblicato un documento con le azioni di contrasto al web scraping per finalità di addestramento dell’intelligenza artificiale generativa.

Il Garante privacy ha pubblicato il documento con le indicazioni per difendere i dati personali pubblicati online dal web scraping, la raccolta indiscriminata di dati personali su internet, effettuata, da terzi, con lo scopo di addestrare i modelli di Intelligenza artificiale generativa (IAG).

“Si tratta di misure non obbligatorie – spiega il Garante in una nota – che i titolari del trattamento dovranno valutare, sulla base del principio di accountability, se mettere in atto per prevenire o mitigare, in maniera selettiva, gli effetti del web scraping, in considerazione di una serie di elementi come lo stato dell’arte tecnologico e i costi di attuazione, in particolare per le Pmi”.

Sulla liceità del web scraping di dati personali il Garante Privacy ha finora avviato alcune istruttorie, tra le quali quella nei confronti di OpenAI. In attesa degli esiti di questi procedimenti “l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento – si legge in una nota dell’authority – talune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping”.

Le azioni di contrasto al web scraping per finalità di addestramento dell’intelligenza artificiale generativa

Nel documento l’Autorità suggerisce alcune tra le misure concrete da adottare:

Creazione di aree riservate
Atteso che l’addestramento dell’intelligenza artificiale generativa si basa su enormi quantità di dati che spesso provengono da attività di web scraping diretta (ovverosia effettuata dallo stesso soggetto che sviluppa il modello), indiretta (ovverosia effettuata su dataset creati mediante tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello) od ibrida, su fonti presenti nel web, la creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità. Tale tipologia di cautela tecnico-organizzativa può, sebbene indirettamente contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping. Di contro, tale misura non può dar luogo ad un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’articolo 5, par. 1, lett. c), RGPD (a titolo esemplificativo, si ricorda che i titolari del trattamento non dovrebbero imporre in sede di registrazione, agli utenti che navighino sui loro siti web o sulle loro piattaforme online e che fruiscano dei relativi servizi, oneri di registrazione ulteriori ed ingiustificati.
Inserimento di clausole ad hoc nei termini di servizio
L’inserimento nei Termini di Servizio (ToS) di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping costituisce una clausola contrattuale che, se non rispettata, consente ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Si tratta di una cautela di mera natura giuridica che opera, in quanto tale ex post, ma che può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente, contribuendo ad una maggiore tutela dei dati personali rispetto ad attività di web scraping. A tal proposito, si richiamano l’ampio utilizzo e l’efficacia di tale misura, in particolare, nella protezione dei contenuti protetti dal diritto d’autore (si menzionano, tra i tanti, i termini di servizio di YouTube, a cui Google vieta l’accesso con mezzi automatizzati, quali robot, botnet o strumenti di scraping, salvo si tratti di motori di ricerca pubblici, in conformità con il file robots.txt di YouTube o salvo previa autorizzazione scritta da parte di YouTube12 ).
Monitoraggio del traffico di rete
Un semplice accorgimento tecnico quale il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione.Tale cautela può essere accompagnata anche da un Rate Limiting, una misura tecnica che permette di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP, al fine di impedire a priori un traffico eccessivo di dati (in particolare attacchi DDoS o web scraping). Si tratta di cautele di natura tecnica che, sebbene indirettamente, possono contribuire ad una maggiore tutela dei dati personali rispetto ad attività di web scraping per finalità di addestramento dell’intelligenza artificiale generativa.
Intervento sui bot
Come sopra illustrato, il web scraping si basa sull’utilizzo di bot. Qualunque tecnica in grado di limitare l’accesso ai bot si rivela, pertanto, un efficace metodo per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite tali software. È doveroso sottolineare che nessuna tecnica che agisce sui bot è in grado di annullarne l’operatività al 100%, ma anche che alcune azioni di contrasto possono indubbiamente contribuire a prevenire/mitigare il web scraping non desiderato per finalità di addestramento dell’intelligenza artificiale generativa.
A tal proposito si menzionano, a titolo meramente esemplificativo:
i) l’inserimento di verifiche CAPTCHA (Completely Automated Public Turing-test-to-tell
Computers and Humans Apart) le quali, imponendo un’azione eseguibile solo da un
essere umano, impediscono l’operatività dei bot;
ii) la modifica periodica del markup HTML, in modo da ostacolare o comunque rendere più
complicato lo scraping da parte dei bot. Tale modifica può essere realizzata mediante
annidamento di elementi HTML oppure modificando altri aspetti del markup, anche in
maniera randomica.
iii) l’incorporazione dei contenuti ovvero dei dati che si intendono sottrarre alle attività di
scraping all’interno di oggetti multimediali, quali ad esempio immagini (si pensi all’uso di
tale tecnica nel caso di testo breve come numeri di telefono o email) o altre forme di
media. In questo caso l’estrazione dei dati da parte del bot risulterebbe
significativamente più complessa. Ad esempio, per l’estrazione dei dati dall’immagine –
posto che il bot sia stato in grado di identificarne la presenza ivi codificata – sarebbe
necessario il riconoscimento ottico dei caratteri (OCR), non esistendo il contenuto come
stringa di caratteri nel codice della pagina web. Corre tuttavia segnalare come una tal
misura, pur rappresentando una possibile forma di sottrazione di alcuni dati all’attività
di scraping, potrebbe rappresentare un ostacolo per gli utenti che perseguano alcuni
legittimi fini, (e.g. impossibilità di copiare i contenuti dal sito web).
iv) il monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati, ove
identificabili13;
v) l’intervento sul file robot.txt. Il file robot.txt è uno strumento tecnico che, dal giugno
1994, riveste un ruolo fondamentale nella gestione dell’accesso ai dati contenuti nei siti
web, in quanto consente ai gestori di indicare se l’intero sito o alcune sue parti possono
o meno essere oggetto di indicizzazione e scraping. Creato come strumento per regolare
l’accesso dei crawler dei motori di ricerca (e quindi per controllare l’indicizzazione dei siti
web) l’accorgimento basato sul robots.txt (sostanzialmente, una black-list di contenuti
da sottrarre all’indicizzazione) si è evoluto nel REP (Robot Exclusion Protocol), un
protocollo informale per consentire (allow) o non consentire (disallow) l’accesso alle
diverse tipologie di bot. Nel caso di specie, è teoricamente ipotizzabile l’inserimento nel
file robot.txt di indicazioni volte a non consentire (disallow) l’azione di specifici bot
finalizzati allo scraping per finalità di addestramento dell’intelligenza artificiale
generativa facenti capo a determinati sviluppatori. Esistono, infatti, alcuni bot che, per
autodichiarazione degli stessi sviluppatori di IAG, sono finalizzati allo scraping per tali
finalità. Si riportano, a titolo meramente esemplificativo, i bot di OpenAI (GPTBot)14 e di
Google (Google-Extended)15, che possono essere esclusi, tramite REP, per prevenire lo
scraping totale o parziale di un sito web da parte dei relativi sviluppatori. Si tratta di una
misura tecnica mirata, ma limitata nella sua efficacia per diversi ordini di motivi, tra cui:1)
il REP non è uno standard riconosciuto e, pertanto, il suo rispetto si basa solo
sull’assunzione di un impegno etico da parte dei web scraper; 2) esistono bot che
raccolgono dati dal web mediante tecniche di scraping per finalità non esclusivamente
di addestramento di IAG ed ai cui data lake gli sviluppatori di IAG ricorrono
frequentemente per le proprie finalità (tra questi, il più noto è sicuramente il CCBot della
non-profit Common Crawl, sopra citata); 3) similmente, esistono bot di sviluppatori di
IAG la cui finalità non è stata esplicitamente dichiarata o di cui non sono stati condivisi i
dettagli tecnici, per cui è difficile conoscere i comportamenti e gli scopi del loro utilizzo
(e.g. ClaudeBot di Anthropic).