- datialdente
- Posts
- Chi decide cosa può essere usato per addestrare un’IA?
Chi decide cosa può essere usato per addestrare un’IA?
Una notizia passata un po’ in sordina questa settimana potrebbe invece cambiare il modo in cui aziende, creator, editori e sviluppatori trattano i propri contenuti. Due casi giudiziari negli Stati Uniti, uno che coinvolge Meta, l’altro Anthropic, hanno visto prevalere l’interpretazione secondo cui usare dati pubblici per addestrare modelli di intelligenza artificiale rientra nel cosiddetto fair use. Le decisioni Bartz v. Anthropic e Kadrey v. Meta hanno stabilito che addestrare modelli su testi accessibili online può essere lecito, a patto che non provengano da fonti pirata. Nessuna licenza, nessun permesso. Se un contenuto è disponibile pubblicamente, può forse essere usato per “far crescere” un modello. Un cambio di prospettiva rilevante, non solo per chi sviluppa LLM, ma per chiunque gestisca un sito, un prodotto editoriale, una libreria di contenuti o una knowledge base. Perché il confine tra ciò che è leggibile da un umano e ciò che può essere letto da una macchina diventa sempre più labile.
La posta in gioco
Il primo caso riguarda Anthropic, accusata di aver usato milioni di libri piratati da LibGen nel training del proprio modello. Il giudice Alsup ha chiarito che quella parte non è protetta dal fair use. Tuttavia, per i dati legalmente accessibili, la corte non ha rilevato una violazione. Nel frattempo, Meta si è vista confermare l’assenza di infrazione per il training di LLaMA. Ma queste decisioni, sebbene parziali, stanno già creando un precedente. Mentre l’Europa procede nella direzione opposta, con AI Act e Digital Services Act che impongono requisiti di tracciabilità e trasparenza, negli Stati Uniti il perimetro normativo resta molto più aperto.
I dati accessibili non sono dati liberi
Chi lavora nel mondo dei dati lo sa bene, l’accessibilità non equivale alla disponibilità d’uso. Ma questa distinzione si sta assottigliando. Gli sviluppatori di modelli spingono per estendere il concetto di uso lecito. Del resto, anche gli esseri umani leggono articoli per scrivere meglio. I modelli, si dirà, fanno lo stesso. Ma a una scala diversa, e con la possibilità di riprodurre contenuti. Da qui nascono rischi concreti: plagio, perdita di controllo, sfruttamento non autorizzato. Ed è qui che ogni azienda, anche piccola, che produce contenuti dovrebbe cominciare a riflettere.
Quali implicazioni concrete?
Chi scrive o pubblica contenuti testuali potrebbe trovarsi usato come training data senza saperlo né volerlo.
Chi progetta dataset per modelli LLM deve distinguere tra fonti accessibili e fonti il cui uso è borderline.
Chi offre servizi informativi o knowledge base pubbliche potrebbe alimentare modelli concorrenti… senza contropartita.
Serve una strategia di protezione, valorizzazione e tracciabilità dei contenuti, soprattutto in ambito B2B e in settori ad alta intensità informativa.
I dati sono strategici, anche se sembrano banali
Questo caso ci ricorda che non esistono contenuti “neutri”. Una guida online, un PDF, una pagina FAQ, tutto può diventare materiale d’addestramento. E quindi patrimonio di altri. Trainare GPT‑4 è costato 78 milioni di dollari. Gemini Ultra, oltre 190 milioni. È un business in cui i contenuti, anche i tuoi, diventano materia prima a valore elevatissimo. Eppure, molti creator o aziende non hanno ancora policy per proteggersi. Il fair use copre solo contenuti acquisiti legalmente e senza danno al mercato. Ma chi controlla? E chi decide?
Conclusione
Chi lavora con i dati e i contenuti deve smettere di considerarli semplici “asset” passivi. Oggi ogni contenuto online è potenzialmente leggibile, addestrabile, monetizzabile… da altri. Avere controllo sui propri dati non è una questione tecnica, è una leva strategica. E le sentenze di oggi sono il campanello d’allarme. Chi ignora la questione rischia di restare fuori dal gioco. Chi la comprende, può ancora riscrivere le regole.