• datialdente
  • Posts
  • Il vero potere nell’intelligenza artificiale è nel controllo dei dati

Il vero potere nell’intelligenza artificiale è nel controllo dei dati

Negli ultimi anni il dibattito sull’intelligenza artificiale si è concentrato soprattutto su modelli, parametri e capacità computazionale. La competizione tra aziende e laboratori di ricerca viene spesso raccontata come una corsa tecnologica verso modelli sempre più grandi, infrastrutture di calcolo sempre più potenti, sistemi sempre più sofisticati. Ma questa narrativa rischia di oscurare un elemento più fondamentale. L’intelligenza artificiale non osserva il mondo direttamente. Osserva dataset che lo rappresentano. E nel momento in cui questi dataset diventano la base su cui sistemi automatizzati prendono decisioni, il loro controllo assume una dimensione molto più ampia di quella puramente tecnica. Non riguarda soltanto l’addestramento dei modelli. Riguarda la costruzione della realtà operativa su cui quei modelli agiscono.

L’AI non vede il mondo, vede dataset

Ogni sistema di intelligenza artificiale opera attraverso rappresentazioni del mondo costruite a partire dai dati. I modelli linguistici apprendono dalle enormi collezioni di testo che descrivono la conoscenza umana. I sistemi di raccomandazione apprendono dai comportamenti registrati degli utenti. Gli algoritmi di previsione economica o sanitaria apprendono da dataset statistici che descrivono fenomeni sociali e biologici. In tutti questi casi l’AI non interagisce con la realtà in senso diretto. Interagisce con una versione della realtà filtrata e strutturata attraverso i dati. Questo principio è ben noto nella ricerca sull’intelligenza artificiale. Stuart Russell e Peter Norvig, nel loro manuale Artificial Intelligence: A Modern Approach, descrivono i sistemi AI come macchine che operano su rappresentazioni computazionali dell’ambiente. Il comportamento del sistema dipende dalla qualità e dalla struttura di queste rappresentazioni. Quando l’AI diventa infrastruttura decisionale, il problema non è soltanto costruire modelli accurati. È definire quale rappresentazione del mondo quei modelli utilizzeranno.

Dataset come infrastruttura decisionale

Questo passaggio diventa particolarmente evidente quando l’AI viene integrata nei processi decisionali. Un agente digitale che suggerisce un prodotto, un sistema che seleziona fornitori, un modello che valuta un rischio assicurativo o sanitario non prendono decisioni sulla base della realtà in senso diretto. Operano su database, archivi informativi e dataset che sintetizzano e organizzano il mondo in forma computabile. In questo contesto il dataset non è più soltanto materiale di addestramento. Diventa infrastruttura operativa della decisione.

Chi progetta o controlla questi dataset definisce implicitamente:

  • quali variabili sono rilevanti

  • quali informazioni sono disponibili

  • quali relazioni tra fenomeni vengono rappresentate

La decisione automatizzata avviene dentro questa struttura.

L’economia dei dati proprietari

Questa trasformazione è già visibile nelle strategie delle principali aziende AI. Negli ultimi anni i grandi laboratori hanno iniziato a negoziare accesso diretto a dataset proprietari che non fanno parte del web pubblico. OpenAI ha siglato accordi con organizzazioni editoriali come Associated Press, Axel Springer e Financial Times per utilizzare archivi giornalistici nei processi di addestramento. Reddit ha iniziato a vendere l’accesso alle proprie conversazioni per l’addestramento dei modelli linguistici. Diverse piattaforme stanno limitando l’accesso ai propri contenuti ai crawler utilizzati per il training dell’AI. Queste dinamiche segnalano un cambiamento strutturale. Internet non è più un dataset aperto da cui estrarre liberamente informazioni. I dati stanno diventando asset contrattuali e infrastrutture controllate. Il vantaggio competitivo non dipende soltanto dalla capacità di costruire modelli migliori, ma dall’accesso a fonti informative difficilmente replicabili.

Il problema della qualità dei dati

La centralità dei dataset emerge anche nella discussione sulla qualità dei dati disponibili per l’addestramento dei modelli. Alcuni studi recenti suggeriscono che i dataset di testo di alta qualità disponibili pubblicamente potrebbero non crescere alla stessa velocità dei modelli che li utilizzano. Ricercatori di Epoch AI hanno analizzato la disponibilità di dati linguistici su internet e hanno osservato che la crescita dei dataset potrebbe diventare un collo di bottiglia per l’addestramento dei modelli di nuova generazione. Parallelamente altri studi hanno evidenziato i rischi associati all’utilizzo crescente di dati sintetici. Un lavoro pubblicato su Nature Machine Intelligence nel 2023 ha introdotto il concetto di model collapse, descrivendo il deterioramento statistico che può verificarsi quando modelli generativi vengono addestrati su dati prodotti da altri modelli. In entrambi i casi emerge lo stesso punto. Non tutti i dati sono equivalenti. I dataset che rappresentano accuratamente fenomeni del mondo reale diventano risorse sempre più preziose.

Una nuova infrastruttura del potere digitale

Quando i sistemi di intelligenza artificiale iniziano a mediare decisioni economiche, sociali e politiche, la struttura dei dati su cui operano assume una dimensione strategica. La questione non riguarda soltanto la proprietà dei modelli o la potenza delle infrastrutture di calcolo. Riguarda chi controlla le rappresentazioni computazionali del mondo su cui quei modelli operano. Archivi scientifici, database industriali, dati sanitari, registri pubblici, dataset geografici e ambientali non sono più soltanto strumenti informativi. Diventano componenti fondamentali dell’ecosistema decisionale digitale. Nel momento in cui agenti AI, sistemi di raccomandazione e modelli predittivi iniziano a influenzare scelte economiche e istituzionali, i dataset che alimentano questi sistemi diventano infrastrutture di potere.

La realtà operativa dell’intelligenza artificiale

L’intelligenza artificiale non costruisce le proprie decisioni osservando direttamente il mondo. Le costruisce attraverso modelli che operano su rappresentazioni del mondo generate dai dati. Questo significa che il controllo dei dataset non riguarda soltanto la tecnologia. Riguarda la definizione della realtà operativa su cui i sistemi automatizzati agiscono. In un’economia sempre più mediata da sistemi digitali, il potere non dipende soltanto da chi sviluppa i modelli più avanzati. Dipende sempre più da chi controlla le infrastrutture informative che definiscono ciò che quei modelli possono vedere, interpretare e decidere. Chi controlla i dati non controlla soltanto l’informazione, controlla la realtà su cui l’intelligenza artificiale prende decisioni.