• datialdente
  • Posts
  • Stiamo misurando l’AI nel modo sbagliato

Stiamo misurando l’AI nel modo sbagliato

Negli ultimi anni il progresso dell’intelligenza artificiale è stato osservato e raccontato principalmente attraverso benchmark, leaderboard e test standardizzati, strumenti che hanno reso comparabili modelli diversi e che hanno contribuito a orientare investimenti e percezioni di mercato. Questo approccio ha avuto una funzione chiara in una fase in cui l’AI veniva utilizzata come sistema di risposta, ossia come un modello in grado di elaborare un input e restituire un output valutabile in termini di accuratezza o coerenza. Il punto è che oggi il contesto è cambiato, mentre il modo in cui continuiamo a misurarlo è rimasto sostanzialmente invariato. Come osservato anche da MIT Technology Review, molti benchmark continuano a valutare capacità isolate in ambienti controllati, mentre i sistemi basati su modelli linguistici operano sempre più come interfacce che sintetizzano informazioni, selezionano fonti e costruiscono risposte narrative. In questo passaggio, l’unità economica rilevante non è più il modello, ma la risposta generata, intesa come risultato di un processo che integra dati, contesto e criteri di selezione.

La risposta come atto di selezione

Quando un sistema AI genera una risposta, non si limita a combinare informazioni in modo coerente, ma opera una selezione implicita tra molteplici possibilità, decidendo quali elementi includere e quali escludere. Questa selezione non è il risultato di una scelta consapevole, ma della massimizzazione della probabilità linguistica appresa dal modello, che riflette la distribuzione dei dati su cui è stato addestrato e le logiche di costruzione della risposta. In questo contesto, la presenza di un brand all’interno di una risposta non è un evento neutro, ma un effetto diretto di questo processo di selezione. La citazione diventa quindi un indicatore osservabile di come il sistema costruisce la rappresentazione di un problema e di quali attori considera rilevanti all’interno di quel contesto. Questo passaggio segna uno scarto rispetto alla search economy tradizionale, in cui la visibilità era legata alla posizione in una lista di risultati. Nella cosiddetta answer economy, la visibilità è incorporata nella risposta stessa, e quindi nella struttura narrativa attraverso cui il sistema organizza l’informazione.

Il limite strutturale dei benchmark

I benchmark tradizionali non sono progettati per osservare questo fenomeno. Misurano la capacità del modello di produrre una risposta corretta, ma non catturano il processo attraverso cui quella risposta viene costruita, né l’impatto che essa ha in termini di visibilità e selezione. Due modelli con performance simili nei benchmark possono produrre risposte che differiscono significativamente per gli elementi che rendono visibili. Questa differenza non è marginale, perché incide direttamente sul modo in cui gli utenti formano le proprie decisioni. Se un sistema cita sistematicamente alcuni brand e ne esclude altri, sta di fatto ridefinendo il perimetro competitivo, indipendentemente dalla qualità intrinseca delle alternative disponibili. Continuare a utilizzare benchmark che non considerano questa dimensione significa osservare il sistema nel punto sbagliato. Non dove si genera valore, ma dove è più semplice misurarlo.

Verso una misura della visibilità

Per osservare questo cambiamento è necessario introdurre un diverso oggetto di misurazione, che non sia la performance del modello in isolamento ma il comportamento del sistema in contesto. In questa prospettiva, la visibilità di un brand all’interno delle risposte generate diventa una variabile centrale. Un modo per formalizzare questa dinamica è rappresentato dalla Brand Citation Probability, ossia la probabilità che un’entità venga inclusa in una risposta generata dall’AI in relazione a uno specifico intento informativo. La citazione non è una proprietà del brand in sé, ma un effetto emergente della sua presenza distribuita nei dati, della sua rilevanza semantica e della sua compatibilità con le strutture narrative utilizzate dal modello. Osservare questa probabilità consente di spostare l’attenzione dalla qualità astratta del modello alla distribuzione concreta della visibilità all’interno delle risposte.

Le condizioni della citazione

La probabilità di citazione non dipende da un singolo fattore, ma da una combinazione di elementi che riguardano il modo in cui il brand è rappresentato nei dati e il modo in cui può essere integrato nella risposta. Tra questi, assumono particolare rilevanza la coerenza semantica con una categoria, la capacità di emergere come riferimento prototipico all’interno di un contesto, la compatibilità con le strutture narrative della risposta e la presenza distribuita in fonti eterogenee. Questi fattori non coincidono con le logiche tradizionali della SEO. Elementi come la posizione in SERP, la densità di keyword o il profilo di backlink non sono segnali direttamente utilizzati nei processi di generazione delle risposte, che si basano su rappresentazioni statistiche più ampie e meno direttamente controllabili.

Misurare ciò che conta

Questo spostamento implica un cambiamento anche nel modo in cui l’AI dovrebbe essere valutata. Non si tratta di sostituire i benchmark, ma di riconoscerne il limite. Continuano a essere utili per misurare il progresso tecnico, ma non sono sufficienti per comprendere come l’AI stia influenzando la distribuzione dell’informazione e, di conseguenza, la formazione delle decisioni. In un contesto in cui l’accesso alle informazioni è mediato da sistemi che sintetizzano e selezionano, la questione centrale non è quanto è accurata una risposta, ma quali elementi entrano nella risposta stessa. Il rischio, per chi prende decisioni, non è utilizzare metriche imperfette, ma utilizzare metriche che descrivono un sistema che non esiste più. Perché il problema non è quanto è brava l’intelligenza artificiale, ma cosa rende visibile, e quindi cosa rende possibile scegliere.