- datialdente
- Posts
- Hai dato all'AI i tuoi dati. Ma quali dati le hai dato davvero?
Hai dato all'AI i tuoi dati. Ma quali dati le hai dato davvero?
Quando un'azienda decide di usare l'intelligenza artificiale sui propri dati, il rischio più grande non è tecnico. È che nessuno abbia controllato cosa ci sia davvero dentro quei dati. Per oltre un decennio, il problema principale delle aziende in materia di dati è stato la mancanza di accesso. Dati bloccati in sistemi separati, dashboard costruite male, report che arrivavano in ritardo. L'obiettivo era raccogliere di più, centralizzare meglio, rendere tutto disponibile. Oggi il problema si è spostato, e in modo quasi paradossale. Le aziende hanno più dati di quanti ne abbiano mai avuti. Li hanno centralizzati, integrati, messi su cloud. E adesso vogliono darli in pasto all'AI per prendere decisioni migliori, ottimizzare campagne, automatizzare processi, rispondere ai clienti in modo più preciso. Il problema è che nessuno ha controllato cosa ci sia davvero dentro.
Il modello assume che i dati siano veri
Quando si addestra o si alimenta un sistema AI con dati aziendali, il modello non sa distinguere un dato accurato da uno distorto. Non ha la capacità di capire se un record è fittizio, se un segmento è stato classificato male, se un canale viene usato in modo completamente diverso da quello per cui è stato progettato. Il modello prende quello che riceve e ci costruisce sopra un ragionamento coerente. Questo è esattamente il punto critico che viene sistematicamente ignorato nel dibattito sull'adozione dell'AI in azienda. Si parla di quale modello scegliere, di come strutturare i prompt, di come misurare il ROI. Si parla pochissimo di cosa succede quando i dati di input hanno dei problemi che nessuno conosce. E i problemi ci sono quasi sempre.
Quello che i dati non dicono su se stessi
In un progetto recente, l'analisi preliminare dei dati di un'azienda di medie-grandi dimensioni ha prodotto risultati che nessuno nel management si aspettava. Uno strumento digitale pensato per acquisire clienti diretti veniva utilizzato per quasi la metà delle sessioni da una categoria di utenti completamente diversa da quella prevista. Nessuno lo sapeva. Il sistema registrava sessioni, comportamenti, conversioni. Ma non registrava, e non avrebbe potuto farlo automaticamente, la natura reale dell'utente che stava dall'altra parte. Erano stati persi tre mesi di dati in un sistema di raccolta comportamentale. Non per un errore clamoroso, non per un downtime visibile. Semplicemente, i dati non erano stati registrati correttamente per un periodo prolungato, e nessuno se n'era accorto perché le dashboard continuavano a mostrare numeri. Decine di migliaia di record contenevano contatti fittizi, inseriti in modo strutturale da chi usava il sistema con una logica operativa completamente diversa da quella per cui era stato costruito. Tre distorsioni profonde, tutte invisibili a chi guardava i report. Tutte destinate a diventare il fondamento su cui costruire qualsiasi ottimizzazione AI.
Il rischio specifico dell'AI su dati distorti
Con i sistemi tradizionali, una distorsione nei dati produceva un report sbagliato. Il danno era reale, ma circoscritto e spesso identificabile nel tempo attraverso la verifica incrociata dei risultati. Con i sistemi AI il meccanismo è diverso. Un modello addestrato su dati distorti non produce un output sbagliato in modo evidente. Produce un output coerente con i dati che ha ricevuto. La coerenza interna del ragionamento è uno dei punti di forza dei sistemi generativi, ma diventa un problema serio quando i dati di partenza non rappresentano la realtà. Se quasi la metà degli utenti di un canale digitale appartiene a una categoria completamente diversa da quella target, e il modello ottimizza le campagne per aumentare le conversioni su quel canale, il risultato è che si investe di più per portare traffico a uno strumento che serve principalmente una logica operativa diversa da quella prevista. L'ottimizzazione è tecnicamente corretta. È semplicemente costruita sul mondo sbagliato. Questo è un tipo di errore molto difficile da rilevare perché le metriche di performance del modello potrebbero essere positive. Il sistema sta facendo esattamente quello che gli è stato chiesto di fare. Il problema è altrove, nel layer che precede il modello, nei dati che nessuno ha verificato.
Perché questo non è un problema tecnico
La tendenza naturale è classificare questo come un problema di data quality, da affidare ai team tecnici come parte del processo di implementazione AI. È una classificazione sbagliata, o almeno incompleta. Il problema non è che i dati siano sporchi in senso tecnico, come ad esempio duplicati, formati errati o valori nulli. Questo tipo di sporcizia è relativamente facile da identificare e correggere. Il problema è che i dati rappresentano una versione della realtà che non corrisponde alla realtà che il management crede di osservare. Questa è una distanza semantica, non sintattica. E non si risolve con strumenti di data cleaning. Si risolve con un'analisi che combina conoscenza del business, lettura dei pattern comportamentali e capacità di fare le domande giuste sui dati prima di usarli. Nessun sistema AI fa questo in automatico. Nessun modello, per quanto sofisticato, può sapere che un canale digitale è stato colonizzato da una categoria di utenti diversa da quella prevista, perché questa informazione non è mai stata registrata come tale. È conoscenza che emerge dall'analisi, non dai dati grezzi.
Il momento in cui questa domanda diventa urgente
Siamo in una fase in cui molte aziende italiane di medie e grandi dimensioni stanno prendendo decisioni concrete sull'adozione dell'AI e stanno valutando investimenti reali, per fare fronte alle aspettative dichiarate dei board. In questo contesto, la pressione a procedere velocemente è comprensibile. I vendor spingono, i competitor sembrano muoversi, i modelli disponibili sono diventati accessibili anche senza competenze tecniche profonde. Si può partire in poche settimane ma il rischio è che la velocità di adozione superi la capacità di verificare le fondamenta su cui si sta costruendo. E le fondamenta, in qualsiasi sistema che lavora sui dati aziendali, sono i dati stessi. La domanda da fare prima di qualsiasi implementazione non è quale modello usare. È: su quale versione della nostra realtà stiamo lavorando?
Quello che non si vede è quello che conta
C'è un principio che vale per qualsiasi sistema decisionale, con o senza AI. I dati non registrano la realtà ma registrano quello che è stato configurato per essere registrato, nel modo in cui è stato configurato per registrarlo, nel periodo in cui la configurazione funzionava correttamente. Tutto il resto, come comportamenti anomali, usi imprevisti, perdite silenti, categorie mal classificate, rimane fuori. Non perché qualcuno abbia sbagliato qualcosa, ma perché nessun sistema di raccolta dati può anticipare tutti i modi in cui gli esseri umani interagiscono con esso in modo diverso da quello previsto. L'AI non cambia questa logica ma la amplifica. Un sistema più potente costruisce ragionamenti più sofisticati sulle stesse fondamenta. Se le fondamenta hanno dei problemi, la sofisticazione del ragionamento non aiuta e rende più difficile vedere dove il problema si trova. Prima di chiedersi cosa può fare l'AI con i propri dati, vale la pena chiedersi cosa sanno davvero quei dati e soprattutto, cosa non sanno.