• datialdente
  • Posts
  • 🍕 Il Pentagono, la pizza... e il pericolo delle correlazioni a caso

🍕 Il Pentagono, la pizza... e il pericolo delle correlazioni a caso

Come riconoscere le correlazioni senza senso e quali strumenti usare per fare analisi serie.

Nel giugno 2025, un account su X ha segnalato un insolito picco negli ordini di pizza notturni nei pressi del Pentagono, collegandolo a una successiva escalation militare in Medio Oriente. La teoria? Se i generali ordinano margherite a mezzanotte, vuol dire che si prepara qualcosa di grosso.

Al di là della veridicità dell’episodio (che ricalca un aneddoto simile del 1990, in cui un franchise Domino’s segnalò un’impennata di ordini alla CIA poco prima della guerra del Golfo), la storia ha avuto ampia eco. Ma al netto della simpatia, ci ricorda un principio fondamentale dell’analisi dati:

non tutte le correlazioni sono sensate, alcune sono solo coincidenze travestite da intuizioni.

La correlazione non è causalità (e nemmeno preveggenza)

La tentazione di trovare pattern dove non ci sono è forte, soprattutto in un’epoca in cui i dashboard sono pieni di linee colorate. Il cervello cerca conferme visive, ma se vediamo due curve che salgono insieme, non significa che una influenzi l’altra.

Un paio di classici esempi dal sito Spurious Correlations (andate a curiosare, ce ne sono davvero tanti):

  • Il consumo pro capite di mozzarella negli Stati Uniti è quasi perfettamente correlato con il numero di dottorati in ingegneria civile rilasciati ogni anno
    (r = 0.96)

Oppure:

  • Il numero di persone che vengono chiamate Randy correla con il numero di furti in Texas
    (r = 0.98)

Graficamente tutto fila, statisticamente anche, ma non c’è alcuna relazione causale.
Ed è qui che entra in gioco il metodo.

📏 I tre coefficienti di correlazione (spiegati in modo semplice)

Per capire se due fenomeni sono veramente legati, bisogna misurarlo. E per farlo esistono strumenti statistici ben precisi:

1. Pearson: il più famoso

Immaginiamo due serie di numeri: una potrebbe essere la temperatura ogni giorno, l’altra quante birre vengono vendute. Se quando fa più caldo si vendono più birre, Pearson ce lo dirà con un numero vicino a +1.

  • Se il numero è +1, le due cose crescono insieme in modo lineare (una riga dritta in salita).

  • Se è –1, crescono in direzioni opposte (una sale, l’altra scende).

  • Se è 0, non sembrano avere legami lineari.

📌 Pearson funziona bene quando i dati sono “puliti”, seguono una gaussiana (la classica forma a campana) e la relazione è lineare.

2. Spearman: quando l’andamento è ordinato ma non regolare

A volte i dati non salgono con regolarità perfetta, ma restano “coerenti”: se uno aumenta, l’altro tende ad aumentare. Spearman non guarda i numeri esatti, ma l’ordine (i ranghi) in cui appaiono.

Esempio:
📚 più ore studi, più voti alti prendi. Non sempre in modo perfetto, ma la tendenza c’è, e Spearman lo intercetta.

📌 Utile quando i dati non sono lineari, quando ci sono outlier o i valori sono ordinali (cioè classifiche, non numeri precisi).

3. Kendall Tau: il più prudente

Simile a Spearman, ma ancora più “umile”. Confronta ogni coppia di valori e misura quante volte vanno nella stessa direzione (concordanti) e quante volte no.

È perfetto quando ci sono pochi dati, o quando si cerca un’indicazione in un contesto di dati un po’ sporchi.

📌 Kendall è un po’ più lento da calcolare, ma è spesso preferito in statistica “classica” quando i dati non sono ideali.

Correlazioni creative: quando il business si illude

Nel lavoro con i dati, purtroppo capita molto spesso di scambiare una coincidenza per una verità operativa.

  • Aumentano le vendite dopo una campagna marketing?
    Forse è solo perché è fine mese.

  • Un colore diverso di bottone riceve più click?
    Magari quel giorno era attivo un altro canale promozionale.

Se non usiamo una correlazione formale, non abbiamo alcuna prova che due cose siano legate. E questo vale doppio se usiamo i dati per alimentare modelli predittivi o AI: un legame debole può diventare un bias sistemico. Quindi, cosa fare?

  • Calcolare una correlazione vera (Pearson, Spearman o Kendall)

  • Controllare i presupposti statistici: normalità, linearità, distribuzione

  • Valutare le variabili nascoste: magari la terza variabile è quella che guida entrambe

  • Se possibile, testare le ipotesi con esperimenti controllati (A/B test, gruppi di controllo)

L’antidoto alla suggestione

Nel mondo dei dati, specialmente quelli “visualizzati”, farsi ingannare è facilissimo, perchè le correlazioni visive sono immediate, ma possono essere fuorvianti.
La soluzione non è avere “più dati”, ma usare quelli disponibili con metodo. Quindi sì, la pizza del Pentagono può anche far sorridere, ma quando si tratta di decisioni operative, strategiche o finanziarie, serve molto di più: rigore statistico, contesto e strumenti adatti. 

Peraltro, usare un indice di correlazione come Pearson è un buon inizio, ma non è la fine del ragionamento. Come abbiamo visto, tanti fenomeni non correlati mostrano valori di Pearson elevati semplicemente perché si muovono nello stesso periodo o seguono dinamiche simili. Ma non c’entrano nulla l’uno con l’altro.

Ecco perché, oltre al metodo, servono:

  • Conoscenza del dominio: capire cosa si sta misurando e se ha senso cercare una relazione.

  • Verifica delle variabili latenti: magari c’è una terza causa comune che guida entrambi i fenomeni.

  • Pensiero causale: correlazione non significa causa > se non puoi spiegare il legame, non usarlo.

I dati non mentono, ma possiamo facilmente fraintenderli.
I numeri aiutano, ma solo se li leggiamo con contesto, rigore e una sana dose di dubbio.
Per prendere decisioni serie, serve un approccio solido e la capacità di distinguere una correlazione reale da una storia ben raccontata.

📩 Se ti occupi di dati e vuoi ricevere articoli così ogni settimana, iscriviti alla newsletter Dati al Dente: