lo strano caso dei numeri di immuni

Da quando è stata lanciata su tutto il territorio nazionale, il 15 giugno scorso, in Italia si sono contati circa 10 mila contagi, di questi scovati grazie a Immuni appena 47. Fatte le debite proporzioni, calcolando che ad averla installata sul proprio smartphone è il 7,7% della popolazione complessiva, almeno 7-800 casi si sarebbero dovuti attribuire alla app, invece qui siamo allo zero virgola qualcosa.

da La Stampa, 1 agosto 2020

Così qualche giorno fa Paolo Russo, commentando il misero numero di casi di covid19 individuati, concludeva che c’è qualcosa di serio che non funziona nell’app Immuni.

I numeri sono stati poi aggiornati dal Ministero dell’Innovazione, ma rimangono comunque estremamente modesti. In ogni caso, su Il Post Maurizio Codogno ha spiegato che ciò non dipende da un qualche difetto del sistema o del comportamento dei suoi utenti, ma è una conseguenza diretta della bassa percentuale di persone che usano l’app.

Qui vorrei semplicemente estendere la sua spiegazione aiutandomi con un semplice diagramma e una tabella numerica.

una ripresa che non c’è

All’inizio del mese la rete televisiva americana CNBC ha pubblicato questo grafico sostenendo la narrazione di una veloce ripresa del mercato del lavoro statunitense dopo il tracollo causato dalla crisi per la pandemia Covid-19 che sarebbe provata provata dalla forma a V del grafico, a destra.

In effetti i lettori distratti potrebbero intendere che già a maggio il crollo dei mesi precedenti sia stato recuperato, tornando i dati in territorio positivo. Se non fosse per un piccolo ma fondamentale particolare: l’indice di cui si descrive l’andamento nel corso dei mesi non rappresenta il numero assoluto di posti di lavoro esistenti, ma la variazione del numero assoluto di posti di lavoro rispetto al mese precedente.

In altre parole: ad aprile si sono persi più di 20 milioni di posti di lavoro, a maggio se ne sono guadagnati 2,5 milioni. Fuori luogo dunque parlare di ripresa. Un po’ come fuori luogo sarebbe parlare di recupero di una squadra che nel secondo tempo riesce a segnare un gol dopo averne subiti dieci nel primo tempo.

Il grafico è stato oggetto di commenti feroci sull’account twitter della CNBC. Tanto che la rete televisiva lo ha sostituito con un’altra versione.

a caso è il meglio

L’altra sera, in uno dei talk-show più seguiti su un canale privato, la conduttrice, […] interloquendo con un ministro, ha creduto di sfondare una porta aperta sottolineando ironicamente come l’idea di effettuare un test di immunità su 150mila italiani sia risibile, dato che gli italiani sono 60 milioni. Lo stesso ministro, peraltro, non ha saputo obiettare alcunché su questo punto.

La signora in questione, come purtroppo la maggioranza degli italiani (ma la cosa vale anche all’estero), ignora del tutto che la rappresentatività di una campione non dipende affatto dal suo rapporto con l’ampiezza della popolazione ma dalla sua numerosità assoluta.

Massimo Negrotti su l’Opinione del 5 maggio 2020

Mi par di capire che Massimo Negrotti non sopporti Lilli Gruber. Anche a me i suoi modi non piacciono (più per il loro carattere fazioso che per quello saccente), ma sul punto contestato sono più indulgente. Mi sorprende di più invece, se le cose sono andate come l’autore del pezzo descrive, l’inerzia del ministro che se pure non conoscesse dovrebbe farsi spiegare da chi sa, prima di farsi intervistare in televisione.

Sono più indulgente non solo perché immagino che la Gruber sia in buona (anzi, cattiva) compagnia di tanti altri suoi colleghi, ma anche perché tutti i numeri sull’epidemia diffusi giornalmente dalla protezione civile soffrono di distorsioni da selezione che possono generare un fraintendimento della legge ricordata da Negrotti.

Cerco di spiegarmi ricorrendo nuovamente alla metafora che ho usato l’ultima volta. Abbiamo un enorme barattolo zeppo di caramelle gialle e rosse, e dobbiamo stimare la quota di caramelle rosse che contiene. Quante ne dobbiamo togliere e contare, per stimare adeguatamente la percentuale effettiva (diciamo, sbagliando al più dell’1%)? La risposta più semplice è: tutte o quasi (ovvero, almeno il 99%), se non sappiamo esattamente come è stato riempito il barattolo! Infatti, può darsi che siano state versate nel barattolo prima tutte le caramelle gialle, che quindi si sono accumulate sul fondo, e poi tutte quelle rosse, che quindi sono rimaste in superficie, o viceversa.

mille lucciole per lanterne

cortesia di Robert Anasch

Coronavirus, il mistero di Ferrera paese senza contagi. “Venite a studiarci”
Mille abitanti in provincia di Pavia, nessuno positivo. Per il sindaco un’occasione: “Analizzate il sangue dei residenti”. Ma dalla Regione è arrivato il no.

da la Repubblica, 30 marzo 2020

Purtroppo il sindaco ha preso una grossa cantonata. Meglio sia finita così, anche se il rifiuto a indagini sembra dettato più da questioni burocratiche che dalla reale comprensione del caso.

Quando ho letto di un paese di soli mille abitanti, ho pensato subito a un artefatto statistico. Più precisamente, al prevedibile effetto della legge secondo cui un insieme di piccoli gruppi presenta maggiore variabilità relativa di un insieme di grandi gruppi.

Vediamo di spiegare il concetto, che è più semplice da illustrare che da enunciare, con un esperimento ideale.

quanti sono i contagiati in Italia

Ho scritto qualche giorno fa che l’evolversi della situazione sarebbe stato veloce e così è stato.

Devo cercare di mettere per iscritto in fretta le mie idee se non voglio che tra qualche giorno appaiano sorpassate.

Nessuno sa quanti sono i contagiati da coronavirus. Nessuno. I numeri che vengono comunicati giornalmente dalle autorità e riportati sugli organi d’informazione rappresentano, come in molti hanno capito, una tremenda sottostima del numero di contagiati, perché si riferiscono solo ai casi sintomatici, anzi, forse anche solo ai casi più gravi tra i sintomatici.

In teoria basterebbe un campione probabilistico di qualche migliaio di test in tutta Italia per avere una ragionevole stima della percentuale (e del numero) di contagiati. Cioè un campione selezionato scegliendo a caso tra tutti gli italiani, eventualmente rispettando delle quote per ripartizione geografica, fascia d’età e genere.

Conoscere il numero dei contagiati aiuterebbe a capire a che punto è davvero l’epidemia, tanto che un gruppo di esperti ha lanciato un appello per effettuare una massiccia campagna di test. Sull’iniziativa però ci sono pareri discordanti; qualcuno ha espresso dubbi sull’attendibilità e sull’effetto dei risultati. In particolare perché, nei casi asintomatici allo stadio iniziale, non si sa in quale percentuale, il test tramite tampone non sarebbe in grado di rilevare la presenza del virus e l’esito negativo potrebbe portare le persone a comportarsi senza più la necessaria prudenza, mettendo a rischio chi viene in contatto con loro.

Comunque sia, i ventimila e passa contagiati ufficiali sono solo i casi accertati. Sul numero, molto verosimilmente rilevante, di quelli che sfuggono alla rilevazione siamo solo nella condizione di fare delle ipotesi.

stop comunque

cortesia di Rodrigo Olivera

“In caso di giocatore positivo a coronavirus, non possiamo escludere la sospensione del campionato”.
In una intervista a ‘Dribbling’, su RaiDue, il presidente della Figc, Gabriele Gravina non esclude che la serie A possa fermarsi del tutto.

da la Repubblica del 7 marzo 2020

In queste ore gli eventi si susseguono veloci e la decisione di fermare in ogni caso il campionato sembra imminente.

Mi sembra comunque interessante discutere dell’ipotesi “di giocatore positivo”. Istintivamente, infatti, subito dopo avere letto il titolo della notizia, ho pensato: sicuramente c’è (almeno) un giocatore positivo! Ma ho anche imparato che a volte il calcolo delle probabilità è controintuitivo. E così mi sono messo a fare qualche conto per valutare quanto è probabile l’ipotesi prospettata. Per fortuna il calcolo è molto semplice; somiglia a quello che descrive il paradosso dei compleanni e che ho già svolto in passato commentando un paio di episodi di cronaca.

Supponiamo che in Italia la percentuale di infetti nella popolazione sia dell’1%, e, siccome il virus non fa distinzione tra una professione e un’altra, di poter adottare la stessa percentuale anche per l’insieme dei giocatori.

Considerando una rosa di 20 giocatori per squadra, i calciatori di serie A sarebbero 400, e il numero atteso di giocatori infetti sarebbe l’1% di 400, cioè 4; analogamente, conteggiando 25 giocatori per squadra si avrebbero 500 calciatori, di cui 5 infetti.

Le due proporzioni precedenti però non permettono di fare valutazioni probabilistiche, nello specifico di indicare con quale probabilità c’è almeno un caso positivo. Abbiamo bisogno di un calcolo più mirato.

lo strano caso della lotteria italia 2020


Sullo strano caso di Ferno, dove sono stati assegnati tre premi di terza categoria della Lotteria Italia da 20mila euro l’uno, il Codacons ha deciso di vederci chiaro, e presenta oggi una formale istanza ai Monopoli di Stato e alla Guardia di Finanza affinché sia sospesa l’aggiudicazione dei premi in attesa delle dovute verifiche.

Nel mirino dell’associazione i numeri dei biglietti vincenti che risultano pressoché consecutivi: P474343, P474346, P474348. Un caso che – secondo le leggi della probabilità [i calcoli di un esperto] – può verificarsi una volta su 2,6 miliardi di miliardi

da AgenPress.it, 8 gennaio 2020

Mi sono permesso di ritoccare il passo citato perché il risultato dichiarato dall’esperto interpellato dal Codacons è frutto di un calcolo grossolanamente sbagliato e ho giudicato fuori luogo avallarlo richiamando le leggi della probabilità.

Eppure il calcolo corretto non è tanto più complicato, e vorrei qui di seguito descriverne i passaggi. L’unica legge importante da conoscere è quella per cui la probabilità di una combinazione di eventi (in questo caso, una sequenza di estrazioni) si ottiene moltiplicando le probabilità di ciascun singolo evento (in questo caso, ciascuna singola estrazione).

una differenza che fa la differenza

cortesia di Wikipedia

Il reddito di cittadinanza è riuscito nell’intento di ridurre la povertà nel nostro Paese. È il giudizio del presidente dell’Inps Pasquale Tridico []: “Il tasso di povertà nel nostro Paese si è ridotto di 8 punti percentuali”

da la Repubblica del 20 dicembre 2019

C’è qualcosa che non va.
Per spiegare cosa, devo aprire un inciso e presentare un esempio numerico non direttamente legato al caso in questione.

Supponiamo che un qualche indice che vale 25 subisca una variazione negativa arrivando a 18.

Possiamo immaginare un contesto e un’unità di misura qualsiasi: i due valori possono esprimere indifferentemente un reddito espresso in migliaia di euro, o l’ammontare di una popolazione in milioni di abitanti, o il tempo medio di risoluzione di una pratica in giorni o mesi, o quello che volete voi. La variazione assoluta dell’indice, misurata dalla semplice differenza tra i due valori, è pari a 25-18 = 7. Quella relativa (o percentuale), misurata rapportando la semplice differenza al primo valore, è pari a 7/25 = 0.28 = 28%. Fin qui, non c’è possibilità di fraintendimento, perché l’unità di misura della variazione chiarisce di che tipo è: se la variazione è espressa senza percentuale, sottindendendo la stessa unità di misura dei due valori cui si riferisce, allora è assoluta; se invece è espressa in forma percentuale, allora è relativa.

Le cose si complicano leggermente quando invece l’indice rappresenta una qualche grandezza percentuale.

doppia sopravvivenza

con il comunicato odierno Iliad afferma che il 97% dei clienti intervistati raccomanderebbe Iliad ad amici e parenti (secondo una scala di gradimento da “abbastanza” a “molto”).

da MondoMobileWeb del 3 dicembre 2019

Giusto qualche giorno fa scrivevo di distorsione da sopravvivenza e ora mi ritrovo sottomano la notizia di cronaca perfetta.

Cos’è la distorsione da sopravvivenza? Lo ripeto: il fenomeno per cui la composizione di un’insieme risulta alterata dal fatto che alcuni elementi che vi apparterrebbero inizialmente vengono eliminati prima dell’osservazione finale.

L’esempio paradigmatico riportato da quasi tutti gli articoli e i libri sull’argomento è un caso storico.

bravi studenti e buone scuole

cortesia di NeONBRAND

Osservando una squadra di pallacanestro si può misurare rigorosamente che i giocatori sono decisamente più alti della media dei loro coetanei. Ma se il genitore di un ragazzo non particolarmente alto volesse iscrivere il suo ragazzo a tale attività sportiva sperando che inserito lì dentro possa avere migliori risultati di crescita in altezza dovremmo forse moderare le sue aspettative.

da l’Adige del 22 novembre 2019
Come gli scorsi anni, Eduscopio ha pubblicato l’annuale classifica delle scuole superiori, per provincia e tipo di istituto, in base ai voti degli studenti all’esame di maturità e ai successivi risultati degli esami del primo anno di studi universitari.

Ho letto alcuni insegnanti esprimere critiche al vetriolo verso questa indagine, sostenendo (la sintesi brutale delle argomentazioni è mia) che il ruolo del docente, in quanto teso al raggiungimento di valori immateriali, non sarebbe suscettibile di alcuna valutazione quantitativa. Non voglio entrare nel merito di questa specifica argomentazione, limitandomi a dire che ritengo questa posizione destinata a soccombere di fronte alla richiesta, sempre più pervasiva nell’epoca degli algoritmi e dei big data, di indici numerici per misurare ogni aspetto della vita economica e sociale.

Per me invece l’articolo di Maria Prodi, pubblicato sull’Adige, centra magistralmente il fulcro della questione: la fallacia delle premesse e delle conclusioni che si attribuiscono all’indagine. Per usare le sue parole: siamo sicuri che un ragazzo che si iscrive a una scuola con punteggio migliore troverà una scuola migliore, o semplicemente una scuola in cui si sono iscritti ragazzi scolasticamente migliori? Avevo espresso lo stesso concetto tempo fa ma l’esposizione di Maria Prodi è davvero illuminante. Per questo invito a leggere integralmente il suo articolo.

Vorrei aggiungere qualche considerazione in merito alla domanda principale: quanto conta un istituto nel successo dei suoi studenti?