a caso è il meglio - sei-uno-zero-novesei-uno-zero-nove

L’altra sera, in uno dei talk-show più seguiti su un canale privato, la conduttrice, […] interloquendo con un ministro, ha creduto di sfondare una porta aperta sottolineando ironicamente come l’idea di effettuare un test di immunità su 150mila italiani sia risibile, dato che gli italiani sono 60 milioni. Lo stesso ministro, peraltro, non ha saputo obiettare alcunché su questo punto.

La signora in questione, come purtroppo la maggioranza degli italiani (ma la cosa vale anche all’estero), ignora del tutto che la rappresentatività di una campione non dipende affatto dal suo rapporto con l’ampiezza della popolazione ma dalla sua numerosità assoluta.

Massimo Negrotti su l’Opinione del 5 maggio 2020

Mi par di capire che Massimo Negrotti non sopporti Lilli Gruber. Anche a me i suoi modi non piacciono (più per il loro carattere fazioso che per quello saccente), ma sul punto contestato sono più indulgente. Mi sorprende di più invece, se le cose sono andate come l’autore del pezzo descrive, l’inerzia del ministro che se pure non conoscesse dovrebbe farsi spiegare da chi sa, prima di farsi intervistare in televisione.

Sono più indulgente non solo perché immagino che la Gruber sia in buona (anzi, cattiva) compagnia di tanti altri suoi colleghi, ma anche perché tutti i numeri sull’epidemia diffusi giornalmente dalla protezione civile soffrono di distorsioni da selezione che possono generare un fraintendimento della legge ricordata da Negrotti.

Cerco di spiegarmi ricorrendo nuovamente alla metafora che ho usato l’ultima volta. Abbiamo un enorme barattolo zeppo di caramelle gialle e rosse, e dobbiamo stimare la quota di caramelle rosse che contiene. Quante ne dobbiamo togliere e contare, per stimare adeguatamente la percentuale effettiva (diciamo, sbagliando al più dell’1%)? La risposta più semplice è: tutte o quasi (ovvero, almeno il 99%), se non sappiamo esattamente come è stato riempito il barattolo! Infatti, può darsi che siano state versate nel barattolo prima tutte le caramelle gialle, che quindi si sono accumulate sul fondo, e poi tutte quelle rosse, che quindi sono rimaste in superficie, o viceversa.

Oppure può darsi che il barattolo sia stato riempito versandovi contemporaneamente le caramelle rosse e quelle gialle ma aumentando via via la quota delle prime e contemporaneamente diminuendo via via la quota delle seconde. In quest’ultimo caso le caramelle rosse abbonderebbero di più in superficie e diminuirebbero gradualmente scendendo verso il fondo del barattolo. Ma anche sapendo che il barattolo è stato riempito così, senza però conoscere esattamente la composizione differenziale di giallo e rosso in funzione della profondità, possiamo solo dire che man mano che svuotiamo il barattolo la percentuale di caramelle rosse diminuisce. Se però ci proponiamo di stimare la percentuale di caramelle rosse in tutto il barattolo ancora con un margine di errore dell’1%, allora dovremo svuotarlo quasi tutto: quindi se il barattolo contiene mille caramelle, contandone 990, se ne contenesse un milione, contandone 990mila.

Il motivo per cui non possiamo stimare la percentuale di casi di covid19 attivi nella popolazione italiana rapportando il numero di persone risultate positive al numero di persone sottoposte al test è analogo. Non essendoci test per tutti, essi sono stati somministrati principalmente alle persone che, mostrando i sintomi o avendo avuto contatti stretti e/o prolungati con altri infetti, avevano una probabilità più alta della media di essere stati contagiati; tali persone corrispondono alle caramelle in alto nel barattolo dove è più probabile trovarne di rosse. Quindi, allargando gradualmente la platea di persone da sottoporre a test in ordine decrescente di rischio, che è l’equivalente di scendere in profondità nel barattolo, dove via via le caramelle rosse sono più rarefatte, l’unica cosa che si può dire è che la percentuale dei positivi è destinata a scendere, pur senza essere in grado di dire di quanto. Un altro caso paradigmatico, insomma, di distorsione da selezione. Per arrivare a una stima precisa e attendibile occorrerebbe fare un tampone a tutti, o quasi.

Stando così le cose, avrebbe ragione la Gruber (che pure si riferisce ai test sierologici e non ai tamponi, ma la sostanza del discorso non cambia) a dire che 150mila test non sono sufficienti a produrre un valore generalizzabile all’intera popolazione italiana.

Il punto dirimente qui è proprio il criterio di selezione del campione.

Torniamo per un momento al nostro grande barattolo di caramelle, immaginando ora che sia pieno solo a metà, e di sistemarlo come se fosse una betoniera. Supponiamo cioè di inclinarlo e fissarlo a una barra di modo che possa ruotare su se stesso, e inserirci delle pale a loro volta rotanti che mescolano in continuazione le caramelle. Abbiamo così costruito un meccanismo che ci permette di rendere omogeneo l’assortimento delle caramelle che preleviamo, a prescindere da come il barattolo è stato riempito inizialmente.

Ogni volta che immergiamo nel barattolo una paletta per prelevare delle caramelle, ci aspettiamo che la composizione delle caramelle prelevate sia mediamente la stessa di quella dell’intero barattolo, a prescindere da quanto questo è grande!

Ho scritto mediamente, perché anche così rimane possibile che le caramelle prelevate siano tutte rosse (o gialle). Solo che più caramelle togliamo, più improbabile diventa ottenere una composizione molto diversa da quella effettiva. Se per esempio il barattolo contenesse il 50% di caramelle rosse, cioè una caramella rossa su due, la probabilità di toglierne 10 rosse su 10 sarebbe di una su circa mille (2¹⁰=1024), quella di toglierne 20 rosse su 20 una su circa un milione (2²⁰~1.000.000), quella di toglierne 30 su 30 una su circa un miliardo (2³⁰~1.000.000.000). A riprova di quanto scritto in precedenza, questi valori dipendono solo dal numero di caramelle estratte, non dal numero di caramelle nel barattolo! Ci sono poi delle formule apposite che stabiliscono quanti sono i prelievi da fare per rimanere entro un margine di errore accettabile, come l’1% già citato in precedenza, rispetto alla percentuale effettiva.

Quindi, non importa affatto che un campione di 150mila persone (che sono comunque tantissime) sia piccolo rispetto ai 60 milioni di italiani, se esso viene formato pescando le persone dopo aver mescolato virtualmente la popolazione di appartenenza: ovvero tramite sorteggio; proprio come si prevede di fare per l’indagine sierologica. Solo il sorteggio permette di ottenere, almeno potenzialmente, uno spaccato rappresentativo della popolazione, escludendo qualunque distorsione da selezione, implicita o esplicita.

E’ una affermazione che ai più appare controintuitiva, di cui Negrotti ricorda solo la frase principale, cioè l’irrilevanza della dimensione della popolazione, mentre a me pare che il suo carattere più sorprendente, che sfida il senso comune, stia nella condizione successiva: scegliere a caso è l’opzione migliore per costruire un campione.

Del resto, da tempo due ex presidenti dell’Istat hanno sollecitato un protocollo di osservazione, piuttosto elaborato, per passare da una rilevazione “di convenienza” (cioè basata sulla selezione dei casi più sospetti) a una probabilistica (cioè basata sulla selezione dei casi tramite sorteggio).

La cosa, peraltro, non è per nulla facile. Uno dei problemi più grossi è quello dei rifiuti a partecipare al campionamento. Nel barattolo della metafora, per esempio, potrebbe darsi che alcune caramelle risultino più scivolose delle altre e tendano a sfuggire alla presa della paletta che immergete nel barattolo. Se queste caramelle si distribuissero per colore come nell’intero barattolo, allora non cambierebbe nulla; ma se ce ne fossero più, in proporzione, di gialle o di rosse, allora la rappresentatività dei prelievi di caramelle risulterebbe compromessa.

Nel caso dell’indagine sierologica, non è detto che la percentuale di infetti, attuali e passati, sia la stessa tra le persone che accettano di effettuare il test e quelle che rifiutano. Può essere per esempio che i positivi siano percentualmente più numerosi tra chi accetta, perché in tanti hanno il fondato sospetto di essere infetti e vogliono saperlo. Oppure può essere il contrario, cioè che i positivi siano più diffusi tra chi rifiuta, perché per esempio tra chi teme di risultare positivo c’è chi non vuole essere costretto ad abbandonare il proprio posto di lavoro. Due eventualità opposte che necessitano di studiare interventi correttivi opportuni. Buon lavoro ai ricercatori e ai tecnici che se ne devono occupare.

2 pensieri su “a caso è il meglio”

Pingback: un vantaggio di poco conto, letteralmente - sei-uno-zero-novesei-uno-zero-nove
Pingback: una disputa poco filosofica tra numeri assoluti e percentuali - sei-uno-zero-novesei-uno-zero-nove

Lascia un commento Annulla risposta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.