anatomia di un identikit

cortesia di Stuart Heath

Da La Repubblica del 30 agosto 2013:

Ha conseguito un voto di maturità alto, è di genere maschile e ha frequentato il liceo. È l’identikit della matricola di Medicina e Chirurgia. A rivelarlo è uno studio condotto dall’Università degli Studi di Bari “Aldo Moro” e finanziato dal Ministero dell’Istruzione. La ricerca ha analizzato i candidati ai test di ammissione dal 2005 al 2011.

[…] i tassi di successo sono correlati in modo statisticamente significativo con il genere e qui c’è il paradosso: i ragazzi sono favoriti rispetto alle ragazze pur essendo il voto di maturità delle donne sempre maggiore, mediamente di circa 5-6 punti, rispetto a quello degli uomini.

Sempre più spesso, quando vengono presentati i risultati di una ricerca, viene proposto un qualche genere di identikit, cioè viene descritto il profilo di una persona “tipo”, elencandone alcuni dei suoi principali tratti caratteristici. A differenza dell’identikit di un ricercato che tante volte abbiamo visto nei telefilm polizieschi, questa immagine non ha lo scopo di identificare uno e un solo individuo, bensì di descrivere un intero insieme di persone o un sottoinsieme di persone delle quali la ricerca si è occupata.

Evidentemente l’identikit di un individuo e quello di un gruppo non vanno intesi allo stesso modo. Dunque, come interpretare quest’ultimo? Come il profilo più rappresentativo rappresentato (no, è meglio non usare il primo termine che in statistica ha un diverso significato), ovvero più comune, nell’insieme dei soggetti considerati? O come il profilo più vicino, mediamente, a tutti i soggetti, secondo un certo criterio? O secondo qualche altro significato ancora?

Cerchiamo di capirlo, prendendo spunto proprio dall’indagine del pezzo citato sulle matricole della facoltà di medicina e chirurgia, ed esaminando qualche ipotetica situazione con numeri scelti ad hoc.

Per semplicità immaginiamo dunque di avere 100 matricole e limitiamoci a considerarle rispetto ai due caratteri genere (distinto in maschile e femminile) e voto di maturità (suddiviso lapidariamente in voto alto e voto basso), e disponiamo i numeri in modo tale che il profilo maschio con voto alto diventi l’identikit del nostro gruppo di matricole. Supponiamo quindi che il gruppo dei maschi sia più numeroso di quello delle femmine e che il gruppo dei diplomati con un voto alto sia più numeroso di quello con un voto basso; diciamo, per fare cifra tonda, 60 matricole maschi e 60 voti alti.
Inoltre, per incrociare i numeri rispetto al genere e al voto supponiamo da principio che la distribuzione del voto sia la stessa nei maschi che nelle femmine, ovvero che in entrambi i gruppi i voti alti abbiano la stessa frequenza del 60%. Cioè 36 matricole maschi su 60 (il 60% di 60 è 36) e 24 matricole femmine su 40 (il 60% di 40 è 24), come riportato nella tabella seguente.

maschi femmine totali
voti alti 36 24 60
voti bassi 24 16 40
totali 60 40 100

Il profilo maschio con con voto alto, corrispondente all’identikit, è il più comune, ma non raggiunge la maggioranza assoluta: esso identifica solo 36 candidati su 100.
Se considerassimo la scuola di provenienza come terzo carattere, supponendo che i licei raccolgano il 60% dei casi, e incrociassimo i primi due caratteri con questo, supponendo nuovamente una frequenza del 60% dei licei in ogni categoria, il profilo maschio con voto alto proveniente da un liceo raccoglierebbe solo 22 matricole (il 60% di 36 è 21,6) su 100.
Con un quarto, ipotetico carattere, per esempio il reddito famigliare, ammettendo una percentuale del 60% in favore dei redditi alti e la stessa precedente ipotesi di distribuzione uniforme anche per il reddito, il profilo maschio con voto alto diplomato al liceo e di famiglia con reddito alto conterebbe solo 13 matricole su 100 (60% di 21,6 è 12,96).
In altre parole, maggiore è il numero di caratteri che compongono l’identikit, più piccolo è il numero di persone che vi corrispondono perfettamente.

Nella realtà però non succede mai o quasi mai che la distribuzione di un carattere sia la stessa per tutte le categorie degli altri, come abbiamo supposto finora. Pertanto, tornando alla classificazione iniziale rispetto al genere e al voto dell’esame di maturità, occorre considerare una percentuale di voti alti maggiore tra le matricole di sesso maschile rispetto alle matricole di sesso femminile, o viceversa.
La tabella che segue riporta un esempio del primo caso, dove hanno voti alti 55 matricole di sesso maschile su 60 (il 92% circa) e 5 matricole di sesso femminile su 40 (il 12.5%). Questa ipotetica configurazione privilegia l’identikit nel senso inteso finora, perché la combinazione maschio con voto alto raccoglie non solo la percentuale relativa delle matricole ma anche quella assoluta (55 su 100).

maschi femmine totali
voti alti 55 5 60
voti bassi 5 35 40
totali 60 40 100

La tabella successiva mostra invece un esempio del caso complementare, nel quale hanno voti alti 25 matricole di sesso maschile su 60 (il 42% circa) e 35 matricole di sesso femminile du 40 (l’87,5%). In questo caso occorre constatare che il profilo dell’identikit non è nemmeno quello associato alla maggioranza relativa dei candidati: a fronte di 25 maschi con voti alti, ci sono 35 maschi con voti bassi e 35 femmine con voti alti!

maschi femmine totali
voti alti 25 35 60
voti bassi 35 5 40
totali 60 40 100

Al di là dei numeri, che sono ovviamente studiati ad arte, il verso della relazione tra genere e voto dell’ultima tabella è tutt’altro che implausibile: l’articolo rileva infatti che le candidate di sesso femminile esibiscono in media voti più alti dei candidati di sesso maschile, ed è possibile ritenere che, seppure in misura minore, lo stesso valga tra le matricole, cioè tra i candidati che hanno superato la prova di ammissione.
Anche in questo caso, immaginando di considerare un terzo e magari un quarto carattere, l’incertezza sui risultati aumenta. In definitiva, l’identikit non assicura alcunché circa il numero di persone che vi corrispondono esattamente, sia in termini assoluti che relativi.

Per spiegare il senso dell’identikit seguiamo allora un’altra strada. Finora abbiamo confrontato il profilo dei soggetti con quello dell’identikit, considerato come un tutt’uno; ora invece valutiamo in che misura il profilo dei soggetti somiglia a quello dell’identikit, confrontando i loro singoli caratteri uno per volta. A tal fine riprendiamo la ripartizione iniziale delle matricole rispetto a genere e voto di maturità, contiamo per ciascuna matricola il numero di caratteri che ha in comune con l’identikit, e infine facciamone la media. I maschi con voto alto condividono con l’identikit entrambi i due caratteri; i maschi con voto basso e le femmine con voto alto uno solo; le femmine con voto basso zero, cioè nessuno. Per esempio, nella prima tabella ipotizzata la media vale
36100+1×24+24100+0×16100=1,2, cioè nell’insieme delle 100 matricole esaminate su 2 caratteri considerati in media 1,2 corrispondono a quelli dell’identikit. Ovviamente in caso di nessuna somiglianza la media varrebbe 0, in caso di somiglianza perfetta varrebbe 2. E’ facile verificare che si ottiene lo stesso valore anche per le altre due tabelle proposte, ovvero che, più in generale, la media del numero di caratteri comuni all’identikit dipende solo dalla frequenza dei singoli caratteri e non dalla loro distribuzione congiunta. Ciò rimane vero anche introducendo altri caratteri in aggiunta ai due considerati. Risultato ancora più importante, si può dimostrare che l’identikit definito dalla combinazione delle voci più frequenti per ciascun singolo carattere determina il numero medio più alto di caratteri individuali coincidenti. In altre parole, esso è quello che mediamente più somiglia al profilo dei soggetti nell’insieme considerato. Per esempio può sbagliare nel descrivere il sesso, o il voto, o l’istituto di provenienza di una matricola, o tutte e tre le cose; ma, nell’insieme, è quello che determina il minor numero di sbagli.

Riassumendo. L’identikit collettivo riassume un insieme di soggetti, o meglio, delle loro caratteristiche, in un’unica descrizione. Per questo motivo esso non offre e non può offrire una descrizione perfetta di una parte rilevante del profilo dei soggetti studiati; se però è costruito nel modo appena descritto, offre una descrizione che, seppure singolarmente imperfetta, offre mediamente il più alto livello di somiglianza con il profilo dei tanti e diversi soggetti studiati.

Un pensiero su “anatomia di un identikit

  1. Pingback: comuni e giovani amministratori | sei-uno-zero-nove

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *