anatomia di un identikit

cortesia di Stuart Heath

Da La Repubblica del 30 agosto 2013:

Ha conseguito un voto di maturità alto, è di genere maschile e ha frequentato il liceo. È l’identikit della matricola di Medicina e Chirurgia. A rivelarlo è uno studio condotto dall’Università degli Studi di Bari “Aldo Moro” e finanziato dal Ministero dell’Istruzione. La ricerca ha analizzato i candidati ai test di ammissione dal 2005 al 2011.

[…] i tassi di successo sono correlati in modo statisticamente significativo con il genere e qui c’è il paradosso: i ragazzi sono favoriti rispetto alle ragazze pur essendo il voto di maturità delle donne sempre maggiore, mediamente di circa 5-6 punti, rispetto a quello degli uomini.

Sempre più spesso, quando vengono presentati i risultati di una ricerca, viene proposto un qualche genere di identikit, cioè viene descritto il profilo di una persona “tipo”, elencandone alcuni dei suoi principali tratti caratteristici. A differenza dell’identikit di un ricercato che tante volte abbiamo visto nei telefilm polizieschi, questa immagine non ha lo scopo di identificare uno e un solo individuo, bensì di descrivere un intero insieme di persone o un sottoinsieme di persone delle quali la ricerca si è occupata.

Evidentemente l’identikit di un individuo e quello di un gruppo non vanno intesi allo stesso modo. Dunque, come interpretare quest’ultimo? Come il profilo più rappresentativo rappresentato (no, è meglio non usare il primo termine che in statistica ha un diverso significato), ovvero più comune, nell’insieme dei soggetti considerati? O come il profilo più vicino, mediamente, a tutti i soggetti, secondo un certo criterio? O secondo qualche altro significato ancora?

Cerchiamo di capirlo, prendendo spunto proprio dall’indagine del pezzo citato sulle matricole della facoltà di medicina e chirurgia, ed esaminando qualche ipotetica situazione con numeri scelti ad hoc.

il paradosso di Simpson da vedere

Nella sezione in inglese: visualizing Simpson’s paradox. E’ possibile che il tasso di disoccupazione sia più basso tra i diplomati e laureati, sia nei giovani che negli anziani, e che però il tasso di disoccupazione sia più alto tra i diplomati e laureati, nella popolazione che comprende sia i giovani che gli anziani? Sì. Wikipedia cerca di spiegare questo fenomeno conosciuto come paradosso di Simpson, e nel mio articolo propongo un grafico per aiutare a capire dove sta l’apparente inghippo.

un grafico a bolle di intensità per tabelle a doppia entrata

Avrei dovuto scrivere questo articolo subito dopo il suo naturale predecessore. E invece tante idee, tanti progetti si sono confusi, sovrapposti e scavalcati tra loro, così che sul blog ho finito per occuparmi d’altro, senza peraltro la continuità e l’approfondimento desiderati. Detto in altre parole, soffro di procrastinazione cronica.

Anche se a distanza di tre anni è inevitabile riprendere l’argomento in maniera un po’ diversa da quella iniziale, la premessa rimane sempre valida: grafici diversi rispondono a esigenze di analisi diverse e interpretano viste diverse di una tabella a doppia entrata.

Mentre allora ho discusso di grafici che interpretano la lettura di una tabella a sezioni orizzontali, ovvero per righe, e a sezioni verticali, ovvero per colonne, ora mi propongo di illustrare le rappresentazioni grafiche simmetriche, cioè quelle che non vengono alterate invertendo il ruolo di righe e colonne e quindi le variabili che le intestano sono trattate alla pari.

aspettando il nuovo Papa

Carl Cialik su The Wall Street Journal il 15 febbraio 2013:

cortesia di Wikimedia commons

Age is also a factor in papal selection. […]
Younger popes typically follow older popes, perhaps as cardinals react to the previous papacy’s unusually short duration. David M. Cheney, who works in information technology at a U.S. government agency and maintains his own papal database at the website Catholic Hierarchy, said the oft-stated trend proves to be “quite accurate, with a few exceptions.”

Di previsioni sul prossimo Papa se ne fanno tante. Oltre alla nazionalità, anche l’età è diventata oggetto di discussione, e non solo per un invito attribuito allo stesso Benedetto XVI. L’ipotesi de The Wall Street Journal è interessante. In sostanza a Papi anziani succederebbero più frequentemente Papi giovani, come risposta all’emergere nel tempo della necessità di realizzare progetti e politiche di ampio respiro e lungo periodo, cose fuori dalle possibilità, per limiti anagrafici e caratteriali, di un Papa anziano.
Ma è davvero così? Il grafico che riporta, in base ai dati dell’archivio dei pontificati citato nello stesso articolo, l’età all’elezione e la durata del pontificato per gli ultimi 50 Papi (mi sono fermato a 50 soltanto per limiti di spazio e di tempo), non sembra charire la questione.

da tabella a grafico in WordPress

Qualche settimana fa ho scoperto HighCharts, una libreria Javascript per la creazione di grafici che mi ha colpito più di altre per la semplicità di scrittura del codice e per la sua elegante resa. Così ho cominciato a fare qualche esperimento e progettarne altri per il blog, ancora in cantiere. Di più, mi è venuta l’idea di sviluppare un piccolo programma per permettere a tutti, soprattutto a chi non conosce nulla di PHP e JavaScript, di inserire negli articoli del proprio blog WordPress dei semplici ma accattivanti grafici a partire da tabelle di dati numerici qualunque.

Alla fine ho partorito il plugin che, con un mostruoso sforzo di immaginazione, ho chiamato Table2Chart.

Post scriptum: è in linea la nuova pagina con la descrizione aggiornata del plugin (in inglese).

radiografia di una crisi

Pieter Bruegel, particolare di
Lotta tra carnevale e quaresima

La disponibilità dei dati sulla qualità della vita che Il sole 24 Ore pubblica annualmente in libera consultazione e dei quali ho parlato nel mio ultimo articolo mi ha fatto nascere l’idea di sfruttare alcuni indicatori usati in quell’indagine per rappresentare graficamente la situazione economica nelle province italiane e il trend in atto.

Si tratta in sostanza di un semplice esercizio per sperimentare se e quanto un certo grafico riesca a esplicitare in termini intuitivi e immediati una serie di numeri la cui lettura integrale risulterebbe molto lunga e difficlmente produttiva.

quale qualità della vita

Dal Nuovo Quotidiano di Rimini del 2 gennaio 2013:

Per il Sole 24 Ore Rimini è quarta in Italia per qualità di vita, secondo l’indagine di Italia Oggi, invece si classifica al 54esimo posto. I parametri restano comunque gli stessi ed è sempre il numero di popolazione che permette questa forte oscillazione quando si parla della riviera. A penalizzare in particolare, sempre secondo Italia Oggi, è la sicurezza: Rimini sarebbe tra le peggiori in Italia. “Prendo tutto con grande divertimento e un pizzico di affetto nei confronti dei ricercatori, visto che – stanti più o meno gli stessi parametri- Sole 24 Ore e Italia Oggi ci danno al top o a metà classifica. Evidentemente anche la matematica, come il calcio, è diventata un’opinione” commenta il presidente della Provincia

Ho scoperto da questo articolo che a proposito della qualità della vita esistono due classifiche delle province italiane: quella pubblicata su Il Sole 24 Ore, e quella pubblicata su Italia Oggi.

praticamente zero

Dal sito EconomiaWeb:

Il giudice nell’emettere la sentenza, ha valutato molto attentamente l’aspetto statistico. Su 1893 assunti in Fabbrica Italia Pomigliano […] nessuno appartiene alla Fiom. Eppure il sindacato, al momento del passaggio da Fiat Group a Fabbrica Italia, contava in azienda ben 382 iscritti su 4367 operai totali (in percentuale l’ 8,75%).

Dal sito RaiNews24:

In base a una simulazione statistica affidata a un professore di Birmingham, le possibilità che ciò accadesse casualmente risultavano meno di una su dieci milioni.

Nel riportare la sentenza con cui il Tribunale di Roma ha condannato la Fiat per comportamento discriminatorio, tutti i siti hanno enfatizzato il valore numerico della probabilità degli eventi in caso di innocenza della Fiat: meno di uno su dieci milioni o, secondo il testo della stessa sentenza uno su dieci milioni.

il biscotto

In ambito sportivo dicesi biscotto una combine, a volte concordata preventivamente a volte silenziosa e nata sul campo da un atteggiamento disinteressato nei confronti del gioco, per mutuo interesse o per escludere una terza squadra da qualsiasi possibile beneficio.

(Stefano Benzi su Yahoo! Eurosport)

In vista dell’ultima partita della fase a gironi, non si fa che parlare di biscotto, il pareggio 2-2 che farebbe comodo a Spagna e Croazia ed eliminerebbe l’Italia a prescindere del risultato della sua partita con l’Irlanda. C’è chi lo esclude, chi lo da per scontato, mentre da più parti si registra che le quote dei bookmakers sul risultato sospetto sono particolarmente basse. Pur essendo emotivamente distante dalla questione sportiva, mi interessa l’aspetto matematico del problema. Si può misurare la probabilità del biscotto?