incertezza di un campionato

ovvero: un episodio può decidere una partita, una partita può decidere un campionato

Nella presentazione del grafico nel mio ultimo articolo scrivevo che un campionato è tanto più avvincente quanto più è combattuto e incerto.

Una misura di questa caratteristica è data dal numero di sorpassi in classifica, che nel grafico (un particolare grafico a linee chiamato bump chart) corrispondono agli intrecci delle linee corrispondenti alla sequenza delle posizioni di ciascuna squadra.

D’altro canto, a ogni turno di campionato l’assenza di un sorpasso può essere il risultato di due situazioni molto diverse tra loro: una combinazione di risultati che non ha permesso alla squadra inseguitrice di recuperare il distacco con la squadra inseguita, o uno scarto di punti troppo grande per poter essere annullato da qualunque risultato favorevole alla prima e sfavorevole alla seconda.

storia di un campionato

Durante le mie navigazioni delle scorse settimane, m’è capitato di leggere prima sul quotidiano online BergamoNews un grafico animato (a sinistra un fotogramma) sull’evolversi della posizione in classifica dell’Atalanta nel corso del campionato appena concluso, e poi sul blog FiveThirthyEight, dello statistico statunitense Nate Silver, un altro grafico (a destra), stavolta non animato, sull’evolversi delle previsioni circa i play off del torneo di pallacanestro statunitense NBA.

M’è venuta quindi l’idea di combinare le due cose, riproducendo la struttura del secondo grafico per applicarla al contesto del primo. Di proporre cioè un grafico che anche se statico (ma comunque interattivo) riesca in modo chiaro e semplice a mostrare i cambiamenti nella classifica del campionato durante tutto il suo svolgimento.

Ho dovuto come prima cosa trovare un sito che avesse pubblicato la classifica per ciascuna delle 38 giornate del campionato, quindi approntare un programma di web scraping per prelevare tutti i dati, e infine realizzare il grafico replicando lo schema che avevo scelto adattato in alcuni particolari.

la moda dei nomi

pietre-colorate

Nell’aggiornare i dati della mia visualizzazione su popolarità e tendenza dei nomi in Italia all’ultima statistica fornite dall’Istat, ho deciso di dedicare un po’ di tempo ad approfondire il significato che avevo attribuito al termine di tendenza per misurare l’effetto di una moda.

Nel mio articolo di presentazione, avevo brevemente definito la tendenza di un nome come l’intensità con cui negli ultimi cinque anni ha visto crescere o diminuire costantemente (in termini percentuali) la propria diffusione. Il concetto sottinteso è che la genesi (o l’abbandono) di una moda è descritta dal modello di crescita (o decrescita) esponenziale a tasso costante x%, secondo il quale, fatti 100 i casi attuali, se ne avranno 100+x (o 100-x) il periodo successivo.

sul referendum per l’autonomia in Lombardia


La Regione Lombardia, seppure con qualche ritardo, ha reso disponibili online i risultati a livello comunale del cosiddetto referendum per l’autonomia del 22 ottobre.

Desiderando fare qualche esperimento, mi sono cimentato prima nella costruzione di una procedura di raccolta dati, poiché il sito della Regione è stato progettato per l’interrogazione di un solo comune alla volta, e poi nella costruzione di alcuni grafici che potessero aiutare la lettura dei risultati. Li propongo brevemente qui di seguito.

da Achille a Zoe


Il sito dell’Istat ha una pagina dedicata alle statistiche sui nomi dei bambini nati negli anni più recenti, che riporta l’elenco di quelli più diffusi e, una volta selezionato un singolo nome, visualizza il numero dei bambini che hanno avuto quel nome in ciascuno dei quasi ultimi vent’anni e il relativo grafico. Un servizio utile ai curiosi di onomastica e forse anche ai futuri genitori che sono indecisi sul nome da scegliere.

Quando l’ho vista per la prima volta ho pensato che sarebbe stato interessante usarne i dati per costrire una panoramica più generale, che permettesse per esempio di confrontare l’evoluzione nel tempo della popolarità di due o più nomi, o di evidenziare quelli che nel corso degli anni sono diventati più di moda, o sono caduti in disuso.

Il contatore dell’Istat è limitato ai 50 nomi più frequenti ma intervenendo sul codice della pagina è possibile ottenere i dati relativi a tutti i nomi assegnati ai nuovi nati, anche quelli meno usati.

Così, dopo avere scaricato, riordinato e rielaborato tutti i dati disponibili, e dopo avere testato diversi modelli grafici, mi sono concentrato su una particolare rappresentazione visuale, che ho finalmente terminato di implementare.
La figura nell’immagine qui sotto ne offre un’istantanea, anche se per apprezzarne l’interattività conviene provare l’applicazione dal vivo disponibile a questa pagina.

due su tre non per sfortuna ma per forzatura


Da La Repubblica del 2 gennaio 2015:

cortesia di crafty_dame

In molti casi ammalarsi di cancro è solo un fatto di sfortuna e non di stile di vita. […]
Due terzi dei tumori sarebbero infatti dovuti a mutazioni legate al puro caso […], piuttosto che a stili di vita sbagliati come il fumo. Solo un terzo sarebbe invece legato a fattori ambientali o predisposizioni ereditarie. In sintesi, il 66% dei tumori è pura sfortuna, ossia sembrano apparentemente incomprensibili perché si verificano in assenza di comportamenti a rischio.

Così vengono riassunti i risultati della ricerca condotta alla Johns Hopkins School of Medicine del Maryland cui negli ultimi giorni la stampa ha dato tanta eco. Tutti i siti informativi si esprimono in modo praticamente identico, riportando che due tumori su tre sarebbero da attribuire alla sfortuna. E la cosa, almeno fuori dall’Italia, ha generato non poche discussioni.

Ebola comparato

L’epidemia di Ebola è uno degli eventi che ha calamitato l’attenzione giornalistica in quest’anno. I primi casi si sono registrati nel dicembre del 2013. Oggi, a distanza di un anno, con l’attenzione dei media che sta via via scemando, il bilancio delle vittime sfiora quota 7.600.

Tra i numerosi articoli che si sono occupati dell’argomento, ne cito tre, di altrettante prestigiose testate, dove diagrammi e grafici rivestono un ruolo essenziale per mettere a confronto i numeri delle principali malattie infettive ed evidenziare le peculiarità di quella da virus Ebola, ovvero il basso livello di contagio combinato però a un alto livello di mortalità.

analisi dei commenti spam su WordPress

Nella sezione in inglese: launch of wordpress spam analytics, la descrizione di un pannello a tre sezioni che rappresentano graficamente dimensioni (provenienza, distribuzione termporale e destinazione) dei commenti spam su questo blog, interattivamente e in tempo reale.

E’ possibile accedere direttamente alla pagina del pannello all’indirizzo https://www.antoniorinaldi.it/spam-analytics/.

il paradosso di Simpson da vedere

Nella sezione in inglese: visualizing Simpson’s paradox. E’ possibile che il tasso di disoccupazione sia più basso tra i diplomati e laureati, sia nei giovani che negli anziani, e che però il tasso di disoccupazione sia più alto tra i diplomati e laureati, nella popolazione che comprende sia i giovani che gli anziani? Sì. Wikipedia cerca di spiegare questo fenomeno conosciuto come paradosso di Simpson, e nel mio articolo propongo un grafico per aiutare a capire dove sta l’apparente inghippo.

un grafico a bolle di intensità per tabelle a doppia entrata

Avrei dovuto scrivere questo articolo subito dopo il suo naturale predecessore. E invece tante idee, tanti progetti si sono confusi, sovrapposti e scavalcati tra loro, così che sul blog ho finito per occuparmi d’altro, senza peraltro la continuità e l’approfondimento desiderati. Detto in altre parole, soffro di procrastinazione cronica.

Anche se a distanza di tre anni è inevitabile riprendere l’argomento in maniera un po’ diversa da quella iniziale, la premessa rimane sempre valida: grafici diversi rispondono a esigenze di analisi diverse e interpretano viste diverse di una tabella a doppia entrata.

Mentre allora ho discusso di grafici che interpretano la lettura di una tabella a sezioni orizzontali, ovvero per righe, e a sezioni verticali, ovvero per colonne, ora mi propongo di illustrare le rappresentazioni grafiche simmetriche, cioè quelle che non vengono alterate invertendo il ruolo di righe e colonne e quindi le variabili che le intestano sono trattate alla pari.