incertezza di un campionato

ovvero: un episodio può decidere una partita, una partita può decidere un campionato

Nella presentazione del grafico nel mio ultimo articolo scrivevo che un campionato è tanto più avvincente quanto più è combattuto e incerto.

Una misura di questa caratteristica è data dal numero di sorpassi in classifica, che nel grafico (un particolare grafico a linee chiamato bump chart) corrispondono agli intrecci delle linee corrispondenti alla sequenza delle posizioni di ciascuna squadra.

D’altro canto, a ogni turno di campionato l’assenza di un sorpasso può essere il risultato di due situazioni molto diverse tra loro: una combinazione di risultati che non ha permesso alla squadra inseguitrice di recuperare il distacco con la squadra inseguita, o uno scarto di punti troppo grande per poter essere annullato da qualunque risultato favorevole alla prima e sfavorevole alla seconda.

storia di un campionato

Durante le mie navigazioni delle scorse settimane, m’è capitato di leggere prima sul quotidiano online BergamoNews un grafico animato (a sinistra un fotogramma) sull’evolversi della posizione in classifica dell’Atalanta nel corso del campionato appena concluso, e poi sul blog FiveThirthyEight, dello statistico statunitense Nate Silver, un altro grafico (a destra), stavolta non animato, sull’evolversi delle previsioni circa i play off del torneo di pallacanestro statunitense NBA.

M’è venuta quindi l’idea di combinare le due cose, riproducendo la struttura del secondo grafico per applicarla al contesto del primo. Di proporre cioè un grafico che anche se statico (ma comunque interattivo) riesca in modo chiaro e semplice a mostrare i cambiamenti nella classifica del campionato durante tutto il suo svolgimento.

Ho dovuto come prima cosa trovare un sito che avesse pubblicato la classifica per ciascuna delle 38 giornate del campionato, quindi approntare un programma di web scraping per prelevare tutti i dati, e infine realizzare il grafico replicando lo schema che avevo scelto adattato in alcuni particolari.

la moda dei nomi

pietre-colorate

Nell’aggiornare i dati della mia visualizzazione su popolarità e tendenza dei nomi in Italia all’ultima statistica fornite dall’Istat, ho deciso di dedicare un po’ di tempo ad approfondire il significato che avevo attribuito al termine di tendenza per misurare l’effetto di una moda.

Nel mio articolo di presentazione, avevo brevemente definito la tendenza di un nome come l’intensità con cui negli ultimi cinque anni ha visto crescere o diminuire costantemente (in termini percentuali) la propria diffusione. Il concetto sottinteso è che la genesi (o l’abbandono) di una moda è descritta dal modello di crescita (o decrescita) esponenziale a tasso costante x%, secondo il quale, fatti 100 i casi attuali, se ne avranno 100+x (o 100-x) il periodo successivo.

la legge delle scommesse democratiche

logo fifa 2018
L’altro giorno scorrendo la cronologia delle battute sul mio profilo twitter fa ho scoperto due modelli scientifici di previsione dei risultati dei mondiali di calcio che rendono pubblici i loro pronostici: quello di alcuni ricercatori di economia dell’università di Rennes e quello di FiveThirtyEight, la società di Nate Silver. Sono peraltro sicuro che ce ne siano altri.

Entrambi i modelli usano i dati statistici della serie storica delle partite giocate da ciascuna nazionale negli ultimi decenni per simulare il risultato di tutti gli incontri previsti dal calendario e determinare così le probabilità di superamento della fase a gironi e di ciascun turno in quella a eliminazione diretta, differenziandosi nel modo in cui dai dati statistici si passa alle simulazioni degli incontri.
Il metodo predittivo di Fivethirtyeight è più analitico perché oltre alle statistiche di partite passate (numero di gol, tiri in porta, azioni, eccetera) considera quelli dei giocatori (numero di minuti giocati in ogni singola partita) per costruire per ciascuna squadra due indici compositi di attacco e di difesa, che vengono poi convertiti in numero di potenziali gol fatti e subiti. A chi è interessato consiglio la lettura della pagina che descrive in dettaglio il metodo di previsione, molto chiara ed esauriente.
Il metodo dell’Università di Rennes invece usa i soli risultati delle partite passate, dandoli in pasto poi a non meglio precisati algoritmi di intelligenza artificiale, la cui caratteristica è quella di aggiornare le previsioni ogni volta che vengono acquisiti nuovi risultati.

Confesso di non essere un fanatico dir questi modelli predittivi, dubitando della loro efficacia, perché credo che ogni singola partita possa essere determinata da uno o più imponderabili episodi di gioco che sfuggono a qualunque previsione, anche dei commentatori e degli esperti dell’ambiente più attenti e informati. O, detto in parole più tecniche, perché ogni singola partita è come un campione troppo piccolo per far emergere nettamente il segnale rispetto al rumore.

Tuttavia vorrei approfittare dell’attuale divulgazione di questi modelli per esporre un’idea che ho da tempo sulle previsioni che offrono.

perché l’attuale dinamica migratoria impoverisce tutti

migranti.jpg

cortesia di Radio Alfa

Se da un lato il tema dell’immigrazione raccoglie opinioni fortemente polarizzate, da un punto di vista strettamente matematico le cose sono molto più semplici: l’attuale ondata migratoria di cui siamo testimoni impoverisce tutti: sia il nostro paese, che riceve i migranti, che i paesi di partenza, da dove se ne vanno.

Si tratta di una conclusione che poggia su un argomento noto da tempo come effetto di Will Rogers, la cui dimostrazione è alla portata di tutti dato che non richiede nessuna conoscenza matematica approfondita, e proprio per questo mi stupisce che nessuno l’abbia mai presentata finora. O almeno, io non l’ho mai letta, e mi propongo qui di riparare a questa lacuna.

Per introdurre tale dimostrazione, occorre osservare in via preliminare che i fenomi fenomeni migratori non sono tutti uguali ma possono distinguersi secondo diverse caratteristiche: per esempio, il contesto geopolitico, economico, sociale, eccetera, dei paesi coinvolti.

Qui in particolare mi interessa classificare i fenomeni migratori secondo due variabili: il livello medio di ricchezza che sono in grado di produrre i migranti nei paesi che lasciano e in quelli che li ospitano. Espliciterò per semplicità tali variabili solo secondo due livelli: sopra la media e sotto la media, così da arrivare alla suddivisione descritta nella tabella che segue.

da Achille a Zoe


Il sito dell’Istat ha una pagina dedicata alle statistiche sui nomi dei bambini nati negli anni più recenti, che riporta l’elenco di quelli più diffusi e, una volta selezionato un singolo nome, visualizza il numero dei bambini che hanno avuto quel nome in ciascuno dei quasi ultimi vent’anni e il relativo grafico. Un servizio utile ai curiosi di onomastica e forse anche ai futuri genitori che sono indecisi sul nome da scegliere.

Quando l’ho vista per la prima volta ho pensato che sarebbe stato interessante usarne i dati per costrire una panoramica più generale, che permettesse per esempio di confrontare l’evoluzione nel tempo della popolarità di due o più nomi, o di evidenziare quelli che nel corso degli anni sono diventati più di moda, o sono caduti in disuso.

Il contatore dell’Istat è limitato ai 50 nomi più frequenti ma intervenendo sul codice della pagina è possibile ottenere i dati relativi a tutti i nomi assegnati ai nuovi nati, anche quelli meno usati.

Così, dopo avere scaricato, riordinato e rielaborato tutti i dati disponibili, e dopo avere testato diversi modelli grafici, mi sono concentrato su una particolare rappresentazione visuale, che ho finalmente terminato di implementare.
La figura nell’immagine qui sotto ne offre un’istantanea, anche se per apprezzarne l’interattività conviene provare l’applicazione dal vivo disponibile a questa pagina.

due su tre non per sfortuna ma per forzatura


Da La Repubblica del 2 gennaio 2015:

cortesia di crafty_dame

In molti casi ammalarsi di cancro è solo un fatto di sfortuna e non di stile di vita. […]
Due terzi dei tumori sarebbero infatti dovuti a mutazioni legate al puro caso […], piuttosto che a stili di vita sbagliati come il fumo. Solo un terzo sarebbe invece legato a fattori ambientali o predisposizioni ereditarie. In sintesi, il 66% dei tumori è pura sfortuna, ossia sembrano apparentemente incomprensibili perché si verificano in assenza di comportamenti a rischio.

Così vengono riassunti i risultati della ricerca condotta alla Johns Hopkins School of Medicine del Maryland cui negli ultimi giorni la stampa ha dato tanta eco. Tutti i siti informativi si esprimono in modo praticamente identico, riportando che due tumori su tre sarebbero da attribuire alla sfortuna. E la cosa, almeno fuori dall’Italia, ha generato non poche discussioni.

i mondiali di calcio nell’era dei big data

Percentuale di possesso di palla, numero di tiri in porta e distanza percorsa sul campo da ciascun giocatore: sono solo alcune delle statistiche mostrate in sovraimpressione durante le telecronache delle partite di calcio, grazie alle numerose telecamere che scandagliano il campo da gioco senza soluzione di continuità.

L’enorme abbondanza di dati che le nuove tecnologie mettono a disposizione consente di confrontare anche graficamente i profili dei giocatori più famosi secondo le metriche più disparate, di costruire indici per valutare la loro forza, quella dei club di loro appartenenza e delle nazionali che partecipano ai mondiali di calcio.

Alcuni di questi indici sono stati e sono impiegati per prevedere i risultati delle partite dei mondiali di calcio in corso di svolgimento interattivamente, man mano che questo procede: tanto per citare qualche esempio, l’indice SPI sul sito FiveThirthyEight di Nate Silver, lo statistico che ha predetto esattamente il risultato delle ultime presidenziali statunitensi, l’algoritmo Power Rank di chartball, da cui è tratta l’immagine di fianco, e il progetto dell’Università di Berlino che è interessante anche perché consente di personalizzare i criteri in base ai quali simulare le partite.

Tutte queste iniziative mi hanno fatto tornare alla mente un racconto che ho scritto per diletto eoni fa, quando ero ancora un adolescente, proprio sull’impiego di quelli che oggi chiameremmo big data nella previsione del risultato dei mondiali. Mi sono messo a cercarlo e l’ho ritrovato nei meandri dei miei archivi. Lo ripropongo tale e quale, pur con i mille difetti che ha e tutta l’ingenuità che può dimostrare a distanza di tanto tempo (insomma, tanto per intenderci, si era ai tempi dei primi personal computer). Ho cambiato solo il nome di due squadre in modo che possa essere letto, nel limite del possibile, come attuale anche in questi giorni, a mondiale brasiliano ancora in corso. Perdonate il mio gesto nostalgico. :)

Chi vincerà i mondiali di calcio

Chiamò l’ascensore che doveva portarlo al diciottesimo piano, ai laboratori di ricerca di cui era direttore. Quella mattina si sentiva particolarmente stanco, più del solito; del resto, la sera precedente aveva anche fatto molto tardi in ufficio. Il lavoro negli ultimi tempi lo attraeva poco, non riusciva più a suscitare in lui gli entusiasmi che in gioventù lo rendevano così attivo e infaticabile. E poi, ancora tre mesi e sarebbe andato in pensione. Ormai aspettava solo quel momento.

analisi dei commenti spam su WordPress

Nella sezione in inglese: launch of wordpress spam analytics, la descrizione di un pannello a tre sezioni che rappresentano graficamente dimensioni (provenienza, distribuzione termporale e destinazione) dei commenti spam su questo blog, interattivamente e in tempo reale.

E’ possibile accedere direttamente alla pagina del pannello all’indirizzo https://www.antoniorinaldi.it/spam-analytics/.