# visualizing the central limit theorem /2

Several different sources (starting from Wikipedia) state that the Galton box is a (visual) demonstration of the Central Limit Theorem. This claim is actually bothering me a little because this result is only incidental.

Indeed, the Galton box simulates the outcomes of a binomial variable by dropping several balls across an interleaved grid of pegs, showing that when the number of balls becomes large their bottom arrangement yields a very good approximation of binomial distribution. In other words, it represents an empirical proof of the Law of Large Numbers.
On the other hand, my previous visualization shows that increasing the number of trials in a sequence of theoretical binomial distributions the normal one comes into view very quickly. This is the real sense of the Central Limit Theorem, in its simplest version. And the reason why the Galton machine works.

Let me rephrase the above distinction formally by writing that if Fm(Xn) is the sample distribution of a collection of n binomial variables which count the number of successfully events having constant probability p in m trials, then it holds, with some abuse of notation:

The first relation describes the Law of Large Numbers; the second one the Central Limit Theorem.

If you think about them statically, the Galton box points out that for a large value of n, even a moderate value for m is enough to obtain a sample distribution very close to the normal one.

But here I insist that the key word to really appreciate the meaning of the two laws is: convergence. From this point of view, in my opinion there is a misunderstanding about the Galton box: it refers to the former law but it is credited to the latter: increasing the number of the balls more and more, their distribution gets closer and closer to the binomial distribution, whose approximation to the normal one is good but it cannot get better because the number of peg levels doesn’t change.

Is it possible to imagine a different mechanism to highlight the distinction between the two convergence laws?

# buona la prossima

cortesia di Wikipedia

#### Cristiano Ronaldo alla ricerca del primo gol italiano: le statistiche ‘condannano’ il Sassuolo[, prossima avversaria della Juventus]

La tempistica e la statistica suggeriscono che ‘CR7’ si sbloccherà con il Sassuolo: la prima rete ai neroverdi è data a 1,35. La quota sale a 3,75 per un’altra settimana di digiuno, concluso nel match esterno contro il Frosinone, in programma il prossimo 23 settembre. Se fallisse anche questo appuntamento, ‘CR7’ avrebbe subito un’occasione di riscatto, appena tre giorni dopo, nel turno infrasettimanale contro il Bologna; anche se quest’ulteriore attesa, seppur minima, fa salire la quota fino a 12,00. E se invece Ronaldo aspettasse il primo big-match per lasciare il segno? Nel caso, il suo primo gol nella supersfida contro il Napoli, del 29 settembre, sarebbe un colpo da 35 volte la scommessa.

da CalcioNapoli1926.it, 11 settembre 2018

Sono un po’ imbarazzato a scrivere nuovamente dello stesso soggetto nel giro di pochissimo tempo, anche perché non sono e non voglio apparire un grande patito di calcio. Semplicemente, di tutti gli articoli che le parole chiave dei miei allarmi filtrano, è uno degli argomenti che mi offre più spunti di riflessione.

Comunque: il fatto che le quote siano crescenti non dipende dalla fiducia che gli scommettitori ripongono nella bravura di Ronaldo ma è invece la naturale conseguenza di una legge fondamentale delle probabilità.

# la salamandra calcistica

cortesia di EscherMath

#### Cristiano Ronaldo, statistica favorevole. Gol “garantito” alla 3ª giornata

Nelle 9 stagioni al Real Madrid, infatti, CR7 ha timbrato il cartellino alla 3ª giornata in ben 7 annate. In uno dei due match a secco, il portoghese ha comunque regalato un assist vincente mentre nell’ultima stagione madrilena era assente per squalifica. Inoltre, in 4 delle 7 partite a segno, Ronaldo veniva, come adesso, da un digiuno nelle prime due giornate di campionato e addirittura nel 2015/2016 si sbloccò impallinando per ben 5 volte l’Espanyol. 13 reti in totale alla 3ª giornata per il ragazzo di Funchal. I numeri parlano chiaro: contro il Parma, Cristiano è pronto a far esplodere il primo “siuuu” dell’era juventina.

da La Gazzetta dello Sport, 28 agosto 2018

#### Juventus, nessuna paura. CR7 ha segnato il suo primo gol solo 3 volte prima di settembre

La casella 0 alla voce gol di Cristiano Ronaldo alla Juventus ha fatto preoccupare il popolo bianconero che però può dormire sogni tranquilli grazie a una statistica. CR7 infatti è andato in gol soltanto in 3 occasioni nella sua carriera (18 stagioni) prima del mese di settembre. L’ultimo sigillo estivo è arrivato nel 2015, quando il Real Madrid vinse 2-0 contro il Cordoba.

da fanpage.it, 3 settembre 2018

Tra tutte le statistiche, quelle basate sui precedenti, ovvero su serie storiche che arrivano a contemplare eventi di anni e anni addietro, sono le più insulse. Possono anche apparire suggestive, ma il loro valore predittivo, ovvero la loro capacità di anticipare un evento futuro, è pressoché nullo. Tanto varrebbe fare un pronostico lanciando una moneta.

Ogni volta che ne leggo una come quelle citate mi viene in mente la stessa parola: gerrymandering. Il termine indica la pratica subdola da parte di un politico in carica o più in generale di un partito al governo di ridefinire i confini dei collegi elettorali in un sistema maggioritario in modo da rendere più facile la propria vittoria alle successive elezioni. Il termine fonde il nome del primo politico noto per averla messa in atto (l’americano Gerry) con le ultime sillabe del nome inglese della salamandra cui finiva per somigliare la mappa del collegio elettorale ridisegnato in maniera artificiosa sulla base della differente propensione al voto dei suoi residenti. Spero che l’immagine tratta da Wikipedia sia sufficientemente esplicativa.

# la moda dei nomi

Nell’aggiornare i dati della mia visualizzazione su popolarità e tendenza dei nomi in Italia all’ultima statistica fornite dall’Istat, ho deciso di dedicare un po’ di tempo ad approfondire il significato che avevo attribuito al termine di tendenza per misurare l’effetto di una moda.

Nel mio articolo di presentazione, avevo brevemente definito la tendenza di un nome come l’intensità con cui negli ultimi cinque anni ha visto crescere o diminuire costantemente (in termini percentuali) la propria diffusione. Il concetto sottinteso è che la genesi (o l’abbandono) di una moda è descritta dal modello di crescita (o decrescita) esponenziale a tasso costante x%, secondo il quale, fatti 100 i casi attuali, se ne avranno 100+x (o 100-x) il periodo successivo.

# la legge delle scommesse democratiche

L’altro giorno scorrendo la cronologia delle battute sul mio profilo twitter fa ho scoperto due modelli scientifici di previsione dei risultati dei mondiali di calcio che rendono pubblici i loro pronostici: quello di alcuni ricercatori di economia dell’università di Rennes e quello di FiveThirtyEight, la società di Nate Silver. Sono peraltro sicuro che ce ne siano altri.

Entrambi i modelli usano i dati statistici della serie storica delle partite giocate da ciascuna nazionale negli ultimi decenni per simulare il risultato di tutti gli incontri previsti dal calendario e determinare così le probabilità di superamento della fase a gironi e di ciascun turno in quella a eliminazione diretta, differenziandosi nel modo in cui dai dati statistici si passa alle simulazioni degli incontri.
Il metodo predittivo di Fivethirtyeight è più analitico perché oltre alle statistiche di partite passate (numero di gol, tiri in porta, azioni, eccetera) considera quelli dei giocatori (numero di minuti giocati in ogni singola partita) per costruire per ciascuna squadra due indici compositi di attacco e di difesa, che vengono poi convertiti in numero di potenziali gol fatti e subiti. A chi è interessato consiglio la lettura della pagina che descrive in dettaglio il metodo di previsione, molto chiara ed esauriente.
Il metodo dell’Università di Rennes invece usa i soli risultati delle partite passate, dandoli in pasto poi a non meglio precisati algoritmi di intelligenza artificiale, la cui caratteristica è quella di aggiornare le previsioni ogni volta che vengono acquisiti nuovi risultati.

Confesso di non essere un fanatico dir questi modelli predittivi, dubitando della loro efficacia, perché credo che ogni singola partita possa essere determinata da uno o più imponderabili episodi di gioco che sfuggono a qualunque previsione, anche dei commentatori e degli esperti dell’ambiente più attenti e informati. O, detto in parole più tecniche, perché ogni singola partita è come un campione troppo piccolo per far emergere nettamente il segnale rispetto al rumore.

Tuttavia vorrei approfittare dell’attuale divulgazione di questi modelli per esporre un’idea che ho da tempo sulle previsioni che offrono.

# comuni e giovani amministratori

cortesia di Ministero Difesa

Al via l’assemblea dei Giovani amministratori – In Italia sono 19.858, in maggioranza laureati alla ricerca di lavoro

dal sito Anci, 29 giugno 2018

Il comunicato stampa dell’Associazione Nazionale Comuni Italiani che riporta i principali risultati della ricerca sui giovani amministratori merita di essere commentato passo per passo perché è un campionario paradigmatico di quali conclusioni sbagliate, azzardate o immotivate si possono trarre dalla presentazione di semplici evidenze numeriche.

I giovani amministratori in carica al 4 giugno 2018 sono 19.858 e rappresentano il 19 per cento del totale degli amministratori comunali.

Devo preliminarmente segnalare che ho cercato di replicare l’analisi dell’Anci a partire dal database sugli amministratori locali pubblicato dal Ministero dell’Interno, senza peraltro riuscirci. In alcuni casi i valori numerici che ho ottenuto si discostano così tanto da quelli citate dall’Anci da stravolgerne il senso. Mi limiterò pertanto a commentare le considerazioni presentate nel comunicato prendendole per buone, senza metterne in discussione i numeri riportati.

In genere sono più preparati dei loro colleghi anziani avendo il 41 per cento in tasca un titolo universitario.

E’ un’affermazione un po’ forzata che presuppone che la preparazione derivi dal titolo di studio più che dall’esperienza lavorativa, che possono vantare le persone più anziane. Vorrei ricordare l’adagio che recita: la differenza tra la teoria e la pratica è molto più grande nella pratica che nella teoria.

# anche sei e mezzo va bene

Il voto da dare alla velocità di rete è tra il sei e il sette, in media, beninteso. Il problema è che gli operatori principali offrono una velocità che, nei nostri test, è risultata in genere tra i 5 e i 10 volte più alta […].

Iliad, la prova su strada, repubblica.it, 14 giugno 2018

E’ interessante fare qualche considerazione a proposito della scala usata nella prova su strada di repubblica.it per assegnare il voto alla connessione del nuovo operatore di telefonia mobile.

Innanzitutto, la scala non può essere lineare; cioè, i voti non sono proporzionali alla velocità rilevate. Anche ammettendo, infatti, di assegnare il voto 10 agli altri operatori, a Iliad, che ha, secondo quanto riportato, una velocità tra 5 e 10 volte più bassa, toccherebbe un voto 5 o 10 volte più basso, cioè compreso tra 1 e 2.

# il 50% a prima vista

Il blog di ultimoprezzo.it dà notizia dell’ultima offerta Carrefour, dopo quella che tempo addietro ho già commentato, sottolineando che le condizioni non la rendono così invitante come può apparire a prima vista.

In questa sede mi limiterò pertanto a integrare l’ottima analisi fatta dall’articolista del blog proponendo qualche semplicissimo calcolo aritmetico.

In termini percentuali, se ci si fermasse a guardare la cifra riportata in bella mostra nell’annuncio dell’offerta, si potrebbe pensare di ottenere uno sconto pari al 50% del valore del cellulare oggetto della promozione.

Ma non è così. Leggendo la didascalia si scopre che il 50% non è da considerarsi uno sconto e quindi come tale non viene decurtato dal prezzo da pagare. In realtà l’acquirente paga il prezzo pieno e riceve dei buoni da spendere successivamente nei punti vendita della stessa catena. Ragionando senza altre cautele si potrebbe calcolare che a fronte di un acquisto di 150 (di cui 100 in denaro e 50 in buoni) con un esborso di denaro pari a 100, si otterrebbe uno sconto pari a 50/150~33,3%.

Ma non è così (e due).

# dare i numeri sul var

cortesia di Raúl Pérez Lara

Nelle prime 20 giornate […] si sono disputate in totale 198 partite. In queste ci sono stati 55 cambi di decisione indotti dal VAR. Ci sono stati 10 errori gravi […].

Tiziano Pieri, ex arbitro di serie A, su ilsuddidiario.net, 8 gennaio 2018

Nelle prime 20 giornate di campionato, abbiamo contato 58 decisioni giuste prese con l’ausilio delle immagini […] contro le 26 decisioni sbagliate prese pur potendo avvalersi del supporto tecnologico. Un rapporto di due a uno, sicuramente migliorabile, che comunque deve far riflettere: nel 66% delle situazioni dubbie, dal Var è arrivato un assist a chi era in campo a fischiare evitando un errore.

il Corriere dello sport, 9 gennaio 2018

Il Var […] analizza sempre tutto […]. Soltanto in 70 […] casi, il Var ha interloquito con l’arbitro in campo e in 20 occasioni ha cambiato le decisioni del campo. Su 900 casi, in totale, sono stati commessi solo 5 errori quindi il bilancio è positivo.

Marcello Nicchi, presidente degli arbitri, su diariodelweb.it, 10 gennaio 2018

In 210 partite, quindi, sono state 1.078 le verifiche eseguite con la Var, verifiche che hanno prodotto 60 correzioni delle decisioni arbitrali, di cui 11 errate, incluse 7 che hanno influenzato il risultato. Si parla, quindi, di una percentuale di errore pari all’1%, rispetto ad una percentuale del 5,6% di errori senza VAR (0,28 errori a partita in media).

redazione di calcioefinanza.it, 15 gennaio 2018

Ecco in sintesi i numeri di questa (incompleta) rassegna stampa dell’ultima settimana:

sito ilsussidiario.net corrieredellosport.it diariodelweb.it calcioefinanza.it
fonte Pieri (ex arbitro) testata Nicchi (presidente arbitri) Rizzoli (designatore arbitrale)
giornate 20 20 20 19
partite 198 210
verifiche 900 1078
correzioni arbitrali 55 20 60
errori 10 26 5 11

Oltre a rendere evidente che anche nelle statistiche sugli errori ci sono invariabilmente degli errori (e forse una quota di pressapochismo, almeno in alcuni), è la dimostrazione che più dati non significa necessariamente maggiore precisione, e che in ogni operazione di classificazione, soprattutto se di eventi controversi, una certa componente soggettiva è ineliminabile.

Ma c’è una considerazione ancora più importante da fare.

# il mezzo vero come il falso

cortesia di Protezione Civile

La gente sta morendo e voi non vi rendete conto”. Questa, come scrive l’Ansa, una delle intercettazioni contenute nell’ informativa del nucleo ecologico dei Carabinieri di Pescara, rientrata nelle carte dell’inchiesta dell’hotel Rigopiano, dove il 18 gennaio scorso sono morte 29 persone sotto la valanga che ha travolto la struttura […].

Dello stesso tenore della frase [precedente, di un consigliere regionale], quella di [una funzionaria dell’] ufficio stampa della Provincia di Teramo, territorio in piena emergenza in quei giorni. “Qui conteremo i morti x carenza di soccorsi, forse non vi state rendendo conto”, scrive in un sms […].

da la Repubblica del 28 novembre 2017

Le notizie false sono scritte e pubblicate con l’intento di attrarre il lettore o indurlo in errore al fine di ottenere […] – spesso con titoli sensazionalistici, esagerati o palesemente falsi – la sua attenzione. Così recita Wikipedia.
Ma ci sono anche notizie vere, o meglio, notizie mezze vere perché occultano o snaturano una parte fondamentale dei fatti, che vengono scritte con il medesimo intento: suscitare la facile indignazione dei lettori.
L’articolo de la Repubblica è un caso paradigmatico, uno purtroppo tra i tantissimi che chi vengono proposti senza soluzione di continuità dagli organi d’informazione.

Per valutare correttamente gli episodi che la notizia (o non notizia) riferisce, occorre inquadrarli nel contesto in cui sono maturati: un evento meteorologico estremo che ha riguardato un intero territorio e ha obbligato gli enti deputati alla gestione dell’emergenza ad affrontare un numero molto alto di richieste di intervento.