un grafico a bolle di intensità per tabelle a doppia entrata

Avrei dovuto scrivere questo articolo subito dopo il suo naturale predecessore. E invece tante idee, tanti progetti si sono confusi, sovrapposti e scavalcati tra loro, così che sul blog ho finito per occuparmi d’altro, senza peraltro la continuità e l’approfondimento desiderati. Detto in altre parole, soffro di procrastinazione cronica.

Anche se a distanza di tre anni è inevitabile riprendere l’argomento in maniera un po’ diversa da quella iniziale, la premessa rimane sempre valida: grafici diversi rispondono a esigenze di analisi diverse e interpretano viste diverse di una tabella a doppia entrata.

Mentre allora ho discusso di grafici che interpretano la lettura di una tabella a sezioni orizzontali, ovvero per righe, e a sezioni verticali, ovvero per colonne, ora mi propongo di illustrare le rappresentazioni grafiche simmetriche, cioè quelle che non vengono alterate invertendo il ruolo di righe e colonne e quindi le variabili che le intestano sono trattate alla pari.

Le figure seguenti mostrano quattro esempi di diverse rappresentazioni grafiche simmetriche per tabella a doppia entrata: il diagramma di flusso, la mappa di calore, il diagramma di variazione e la matrice grafico a bolle. Le ultime tre sono le più usate per la loro semplicità, perché ripropongono in sostanza la medesima griglia tabellare dei dati originali, sostituendo i valori in ciascuna cella con rettangoli o bolle di colore (l’una) o area (le altre due) ad essi proporzionale.

Rispetto a questi grafici conosciuti, io presento di seguito una combinazione della matrice di bolle con la mappa di calore che usa una particolare formula per incorporare nel colore un’informazione utile a confrontare le percentuali di colonna e le percentuali di riga. Più che una proposta è una sfida dato che da più parti i grafici a bolle sono ferocemente criticati. Soprattutto per la nostra ridotta capacità di misurare e confrontare le aree (che traducono i valori nei grafici a bolle) al posto delle altezze (che traducono i valori nei grafici a barre), e per l’ambiguità insita nella misurazione e nel confronto delle bolle (dovremmo valutarne le aree ma inconsapevolmente saremmo portati a confrontarne i diametri).

Nella mia proposta, il colore di ciascuna bolla viene assegnato confrontando i valori percentuali di riga e e colonna con quelli medi: il verde indica un valore percentuale uguale a quello medio, tonalità verso l’azzurro valori sotto la media e tonalità verso il rosso valori sopra la media.

Vediamolo per capirci in un caso concreto. La seguente tabella riporta il numero di stranieri residenti nelle dodici province lombarde suddivise per le dieci nazionalità più numerose, al 31 dicembre 2010 (i dati censuari e postcensuari ancora non sono disponibili).

  Milano Brescia Bergamo Varese Monza Mantova Pavia Como Cremona Lecco Lodi Sondrio totali
Romania 38608 20683 14758 7022 10913 13607 6792 9510 5337 6229 3174 1085 137718
Marocco 18221 20507 21143 9752 7248 4701 8198 4964 5642 2601 4305 1963 109245
Albania 22713 20348 13179 11581 6267 7183 4152 3775 4119 2910 2970 596 99793
Egitto 42280 5410 2754 1076 2451 3867 218 2263 1007 2313 752 97 64488
Filippine 40141 1993 889 813 894 717 403 153 1893 232 219 21 48368
India 2101 15142 9302 672 316 563 9054 6957 289 1223 544 209 46372
Cina 24666 5171 3088 2162 1460 1328 4596 972 1168 417 414 581 46023
Perù 30055 758 1105 2300 3342 1293 71 614 1022 796 887 118 42361
Ucraina 13003 7228 4299 3693 3667 3237 1842 853 2137 466 686 511 41622
Ecuador 26268 501 1718 2749 4361 1983 80 461 1104 1117 713 51 41106
totali 258056 97741 72235 41820 40919 38479 35406 30522 23718 18304 14664 5232 677096

Prima di vedere il grafico, facciamo un ragionamento sulla prima cella interna della tabella, vedendola prima come elemento della sua colonna e poi come elemento della sua riga.
La percentuale dei Romeni in provincia di Milano rispetto a tutte le nazionalità considerate è 38608 : 258056 ≈ 15,0%, mentre in tutte le province lombarde è 137718 : 677096 ≈ 20,3%. Poiché 15,0% : 20,3% ≈ 0.74, il peso dei Romeni in provincia di Milano è inferiore del 26% rispetto al loro peso medio regionale.
La percentuale dei Romeni in provincia di Milano rispetto ai Romeni in tutta la Lombardia è 38608 : 137718 ≈ 28,0%, mentre la percentuale degli stranieri delle nazionalità considerate in provincia di Milano rispetto a quelli in tutta la Lombardia 258056 : 677096 ≈ 38,1%. Poiché 28,0% : 38,1% ≈ 0.74, il peso della provincia di Milano tra i Romeni è inferiore del 26% rispetto al suo peso medio tra tutti gli stranieri considerati.
Non è una coincidenza. Si può infatti verificare che le due percentuali coincidono per tutte le altre celle della tabella. Ciò succede perché, per qualunque A, l’uguaglianza AB : CD = AC : BD è sempre verificata. Quindi valori inferiori alla media calcolata per righe sono anche inferiori alla media calcolata per colonne, e viceversa, valori superiori alla media calcolata per righe sono anche superiori alla media calcolata per colonne.

Utilizzando le sfumature dal verde all’azzurro e dal verde al rosso (passando per il giallo) per indicare scarti negativi crescenti e scarti positivi crescenti dalle percentuali medie, si ottiene il grafico corrispondente alla tabella di sopra.

Dimensione e colore delle bolle rappresentano dunque la loro importanza assoluta e relativa, permettendo di identificare istantaneamente, ad occhio, i valori più grandi e quelli che più si discostano dai valori medi, ovvero quelle nazionalità che più caratterizzano le varie province e, simmetricamente, quelle province dove più si concentrano gli stranieri della varie nazionalità (chi conosce i test statistici dovrebbe a questo punto avere notato il parallelismo con i termini della sommatoria nella statistica G2… in pratica il grafico è l’immagine del test del rapporto di verogimiglianza per l’ipotesi di indipendenza).

Così, per esempio, si può osservare che gli Indiani sono presenti, sia in termini assoluti che relativi, soprattutto in quattro province; che in provincia di Sondrio i Marocchini pur essendo poco numerosi hanno un peso maggiore che nelle altre province; che la dimensione delle due bolle corrispondenti a Romeni e Filippini in provincia di Milano si equivalgono, ma il colore della prima indica che i Romeni sono meno presenti che altrove, mentre il colore della seconda indica che essi sono concentrati molto più che nelle altre province. Tutte queste osservazioni sarebbero risultate impossibili in un semplice grafico a bolle monocolore.

Si potrebbe obiettare, sulla falsariga di quanto già visto in precedenza, che questa rappresentazione contiene troppe informazioni difficili da decodificare; determinerebbe cioè un sovraccarico di informazioni.

Per rispondere a questa osservazione mi sembra utile confrontarla concretamente per la tabella in esame con una rappresentazione alternativa molto apprezzata: gli small multiples (in italiano potrebbero chiamarsi stampati o figurine, ma a quanto mi risulta nessuno si è preso la briga di tradurre il nome), ovvero una griglia di piccoli grafici ciascuno dei quali rappresenta una riga o una colonna della tabella. Dato però che non si tratta di una rappresentazione simmetrica, riporto qui di seguito sia gli small multiples delle righe che quelli delle colonne. Per sostituire la funzione del colore come facilitatore del confronto con i valori medi ho sovrapposto in ciascun grafico la distribuzione della riga o colonna dei totali a quella delle singole righe e colonne.

Si possono derivare le stesse osservazioni precedenti, osservando, nella tabella delle province o in quella delle nazionalità, quali sono gli indicatori colorati più a destra (che rappresentano le presenze assolute e percentuali più consistenti) e la loro posizione relativa rispetto agli indicatori grigi (che rappresentano le presenze medie).

Come ho detto, le due rappresentazioni grafiche non sono perfettamente equivalenti. La matrice di bolle offre una vista globale della tabella, mentre gli small multiples la sezionano per righe e colonne. In questi ultimi quindi confronti di valori che stanno in righe e colonne differenti non sono possibili, se non indirettamente. Per esempio per verificare che il Marocco in provincia di Sondrio, pur rappresentando la nazionalità più numerosa, è in termini assoluti molto esigua rispetto alle altre province, occorre fare astrazione mentale spostandosi dalla tabella della provincia di Sondrio a quella del Marocco. Insomma, se da una parte c’è un potenziale sovraccarico di informazione dall’altro c’è il rischio opposto di una possibile dispersione dell’informazione.

Sicuramente gli small multiples permettono un confronto tra le singole righe e colonne molto più preciso che nella matrice a bolle colorate, sia perché misurare le lunghezze relative dei segmenti è più facile che misurare la grandezza relativa delle aree circolari, sia perché le tonalità di colori offrono solo un’indicazione approssimativa dello scarto rispetto al valore neutro del verde.

Tuttavia se l’obiettivo principale della rappresentazione grafica è la ricerca veloce degli elementi prevalenti o caratteristici, questo difetto non costituisce un problema. La matrice di bolle colorate appare uno strumento comodo almeno nella fase esplorativa dei dati e utile a decidere in che direzione proseguire l’analisi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.