rappresentazioni grafiche di tabelle a doppia entrata /1

English version here

introduzione

Il grafico a barre è in moltissimi casi la soluzione più semplice e nello stesso tempo più efficace per rappresentare un insieme di valori (per esempio, la quantità – totale o percentuale – di energia prodotta e consumata per ciascuna fonte). Ma quando si hanno più insiemi di valori relativi alle stesse voci (per esempio, la quantità totale o percentuale di energia prodotta e consumata per ciascuna fonte, distintamente per diversi settori di impiego), esiste una rappresentazione grafica migliore, almeno in alcuni casi, della serie di grafici a barre affiancati?

Per cercare di rispondere a questa domanda in maniera articolata ma con un linguaggio, nel limite del possibile, molto informale, suddividerò la mia esposizione in più articoli, ciascuno dei quali dedicato alla presentazione di un diverso tipo di grafico applicato a casi reali.



Mi è utile esaminare a titolo di esempio una tabella già commentata e discussa in alcuni articoli di siti americani, che riporta la quantità di energia, espressa in milioni di miliardi di BTU, consumata negli Stati Uniti nel 2005 suddivisa per tipo di fonte e settore di impiego[1]:

settori di impiego petrolio gas naturale carbone nucleare fonti rinnov. totali (%)
trasporti 27.0 0.6 0.0 0.0 0.4 28.0
trasporti 67.2% 2.7% 0.0% 0.0% 6.5% 28.0 (28.0%)
trasporti 96.4% 2.1% 0.0% 0.0% 1.4% 100.0% 28.0
industria 9.6 7.9 2.0 0.0 1.4 20.9
industria 23.9% 35.0% 8.7% 0.0% 22.6% 20.9 (20.9%)
industria 45.9% 37.8% 9.6% 0.0% 6.7% 100.0% 20.9
utenza residenziale e commerciale 2.4 8.1 0.1 0.0 0.6 11.2
utenza residenziale e commerciale 6.0% 35.8% 0.4% 0.0% 9.7% 11.2 (11.2%)
utenza residenziale e commerciale 21.4% 72.3% 0.9% 0.0% 5.4% 100.0% 11.2
energia elettrica per uso pubblico 1.2 6.0 20.8 8.1 3.8 39.9
energia elettrica per uso pubblico 3.0% 26.5% 90.8% 100.0% 61.3% 39.9 (39.9%)
energia elettrica per uso pubblico 3.0% 15.0% 52.1% 20.3% 9.5% 100.0% 39.9
100.0% 100.0% 100.0% 100.0% 100.0% (100.0%)
totali 40.2 22.6 22.9 8.1 6.2 100.0
(%) (40.2%) (22.6%) (22.9%) (8.1%) (6.2%) (100.0%)

Per una siffatta tabella, è possibile considerare le seguenti viste:

  1. le colonne in formato percentuale, o percentuali di colonna (clic);
  2. la colonna dei totali di riga (clic);
  3. le righe in formato percentuale, o percentuali di riga (clic);
  4. la riga dei totali di colonna (clic1);
  5. l’insieme di tutti i valori nelle celle interne rapportati sia alle righe che alle colonne di appartenenza (clic1);

ma è difficile immaginare un grafico che riesca a rappresentare contemporaneamente in modo semplice tutti questi punti di vista. Vediamolo concretamente.

grafici a mosaico

In un articolo pubblicato su The Skeptical Optimist[2], i dati sono presentati in un grafico Marimekko, altrimenti detto a mosaico o a matrice:

Il grafico mette in risalto la vista 1. (i dati delle singole colonne sono rappresentati come istogrammi verticali impilati dentro ciascuna sezione verticale bordata) e la vista 4. (la riga dei totali di colonna è rappresentata dall’istogramma orizzontale impilato formato dalle sezioni verticali borsate); le altre viste possono essere ricavate solo indirettamente tramite il confronto di aree di rettangoli diversi.
Più precisamente, ogni totale di colonna definisce la larghezza della corrispondente sezione verticali, mentre l’altezza dei rettangoli sovrapposti in ciascuna sezione verticale è determinata dal corrispondente valore in tabella rapportato percentualmente al totale di colonna. Così, per esempio, la larghezza della prima sezione verticale corrisponde al peso relativo della prima colonna nella tabella (40.0/100.0=40%), mentre l’altezza del rettangolo grigio nella prima colonna corrisponde al peso relativo del primo valore nella prima colonna della tabella (26.9/40.0~68%).

Al grafico a mosaico si imputano tre difetti principali.

Primo. Chi guarda il grafico sarebbe portato a valutare solo all’area dei rettangoli in cui è suddiviso il contenitore, facendo fatica a interpretare il significato delle sue dimensioni (la base proporzionale al peso della colonna, l’altezza proporzionale al peso della corrispondente cella nella colonna). Il grafico conterrebbe insomma troppe informazioni per essere valutato correttamente.

Secondo. Risulta difficile leggere i dati per riga, perché occorre confrontare le aree di rettangoli di uno stesso colore ma di basi e altezze diverse. Allo stesso modo è difficile farsi un’idea della quota corrispondente a ciascuna riga, che richiede il calcolo mentale di una somma di aree. Per ovviare a quest’ultimo inconveniente, è stata proposta una variante[3] del grafico, riportata qui di seguito, che aggiunge, leggermente distanziata dal contenitore, una ulteriore sezione verticale dove i rettangoli sovrapposti corrispondono ai pesi percentuali dei totali di riga (la vista 3.).

Va notato che la larghezza, arbitraria, della sezione verticale dei totali di riga non ha alcun significato concreto a differenza di quella delle sezioni precedenti.

Terzo. Come in tutti gli istogrammi impilati, tranne che per la prima e l’ultima serie, è difficile valutare e confrontare le altezze (che, lo ricordo, corrispondono alle percentuali rapportate ai totali di colonna) di rettangoli che non sono affiancati e non hanno una base comune. Per esempio: nella seconda sezione verticale, è più alta la fascia verde o quella azzurra? è più alta la fascia azzurra nella prima sezione o nella penultima?

Le prime due critiche mi sembrano troppo severe. Per me non va dimenticato che di fronte a diversi possibili approcci all’analisi dei dati è del tutto legittimo e naturale sceglierne uno in particolare, e così succede per il grafico a mosaico che privilegia una lettura dei dati per colonna (esiste ovviamente una versione in orizzontale che interpreta una lettura dei dati per riga). Trovo poi molto azzeccata nel grafico originale la convenzione di marcare i bordi verticali più pesantemente di quelli orizzontali, per ricordare al lettore che le sezioni verticali vanno viste come entità separate. Così facendo, a me pare che nel grafico a mosaico vengano evidenziate prima di tutto le altezze dei rettangoli e le larghezze delle sezioni verticali, piuttosto che le larghezze dei singoli rettangoli che pure hanno un loro significato.

Condivido invece il terzo punto. In verità, anche io ho usato in passato, almeno una volta, il grafico a mosaico (o meglio, una sua variante[4] a sezioni separate, ma per una variabile ordinale per la quale ha più senso valutare le altezze complessive di sezioni sovrapposte che rappresentano frequenze cumulate, siano esse assolute o relative.

In virtù di queste argomentazioni, c’è chi invita a evitare sempre[5] il ricorso al grafico a Mosaico, chi suggerisce un’alternativa che prevede la presentazione dei dati suddivisa in quattro istogrammi[6], uno per ciascuna delle viste 1-4, chi ne propone altre[7],[8].

istogrammi a grappoli pesati

Concentrandomi sulla risposta al terzo punto, ho anche io una soluzione alternativa da proporre. Si tratta in sostanza di un grafico che ho già usato[9] in passato, anche se per una tabella più semplice. Eccolo applicato ai dati in esame:

  • in secondo piano, un istogramma semplice rappresenta la colonna dei totali di riga (vista 2.);
  • in primo piano, la serie colorata di istogrammi pesati rappresenta ciascuna singola colonna (vista 1.).

Tutte le altezze rappresentano percentuali; tutte le barre hanno la base in comune. Si evitano così i difetti tipici degli istogrammi impilati e misurazioni e confronti risultano semplici ed efficaci.
I grappoli, cioè i gruppi di istogrammi, in primo piano sono pesati nel senso che la larghezza delle barre verticali è proporzionale all’incidenza delle colonne nella tabella. Pertanto la base di ciascun grappolo di istogrammi pesati rappresenta la riga dei totali di colonna (vista 4.), come se fosse impilata orizzontalmente.
Anche in questo grafico l’area di ciascuna barra ha un significato, interpretando il valore della corrispondente cella rispetto al totale complessivo della tabella. Ma, più che suggerire confronti tra barre di diverso colore, che soffrirebbe degli stessi problemi descritti in precedenza, questo fatto dovrebbe evidenziare una caratterisrtica particolare del tipo di grafico: essendo la percentuale associata al totale di riga una media pesata dei valori di quella riga rapportata ai totali di colonna, la somma delle aree delle barre in primo piano corrisponde all’area della barra in secondo piano. In parole povere, ciò permette di valutare in che misura il valore di una cella incide sul totale di riga. Per esempio, nel primo gruppo a sinistra si vede che è il petrolio a determinare quasi interamente il consumo di energia per i trasporti. Mentre nel primo gruppo a destra l’energia nucleare, pur venendo destinata totalmente alla produzione di energia per i privati, ne rappresenta una quota quasi trascurabile.
L’istogramma a grappoli pesati può essere facilmente prodotto in Excel seguendo la stessa tecnica descritta in [10] per costruire il grafico a mosaico. Per completezza riporto anche la versione del grafico che distingue per ciascuna fonte i relativi impieghi, utilizzando gli stessi colori impiegati nel primo grafico a mosaico.

Ovviamente, usando colori diversi per ciascuna serie di dati, come nel grafico a mosaico, il suo uso è consigliabile per tabelle con un modesto numero di righe e colonne, come quella considerata finora. Per tabelle più corpose, è opportuno ricorrere ad altre soluzioni.
Ne parleremo ancora.

[1] I valori sono ricavati a meno di errori di arrotondamento a partire dallo schema in http://junkcharts.typepad.com/junk_charts/images/govt_energy.png.
[2] http://www.optimist123.com/optimist/2006/08/energy_facts_ce.html.
[3] http://peltiertech.com/Excel/Commentary/GraphicalEquity1.html.
[4] Anteprima. Link diretto: /wp/wp-content/uploads/2009/ann05-1.png oppure http://www.comune.seriate.bg.it/upload/seriate_ecm6/gestionedocumentale/05-personale_784_6039.pdf pagina 49.
[5] http://junkcharts.typepad.com/junk_charts/2009/05/spinning-multicolor-2.html.
[6] http://www.perceptualedge.com/example13.php.
[7] http://junkcharts.typepad.com/junk_charts/2009/05/spinning-multicolor-2.html.
[8] http://processtrends.com/toc_chart_doctor.htm.
[9] Anteprima. Link diretto: /wp/wp-content/uploads/2009/ann05-2.png oppure http://www.comune.seriate.bg.it/upload/seriate_ecm6/gestionedocumentale/05-personale_784_6039.pdf, pagina 53.
[10] http://pubs.logicalexpressions.com/Pub0009/LPMArticle.asp?ID=508

2 pensieri su “rappresentazioni grafiche di tabelle a doppia entrata /1

  1. Pingback: sei-uno-zero-nove » Blog Archive » data visualization for two-way tables /1

  2. Pingback: un grafico a bolle di intensità per tabelle a doppia entrata | sei-uno-zero-nove

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.