Wanneer je wilt leren over datavisualisatie dan zijn hier verschillende manieren voor. Eén van deze manieren is het zoeken naar voorbeelden die je aanspreken. Deze voorbeelden kun je vervolgens tot in detail bekijken en emuleren. Op die manier kom je er achter wat je aanspreekt in een visualisatie en op welke manier je bepaalde technieken kunt toepassen in je eigen visualisaties.
Het omgekeerde is ook waar: je kunt ook leren van visualisaties die je niet aanspreken. Dit kan komen doordat de gebruikte stijl niet jouw smaak is, maar ook doordat de visualisatie ronduit fout is. Dit biedt je de kans om een eigen variant op de gebruikte grafiek te maken. Op die manier kun je leren van andermans fouten en hoef je ze zelf niet eerst te maken.
Hieronder heb ik vijf visualisaties beschreven die mij veel hebben geleerd. Van deze visualisaties heb ik geleerd kritisch te kijken naar de data, de manier waarop de data wordt vormgegeven en de mogelijke alternatieven die er zijn.
Opvallend detail: drie van de vijf visualisaties zijn taartgrafieken (met een gat). In twee gevallen worden ze juist ingezet, in alle drie de gevallen geven ze een onjuist beeld af.
Gebruik van marijuana in Amerika
De eerste visualisatie kwam afgelopen week langs op Twitter. Het gaat hier om een onderzoek van CBSN naar het gebruik van marijuana onder Amerikanen. Uitkomst van dit onderzoek is dat het gebruik van marijuana onder Amerikanen tussen 1997 en nu is toegenomen van 34% naar 51%. Voor de presentatie van de resultaten is de volgende vormgeving gekozen:
Door het gebruik van de taartgrafiek is het lastig om in één oogopslag te zien wat er wordt getoond. Er zijn namelijk een aantal opmerkelijke keuzes gemaakt:
- Het totaal van de drie taartpunten telt niet op naar 100%
- De taartgrafiek begint op een willekeurige positie in plaats van om 12 uur
- De drie gekozen periodes (1997, 2018 (vorig jaar) en 2019 (vandaag)) lijken geen verband te houden tot elkaar
Daarnaast heeft de gebruikte een grote foutmarge waardoor het mogelijk is dat zowel vorig jaar als dit jaar beide uitkomen op 47% (een afwijking van 4%), wat niet langer een stijging is
Bij het maken van een remake zou het logischer zijn om als eerste een ander grafiektype te kiezen. De meest voor de hand liggende visualisatie is, aangezien het gaat over tijd, het gebruik van een lijngrafiek. Echter is er geen data bekend tussen 1997 en 2018 waardoor je een vreemd resultaat krijgt:
Een logisch alternatief is het gebruik van een staafgrafiek. Hierbij wordt de volgorde bepaald door de jaren en is slechts één kleur van toepassing:
Mocht je toch op enig moment een taartgrafiek hebben die optelt tot meer dan 100%, laat je dan inspireren door dit voorbeeld van XKCD:
Salaris slagmannen in 2018
De volgende visualisatie doet een aantal zaken goed maar bevat ook één hele vreemde keuze. De keuze voor de staafgrafiek is goed gemaakt en na de grafiek goed bekeken te hebben wordt ook de sorteervolgorde duidelijk: op basis van het aantal homeruns. Het gebruik van de afbeeldingen van de spelers kan gezien worden als #junkchart, maar het maakt het geheel wel persoonlijk.
Vreemd is de keuze die is gemaakt voor de breedte van de verschillende staven. In eerste instantie lijkt deze te zijn gemaakt op basis van het salaris, maar deze zijn compleet uit balans (met name voor de nummer 2, Aaron Judge):
Wanneer de staven werkelijk naar verhouding gepresenteerd worden ziet het resultaat er als volgt uit:
Belasting aan de pomp
De nieuwszender Fox uit Amerika heeft het niet op met presidenten als Obama en Clinton. Berichtgeving tijdens de ambtstermijn van Obama is dan ook wel eens vertekenend, zo ook dit voorbeeld uit 2012:
In de visualisatie gaan een aantal zaken verkeerd, naast de overbodige #junkchart:
- Het aandeel Federal van 18 cent is visueel groter dan het aantal State (23 cent) en State & local (30 cent)
- Het totale aandeel belastingen neemt visueel 40% in van de visualisatie terwijl het nieuwsbericht het heeft over een aandeel van 20%
- Bij het narekenen van de cijfers blijkt het aandeel belastingen 15% te zijn en niet de eerder genoemde 20%
Een remake van deze grafiek, waar de overbodige opsmuk uit is gehaald, ziet er zo uit:
Bij het verder verdiepen in deze grafiek blijkt niet alleen de visualisatie onjuist te zijn maar ook de gepresenteerde cijfers:
- Het aandeel belastingen door de staat is twee keer geteld
- Het aandeel belastingen zit al in de gemiddelde prijs voor benzine
Fox heeft nog veel meer van dit soort onjuiste grafieken de wereld in geholpen. Op de website van Media Matters vind je een interessant overzicht.
Uitslag stemming Engeland
Met de Brexit in het vooruitzicht stemmen ze in het Britse Lagerhuis regelmatig. Het is me dan ook niet helemaal duidelijk over welke verkiezingen de volgende visualisatie gaat, maar ik vermoed die van het Britse Lagerhuis in 2017. De exit poll is in ieder geval groot op de voorpagina van The Sun geplaatst:
Om de verhouding tussen Labour en Tories duidelijk te maken is ervoor gekozen om deze twee naast elkaar uit te lijnen. Dit is een slimme keuze omdat deze hierdoor snel te vergelijken zijn. De gebruikte taartgrafiek en bijbehorende attributen bevat echter ook een aantal opvallende fouten:
- Het aantal van 14 voor de liberaal democraten (Lib Dems) is visueel groter dan het resultaat voor SNP (34) en overig (22)
- UKIP heeft 0 zetels behaald en toch een aandeel gekregen in de grafiek (wat ook nog eens groter is dan het aandeel van overig)
- De volgorde van de “legenda” is anders van de volgorde van de delen in de grafiek
Je zou haast denken dat de visualisatie iets anders tot uiting probeert te brengen dan het aantal zetels.
Naast deze fouten was The Sun ten tijde van de verkiezingen pro-Tories. Je zou dan ook kunnen denken dat ze de partij van Theresa May gunstig willen laten uitkomen. Door de gemaakte fouten gebeurt juist het tegenovergestelde. Een eenvoudige remake van de visualisatie geeft een ander beeld:
Toerisme
Uit deze lijst van visualisaties is deze laatste variant de meest eenvoudige. Het tot uiting brengen van slechts één percentage in een taartgrafiek moet niet heel moeilijk zijn. Toch is het de makers van de volgende visualisatie gelukt om de mist in te gaan (inclusief een onjuiste bronverwijzing):
De score van 75% was blijkbaar niet hoog genoeg en visueel moest dit resultaat nog een stukje aantrekkelijker worden gemaakt. Het effect is dat de oplettende lezer de vreemde verhouding opvalt en daardoor niets meekrijgt van de echte boodschap. Een eenvoudige remake van deze grafiek ziet er als volgt uit:
Ongetwijfeld ken je zelf ook wel een aantal van dit soort visualisaties. Welke ben jij onlangs tegen gekomen en wat heb jij kunnen leren van andermans fouten?
Dennis de Kock is BI consultant bij ProAnalytics. Dagelijks helpt hij organisaties bij het implementeren van Business Intelligence oplossingen. Daarnaast houdt hij zich bezig met zijn persoonlijke ontwikkeling en data visualisatie.
Eén reactie