Qu'est-ce que la data visualisation ?

Mar 15, 2022

La data visualisation est une branche de la data science, c'est-à-dire l'extraction de connaissances à partir de données. En fait, nous faisons de la data visualisation depuis que nous sommes tout petits sans même le savoir. La représentation graphique de fonctions mathématiques que nous faisions à l'école, c'était déjà de la data visualisation, car cela consistait à associer une représentation graphique à un ensemble de données pour les rendre plus lisibles. La data visualisation, c'est donc cette science qui consiste à représenter un grand nombre de données sous forme graphique pour les rendre plus intelligibles. En extrapolant le raisonnement, le cerveau peut être considéré comme le premier expert en data visualisation, car il associe un ensemble de données physiques, en l'occurence les ondes lumineuses, en une représentation graphique de formes, de couleurs, de dégradés, pour constituer la vision.
Ci-dessous, un diagramme extrait de Wikipedia, qui situe la data visualisation parmi les sciences de la data :
Data Science

Les graphes

Concrètement, il existe un ensemble de graphes qui permettent de canaliser les données, pour en extraire les informations les plus importantes. L'aspect le plus crucial de la datavisualisation est de trouver le graphe le mieux adapté au type de données observées. Certains graphes permettent de représenter des données statiques, d'autres des données dynamiques. Enfin, certains sont destinés à des données temporelles. Arrêtons-nous sur quelques graphes.

L'histogramme, un classique des staticiens

Chaque colonne correspond à une classe, et permet de ranger les valeurs d'une variable. Simple, visuel, efficace, indétrônable.
Ci-dessous, le nombre de penalties tirés par des joeurs de foot :

penalties-joueurs-foot

Le diagramme sankey, idéal pour les flux

Le diagramme Sankey est un diagramme de flux où la largeur des flèches est proportionnelle au flux en lui-même. Il était initialement utilisé pour montrer l'utilisation et la déperdition de l'énergie dans les systèmes. Le graphes ci-dessous montre par exemple les sources d'énergie au Royaume-Uni, et leurs usages :

sankey-energy-uk

De façon plus originale, le français Charles Minard a initialement utilisé ce graphe pour représenter les effectifs des troupes napoléoniennes, lors des campagnes de Russie :

Graphe de Charles Minard

Le diagramme en arcs, pour identifier les relations entre des éléments

Le diagramme en arc est une façon originale de représenter les relations entre des éléments. Voici un exemple, qui permet de voir les relations entre la famille Stark et la famille Lannister dans la série Game of Throne :
arc-diagramm-Game-Of-Throne

Ou également, avec les arcs sur les deux côtés :
arc-diagramm-Game-of-Throne-2

La carte proportionnelle ou treemap

Un diagramme qui présente des surfaces carrés, de manière à identifier les proportions. Ce diagramme est très utile pour avoir une représentation des ordres de grandeur. Cela est notamment utilisé pour représenter l'occupation de la mémoire sur un ordinateur.
Ci-dessous une représentation des proportions des groupes d'instruments de musique, en fonction du type d'orchestre :

treemap-orchestra

Le groupement de données en hexagones ou "Hexagonal bining"

Les données sont retroupées dans des hexagones. Les couleurs permettent de quanitifier l'importance de chaque hexagone. Un dessin valant mieux que de longs discours, ci-dessous, les tirs du joueur de basket Kobe Bryant représentés en fonction de la position par rapport au panier :
hexagonal-bining-shot-Kobe-Brian

Le diagramme de Gant

Le diagramme indispensable de tous les chefs de projets, pour représenter l'évolution des activités dans le temps. À titre d'exemple, ci-dessous le diagramme de Gant des présidents et premiers ministres italients dans le temps :
President-Prime-minister-Italy

Heatmap ou carte de chaleur

Une représentation par "zone de chaleur" des régions les plus fréquentées. Cela peut être utilisé pour représenter la fréquence d'utilisation des lettres en fonction de la langue :
heatmap-letters

Diagramme Sunburst

Une version plus évoluée du camembert qui permet de représenter les hiérarchies et les proportions. Ci-dessous, nous pouvons voir la fréquence des arômes dans le vin :
wine-flavors-1

Les outils

Il existe de nombreux outils pour construire les graphes de data visualisation comme Excel, Power BI, Google Charts, D3js, Tableau, etc. Et ces outils sont de plus en plus utilisés pour traiter les milliards de données de notre époque. Si vous souhaitez en savoir plus dans les prochains articles sur la data visualisation, abonnez-vous à la newsletter !

Tags