MON 2 : Utilisation d'Excel dans l'analyse de données

Tags :
  • MON
  • 2023-2024
  • temps 1
  • Excel
  • Analyse des données
Auteurs :
  • Lucie Le Boursicaud

Dans ce MON l'objectif est d'apprendre à utiliser Excel dans le but d'analyser des données.

Niveau débutant

Aucun prérequis si ce n'est avoir Excel !

Introduction

Au sein de mon entreprise d'alternance beaucoup de fichiers Excel sont utilisés dans tous les services afin de faire du suivi de tâches, de réaliser des processus de relevé de prix ou encore d'analyser des données... Mon rôle en tant qu'alternante en digitalisation est de minimiser au maximum l'utilisation d'Excel en utilisant des applications collaboratives, nottament Power BI issus de la suite de Microsoft pour l'analyse des données. Je trouve donc pertinent de comprendre comment Excel fonctionne dans l'analyse de données afin de mieux comprendre l'utilisation d'Excel par les utilisateurs pour lesquels il m'arrive de créer des Power BI.

Sommaire

  1. Qu'est-ce qu'Excel ?
  2. Création d'une base de données sur Excel
  3. Nettoyage de données sur Excel
  4. Analyse de données sur Excel
  5. Visualisation de données
  6. Mise en application par l'analyse complète d'un jeu de données

Ressources et Outils utilisés

1. Qu'est-ce qu'Excel ?

Microsoft Excel, un logiciel de tableur faisant partie de la suite bureautique Office 365, présente des tableaux organisés en lignes et colonnes dans des onglets distincts appelés feuilles de calcul. Cette application intègre des fonctionnalités de calcul numérique, de représentation graphique, d'analyse de données, ainsi qu'une capacité de programmation grâce à son propre langage.

En tant qu'élément considéré comme le plus complexe au sein de la suite Office, Microsoft Excel offre une gamme variée de fonctionnalités, notamment :

Une autre caractéristique importante de Microsoft Excel est la possibilité de protéger une feuille de calcul avec un mot de passe, limitant ainsi l'accès non autorisé et les modifications indésirables.

Les fichiers générés par Excel sont généralement enregistrés aux formats .xls ou .xlsx pour les feuilles de calcul, et .csv ou .txt pour les fichiers contenant du texte.

2. Création d'une base de données sur Excel

Le plus souvent la base de données est le fichier Excel que les équipes utilisent pour suivre leurs données de programme mais elle peut aussi être sur papier, sous un format texte ou un format plus complexe. Une base de donnée est un élément indispensable pour trouver facilement et rapidement les données que l'on souhaite.

Comment créer une BDD sur Excel ?

Pour créer une BDD sur Excel on a besoin de 3 étapes :

Définir les lignes Chaque ligne correspond à un enregistrement. Le plus souvent cela correspond à un ensemble de réponses d'une collecte de données. Il est PRIMORDIALE que chaque enregistrement est un identifiant unique qui permette de remonter à la ligne en question. Le plus souvent on utilise une suite de nombre (1, 2, 3, 4,...).

Définir les colonnes Chaque colonne correspond à une information. On indique en haut de chaque colonne de cellule le nom de la variable informative par exemple auteur , date , durée , taille de la toile , type,...

Designer les colonnes La première colonne sera toujours l'ID de l'enregistrement. Les en-tête de colonnes sont uniques, courts et clairs. On peux rajouter si on le souhaite des en-tête supplémentaire pour définir des parties afin d'améliorer la lisibilité de la BDD.

Exemple : mini-BDD de peintures

Grace à la fonctionnalité de filtre il sera plus simple de naviguer dans des BDD plus imposantes.

Principes de bases

3. Nettoyage de données sur Excel

Maintenant que l'on sait créer une BDD sous Excel nous allons voir comment nettoyer des données c'est à dire à analyser la cohérence des données et à effectuer une triangulation avec d'autres informations. Le nettoyage de données permet d'avoir une base de données à jour sans risquer des erreurs d'analyse.

Il y a trois grand principes aux nettoyages des données :

Erreurs courantes faciles à rectifier

Exemples : Nettoyage de la mini-BDD peintures avec des erreurs et des doublons intégrés exprès

Sur cet exemple, pour toute la colonne durée j'ai demandé à ce que les cellules inférieures à 6à soit mis en rouge et pour toute la colonne représentation que les cellule en doublons soit mise en rouge.

Ces méthodes mettent en exerbe des comportements étrange sur les données néanmoins cela ne veut pas focément signifier qu'il y a une erreure. Il est tout à fait possible que deux peinture représente la même chose ou qu'une peinture soit bien plus longue à réaliser que la moyenne, il est important de garder un esprit critique lors du nettoyage des données.

Pour en savoir plus sur les outils disponibles pour le nettoyage des données : Nettoyer ses données.

4. Analyse de données sur Excel

Introduction

L'analyse des données permet de donner une interprétation aux données que l'on a relevé. Beaucoup de calculs sont possibles pour les variables de type nombre (effectif, minimum et maximum, moyenne et médiane, écartype et variance, somme,...) mais il faut choisir celles qui auront le plus de sens en fonction du cas que l'on étudie.

Statistique descriptives

On peut s'y pencher selon 3 axes :

Dénombrement, maximum et minimum

Exemple : Nombre de peintures qui ont nécessités plus de 2H de travail

Avec cette fonction les données manquantes sont automatiquement exclues de l'anlyse. Pour savoir combien de données manquent on peut utiliser la fonction NB qui permet de compter le nombre de cellules remplies. Il suffira donc de soustraire ce nombre au nombre total d'enregistrement dans la base de données.

5. Visualisation de données

Introduction

Une fois différentes analyses menées il est toujours plus parlant de pouvoir les visualiser pour les interpréter. En fournissant une représentation visuelle notre cerveaux appréhende plus naturellement des données. Afin d'utiliser une représentation adéquate il faut se poser deux questions:

Comment représenter des données quantitatives?

Il existe une variété de représentations statistiques mais toutes ne sont pas adaptés à nos données. Voici les trois grandes catégories :

Dans chacune en fonction du type et du nombre de variables que l'on souhaite réalisée différents sous-modèle sont plus ou moins appropriés.

Exemples : Il y a-t-il une corrélation entre le temps passé sur une peinture et son appréciation ?

Pour déterminer si il y'a une corrélation entre les deux données on peut tracer le nuage de points d'une variable par rapport à l'autre. On se rend compte qu'il n'y a pas nécessairement de tendance mise en lumière mais comme il s'agit d'un tout petit échantillon de données c'est plutôt normal surtout que les données ont été inventé. Sur de vraie jeux de données il est très utile d'analyse ce genre de comportement.

6. Mise en application par l'analyse complète d'un jeu de données

Afin d'appliquer les différentes notions vu précédemment j'ai décidé de télécharger une base de données à partir du site M DATA. Je me suis penchée sur une BDD sur la fréquentation des musées : Fréquentation des musées que j'ai téléchargé en format Excel.

Etape 1 : Mise en forme des données

Lorsqu'on ouvre le fichier voici ce que l'on obtient :

Télécharger le fichier Excel

Etape 2 : Analyse des données

J'ai travaillé sur plusieurs thématiques pour répondre aux questions suivantes :

Questions Intitulé
Q1 Quelle est la plus grande fréquentation tout compris, le musée associé et l'année ?
Q2 Quelle est la plus grande fréquentation gratuite, le musée associe et l'annnée ?
Q3 Quelle est la plus faible fréquentation non nulle tout compris, le musée associé et l'année ?
Q4 Quelle est la plus faible fréquentation non nulle gratuite, le musée associé et l'année ?
Q5 Quel est le pourcentage de la fréquentation totale attribuable aux visiteurs payants pour chaque musée ?
Q6 Quels musées ont eu une fréquentation gratuite supérieure à leur fréquentation payante en 2016 ?
Q7 Quels musées ont enregistré une baisse de la fréquentation totale de l'année 2015 à 2016 ?

On va utiliser les formules vues plus tôt afin d'analyser nos données. La première chose que je trouve intéressante est de chercher l'enregistrement possédant la plus grande fréquentation toutes années comprises. Pour celà je savais déterminer le maximum mais comment récupérer l'ID du musée correspondant ainsi que son nom et l'année de l'enregistrement ? Je me suis donc renseigné pour trouver la formule =RECHERCHERV. Seulement cette formule ne fonctionne que si la valeur rechercher se trouve dans la première colonne ce qui n'est pas le cas ici. J'ai donc du utilisé deux formules pour séquencer mon travail :

On obtient alors ce type de données pour les premières réponses :

Pour les quatres questions j'ai utilisé des feuilles de calculs à part car il s'agit de renvoyer plusieurs lignes et non pas une seule.

Q5 : Quel est le pourcentage de la fréquentation totale attribuable aux visiteurs payants pour chaque musée ?
Q6 : Quels musées ont eu une fréquentation gratuite supérieure à leur fréquentation payante en 2006 ?

On peut visualiser l'évolution de cette variable au fil des années :

Q7 : Quels musées ont enregistré une baisse de la fréquentation totale de l'année 2015 à 2016 ?

Je me suis demandé si on pouvait trouver les musées gratuits de la région en filtrant la colonne PAYANT sur la valeur 0. Et voici ce que j'ai obtenu :

Etape 3 : Visualisation des données

Maintenant j'ai envie de rendre mes données plus interprétables pour des personnes n'ayant pas travaillé sur la BDD.

Grâce à ces visualisations on peut remarquer qu'il y a une une augmentation significative de la fréquentation des musées entre l'année 2012 et 2013 : elle a quasiment triplé ! J'ai voulu me renseigner pour savoir à quoi cela était dû et j'ai trouveé cet article du Figaro Musées : un millésime 2013 riche en fréquentation. L'article parle d'une hausse de fréquentation dans toute la France et pas que dans les Bouches-Du-Rhônes. Un événément qui a sûrement permis de faire grimper les fréquentations cette année là c'est l'inauguration du MuCem à Marseille le 4 juin 2013. Comme le montre ce graphique, le MuCem était le musée le plus fréquenté cette année là et de loin:

Il représente à lui tout seul 51,64% des fréquentations de l'année.

On peut aussi constater l'impact de la crise du COVID qui a engendré une brutale chute des fréquentations des musées à partir de 2020.

J'ai aussi voulu comprendre le pic de 2006. Et voilà le graphique de cette année là :

Le Musée Granet a été réouvert cette année là après sa rénovation et son agrandissement ce qui a engendré une hausse significative des fréquentations.

7. Pour aller plus loin

Après avoir réaliser l'application sur la fréquentation des musées j'ai voulu voir ce qui était possible de réaliser en allant plus loin dans l'utilisation d'Excel. Pour ce faire je me suis appuyée sur la ressource de Zeste de savoir et plus particulièrement sur la partie Analyse des données et dynamisme du classeur. Je suis repassée très rapidement sur tout ce que j'avais déjà vu pour m'attarder sur une nouveauté : les tableaux dynamiques croisés.

Horodateur

Date Heures passées Indications
Mercredi 27/09 1H Choix des sources/cours à suivre et début de l'apprentissage
Jeudi 28/09 2H Création d'une BDD et nettoyage
Vendredi 29/09 1H Dénombrement, minimum, maximum
Mardi 03/10 2H Recherche d'une base de données à traiter et début de l'application
Mercredi 04/10 2H Application sur les fréquentations des musées
Mercredi 11/10 1H Application sur les fréquentations des musées
Jeudi 12/10 1H Pour aller plus loin