Analyse de données

Tags :
  • cours
  • données
  • viz
  • python
Auteur :
  • François Brucker

Cours d'analyse des données. Il comporte deux parties, l'une consacrée à l'analyse classique de données décrites par des attributs réels et l'autre consacrée à la visualisation de données.

Le cours est sous la forme de notebooks Jupyter. Téléchargez le fichier de cours et utilisez le via Jupyter notebook (avec anaconda, vscode ou autre)

python -m pip install jupyterlab

Puis :

python -m jupyter lab

Méthodes d'analyse des données

L'ensemble des notebooks est disponible à cette adresse

Vous aurez besoin d'installer :

TBD : scikit-learn et statsmodels. Autre truc ?

Utilisation de pandas

TBD : tuto jupyterlab

Quelques moyens utile de manipuler des jeux de données avec la bibliothèque pandas.

  1. jeu de données utilisé naissances en France en 2020
  2. Premières manipulations
  3. Accéder à des données d'un dataframe
  4. Lecture de données

A vous

Deux notebooks à remplir en utilisant ce que vous avez vu en cours :

  1. premières manipulations
  2. Lecture d'un dataframe

Statistiques descriptives

  1. jeu de données utilisé épreuve d'analyse des données
  2. Statistiques descriptives
  3. Régression et corrélation (télécharger l'image du notebook)
  4. Autres régressions

TBD attentions les nouvelles versions de pandas ne font plus la corrélation si une colonne non numérique. Il faut changer le corrigé en utilisant la dernière version de pandas.

Analyse en composantes principales

TBD les preuves

  1. projection (télécharger l'image 1 et l'image 2 du notebook)
  2. ACP
  3. On s'entraîne (téléchargez les données) (corrigé)

Faite l'ACP :

Clustering

TBD les preuves

  1. Méthode de partitionnement, les $k$-means (téléchargez les données)
  2. Réduction de dimensions
  3. Méthodes hiérarchiques (téléchargez les données)

Les deux exercices suivant utilisent les méthodes de partitionnement, de MDS et hiérarchiques pour des données images ou textes. Ils montrent que l'on peut utiliser ces méthodes de façon astucieuses et/ou rigolotes.

Pour aller plus loin

Visualisation de données

Cette partie du cours est consacrée aux données cartographiques, et comment les utiliser pour faire des visualisations de données.

L'ensemble des notebooks est disponible à cette adresse

Nous aurons besoin de plusieurs bibliothèques python pour cette partie du cours :

Installer les packages suivants :

  • geopandas pour la gestion des données cartographiques : python -m pip install geopandas
  • geodatasets pour la gestion des données cartographiques : python -m pip install geodatasets
  • contextily pour les fond de cartes : python -m pip install contextily
  • osmnx qui permet de récupérer des données d'https://www.openstreetmap.fr/ et de les structurer sous la forme d'un graphe en utilisant la biliothèque networkx : python -m pip install osmnx
  • scikit-learn qui permettra de faire des calculs sur nos graphes: python -m pip install scikit-learn
  • folium pour gérer rapidement des cartes : python -m pip install folium
  • mapclassify pour utiliser la méthode explore de GeoPandas : python -m pip install mapclassify

sous anaconda

Pour installer tous les packages nécessaire pour ce cours (anaconda ne les connaît pas a priori), on va utiliser le terminal. Pour activer un terminal configuré pour fonctionner avec anaconda il faut :

  1. dans anaconda-navigator allez dans la partie environnement
  2. ouvre un terminal en cliquant sur le triangle vert de l'environnement base (root).

Une fois dans le terminal on peut installer nos packages :

  1. étape facultative : mettre à jour conda. Tapez la commande : conda update --all
  2. installez les bibliothèques nécessaires avec pip.
  1. Cartes de géographie
  2. CRS
  3. Geopandas
  4. OSM
    1. réseau routier
    2. requêtes

TBD : https://geojson.io/