Analyse des données
Tags :
- enseignement
- ECM
Le cours est basé sur le cours suivant :
Chaque semaine de cours, un travail est à rendre pour la semaine de cours prochaine (environ un mois après) les rendus sont à rendre sur moodle :
Semaine 1
Deux cours d'introductions aux méthodes d'analyse des données en python en utilisant la bibliothèque pandas.
Basé sur la partie utilisation de Panda.
Cours 1.1
On vérifie que l'on a les bases nécessaire en python :
- base du langage python
- notion d'interpréteur
- installation de modules
- utilisation de vscode et/ou de jupyterlab (affichage à l'écran et html)
- matplotlib et seaborn
Cours 1.2
Pandas et les premières analyses.
Rendu
Basées sur les à vous de la partie utilisation de Panda. Vous devrez rendre 2 notebooks :
- Premier notebook : Utilisez un prénom que vous aimez (le votre ?) et procédez à cinq analyses similaires à celles du cours et la partie exercice. Vous devrez pour chaque analyse :
- explicitez clairement la question que vous cherchez à résoudre (e.g. combien de François par année ?)
- donnez le code de résolution
- conclure en utilisant le résultat donné par le code
- Second notebook : prenez un jeu de données sur internet au format excel ou csv et importez le avec Pandas (par exemple un des autres jeux de l'Insee. Il en existe plein de différents sur les prénoms par exemple). Il vous faudra :
- importer le document sous la forme d'un data frame de la façon la plus claire possible
- donner quelques méthodes qui vous permettent de vérifier que vous avez bien importé les bonnes donnés (nombre de lignes, type des colonnes, etc)
- Montrer comment accéder à une donnée précise (ligne, colonne)
- faire une sélection pertinente de vos données. Pour cela :
- explicitez clairement la question que vous cherchez à résoudre (e.g. combien de François par année ?)
- donnez le code de résolution
- conclure en utilisant le résultat donné par le code
Le rendu est à rendre sur moodle avant le lundi 2 décembre à 9h.