# Lire des données

**Références** : https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

Chaque type de données est différent et nécessitera une méthodede chargement adapté. De plus chaque format de donnée admets plusieurs variantes qu'il faudra également contrôler.

> **règle d'or** : TOUJOURS vérifier les données que l'on a chargé !

Il peut se passer tout un tas de problèmes comme (liste non exhaustive) :
* un nombre chargé comme une chaine de caractère
* un csv dont le séparateur est le `';'` plutôt que la `','`(un classique d'excel),
* un csv dont la première ligne et (*resp.* n'est pas) le nom des colonnes
* l'encodage du texte qui n'est pas l'[utf-8](https://fr.wikipedia.org/wiki/UTF-8) un autre classique de d'excel
* le séparateur de décimal qui dans le monde est le `'.'` et en France la `','`
* un séparateur de millier (un `' '`, parfois la `','`
* ...

Bref ça peut merder partout. Et faire un jour ou une semaine d'analyse pour se rendre compte que l'on a fait tout ça sur queque chose qui n'étaitpas les données, c'est rageant. Et c'est en core plus rageant quand quelqu'un d'autre s'en rend compte en essayant de vérifier vos résultats.

## datasets

Pour s'entrainer ou tester des choses sur des jeu de donnée jouet, on peut utiliser ceux mis à disposition par les bibliothèques.


### dans des bibliothèques pythons

Déjà packagées dans des bibliothèques, comme *seaborn* ou *scikit-lean*

#### seaborn

https://github.com/mwaskom/seaborn-data

In [1]:
import seaborn

les différents jeux de données :

In [2]:
seaborn.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

les iris, comme on l'a déjà vu :

In [3]:
iris = seaborn.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


#### scikit-learn

https://scikit-learn.org/stable/datasets/index.html

Attention, le format n'est pas du tout au format pandas. Il va falloir les importer.

In [4]:
import sklearn.datasets

In [5]:
wine = sklearn.datasets.load_wine()

Les données sklearn sont dans leur format à eux. C'est un dictionnaire qui contient les données :

In [6]:
print(wine.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])


les clés `DESCR`et `feature_names` décrivent les données :

In [7]:
print(wine['DESCR'])

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

:Number of Instances: 178
:Number of Attributes: 13 numeric, predictive attributes and the class
:Attribute Information:
    - Alcohol
    - Malic acid
    - Ash
    - Alcalinity of ash
    - Magnesium
    - Total phenols
    - Flavanoids
    - Nonflavanoid phenols
    - Proanthocyanins
    - Color intensity
    - Hue
    - OD280/OD315 of diluted wines
    - Proline
    - class:
        - class_0
        - class_1
        - class_2

:Summary Statistics:

                                Min   Max   Mean     SD
Alcohol:                      11.0  14.8    13.0   0.8
Malic Acid:                   0.74  5.80    2.34  1.12
Ash:                          1.36  3.23    2.36  0.27
Alcalinity of Ash:            10.6  30.0    19.5   3.3
Magnesium:                    70.0 162.0    99.7  14.3
Total Phenols:                0.98  3.88    2.29  0.63
Flavanoids:                   0.34  5.08    2.03  1.00

In [8]:
print(wine['feature_names'])

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


Les données en eux-mêmes sont dans la clé `data` et sont stockées sous la forme d'une matrice toute bête.

In [9]:
print(wine['data'])

[[1.423e+01 1.710e+00 2.430e+00 ... 1.040e+00 3.920e+00 1.065e+03]
 [1.320e+01 1.780e+00 2.140e+00 ... 1.050e+00 3.400e+00 1.050e+03]
 [1.316e+01 2.360e+00 2.670e+00 ... 1.030e+00 3.170e+00 1.185e+03]
 ...
 [1.327e+01 4.280e+00 2.260e+00 ... 5.900e-01 1.560e+00 8.350e+02]
 [1.317e+01 2.590e+00 2.370e+00 ... 6.000e-01 1.620e+00 8.400e+02]
 [1.413e+01 4.100e+00 2.740e+00 ... 6.100e-01 1.600e+00 5.600e+02]]


Pour bénéficier des bibliothèques de traitement de données de pandas, il faut fabriquer un dataframe (en gros une matrice dont les lignes et colonnes sont nommées).

In [10]:
import pandas

wine2 = pandas.DataFrame(wine['data'], columns=wine['feature_names'])

wine2

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


### Sites

De nombreux site proposent des données

#### UCI

https://archive.ics.uci.edu/ml/index.php

Par exemple https://archive.ics.uci.edu/ml/datasets/Car+Evaluation dont les données osnt là : https://archive.ics.uci.edu/ml/machine-learning-databases/car/

> **Attention** ce site contient des données depuis longtmeps. Leur format peut donc être vraiment exotique. Il faut faire très très attention

In [11]:
import urllib.request

print(urllib.request
        .urlopen('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.names')
        .read()
        .decode('ascii'))

1. Title: Car Evaluation Database

2. Sources:
   (a) Creator: Marko Bohanec
   (b) Donors: Marko Bohanec   (marko.bohanec@ijs.si)
               Blaz Zupan      (blaz.zupan@ijs.si)
   (c) Date: June, 1997

3. Past Usage:

   The hierarchical decision model, from which this dataset is
   derived, was first presented in 

   M. Bohanec and V. Rajkovic: Knowledge acquisition and explanation for
   multi-attribute decision making. In 8th Intl Workshop on Expert
   Systems and their Applications, Avignon, France. pages 59-78, 1988.

   Within machine-learning, this dataset was used for the evaluation
   of HINT (Hierarchy INduction Tool), which was proved to be able to
   completely reconstruct the original hierarchical model. This,
   together with a comparison with C4.5, is presented in

   B. Zupan, M. Bohanec, I. Bratko, J. Demsar: Machine learning by
   function decomposition. ICML-97, Nashville, TN. 1997 (to appear)

4. Relevant Information Paragraph:

   Car Evaluation Database was 

Transformer des données d'un format à un autre peut être piégeux. Il faut être extrêment méfiant et scupuleux. Dans l'exemple ci-après :

- attention aux nombre de colonnes (il y en a une de plus qu'annoncé). Il y a une colonne de prédiction en plus.
- il y a plein de variante de csv. Ici il n'y a pas de délimiteur de chaine de caractères (usuellement ")
- on a l'impression que les colonnes 3 et 4 sont des entiers, ce n'est pas le cas (regardez les dernières lignes).
- attention au nom des colonnes. Sans "header=None", la première ligne devient le nom des colonnes

In [12]:
cars = pandas.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data',
                       header=None,
                       names=['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'value'])

print(cars)

     buying  maint  doors persons lug_boot safety  value
0     vhigh  vhigh      2       2    small    low  unacc
1     vhigh  vhigh      2       2    small    med  unacc
2     vhigh  vhigh      2       2    small   high  unacc
3     vhigh  vhigh      2       2      med    low  unacc
4     vhigh  vhigh      2       2      med    med  unacc
...     ...    ...    ...     ...      ...    ...    ...
1723    low    low  5more    more      med    med   good
1724    low    low  5more    more      med   high  vgood
1725    low    low  5more    more      big    low  unacc
1726    low    low  5more    more      big    med   good
1727    low    low  5more    more      big   high  vgood

[1728 rows x 7 columns]


#### Autres sites

* https://www.data.gouv.fr/fr/
* https://catalog.data.gov/dataset
* http://opendata.maregionsud.fr/
* https://opendata.paris.fr/pages/home/
* https://www.insee.fr/fr/statistiques
* ...


## lire et exporter des données excel

Pandas peut : 
- lire des fichiers excels : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
- ecrire des fichiers excel : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html

Pour cela il aura besoin de la bibliothèque `openpyxl` : `python -m pip install openpyxl`

Pour modifier des fichiers excel on préfèrera utiliser des bibliothèques spécialisées comme https://openpyxl.readthedocs.io/en/stable/

In [19]:
# https://www.insee.fr/fr/statistiques/5896111#documentation

excel_prenom = pandas.read_excel("https://www.insee.fr/fr/statistiques/fichier/5896111/np_ina_130.xlsx",
                                 skiprows=3)
excel_prenom

Unnamed: 0,1946,917,1273,545,759
0,1947,935.0,1248.0,558.0,747.0
1,1948,1000.0,1375.0,596.0,792.0
2,1949,1074.0,1476.0,627.0,839.0
3,1950,1181.0,1557.0,674.0,846.0
4,1951,1199.0,1498.0,696.0,882.0
...,...,...,...,...,...
71,2018,4785.0,5201.0,1853.0,2104.0
72,2019,4692.0,5232.0,1840.0,2062.0
73,2020,4682.0,5274.0,1830.0,2046.0
74,"Lecture : entre 1946 et 2020, le nombre de pr...",,,,


Comme vous le voyez, il faut faire très attention au format !

Dans le fichier précédent, la première ligne n'est pas une donnée.

## csv

Pour Comma Separated Value : https://fr.wikipedia.org/wiki/Comma-separated_values

Mais **attention** : il y a plein de variantes!

* excel en français va mettre des ";" à la place des ","
* parfois c'est des tabulations comme séparateur, on parle alors de TSV
* 1ère ligne : est-ce des données ou le nom des champs ?
* ...


**Bref** : comme à chaque fois que vous voulez importer des données, il faut fire très très attention. Dans l'exemple ci-dessous :
* le séparateur est un ";"
* l'encoding du texte est spécial.


## json url

Le format https://www.json.org est un format populaire de transmission de données. C'est **une chaine de caractère** qui est transformée en données (de type entier, réel, etc).

On peut voir ça comme un dictionnaire  ou une liste façon javascript (https://la-cascade.io/json-pour-les-debutants/). Python utilise nativement le json via sa bibliothèque json (https://docs.python.org/3/library/json.html).

pandas permet d'importer des données décrite sous la forme d'un objet json où chaque entrée est une colonne.

### json, dictionnaires et importation

**Attention** à pas confondre les données écrites sous forme json **qui sont des chaines de caractères** et leurs interprétations dans le langage pyhton **sous la forme de dictionnaire**.

#### Des données sous la forme d'un dictionnaire python

In [None]:
mes_donnees_dictionnaire = {
    "x": [1, 2, 3, 4, 5],
    "y": [-1, -2, -3, -4, -5]
}

#### Les même donées au format json (une chaine de caractère)

In [None]:
import json

json.dumps(mes_donnees_dictionnaire)

#### Importation d'un json en pandas

In [None]:
json_data = pandas.read_json(json.dumps(mes_donnees_dictionnaire))

print(json_data)

La ligne suivante (si on la décommente) ne fonctionne en revanche pas :

In [None]:
# pandas.read_json(mes_donnees_dictionnaire)

On peut aussi charger un json directement depuis une url :  https://chrisalbon.com/python/data_wrangling/load_json_file_into_pandas/