# Accéder aux dataframes

On va montrer ici comment acceder aux lignes et colonnes individuellment, ainsi que créer des dataframes.


On charge ici le fichier des prénoms du 1.1 que l'on a sauvé en local.

In [None]:
import pandas

In [None]:
prénom = pandas.read_csv("nat2022_csv.zip",
                         compression='zip',
                         sep=";")


## naviguer dans la dataframe

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

### colonnes et lignes particulières


#### colonne

On accède à une colonne par son nom, de deux façons equivalentes

In [None]:
#notation pointée 

prénom.annais

In [None]:
# version liste
prénom["annais"]

Les colonnes sont des [*séries*](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) :

In [None]:
type(prénom["nombre"])

C'est à dire une liste de données de même type : 

In [None]:
prénom["nombre"].dtype

Le [`dtype`](https://numpy.org/doc/stable/reference/arrays.dtypes.html) est une liste de type de numpy. Ici `dtype('int64')` signifie que c'est un entier.

#### noms des lignes et des colonnes

Les lignes et les colonnes sont des colonnes particulières

Les lignes sont des  [`RangeIndex`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.RangeIndex.html), que l'on peut itérer dans une boucle for (`for nom in prénom.index: ...`) ou transofrmer en liste (`list(prénom.index)`) si besoin.

In [None]:
# nom des lignes
prénom.index

Les colonnes sont des [`Index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html) qui sont des listes Pandas.

In [None]:
# nom des colonnes
prénom.columns

Dont on peut par exemple obtenir les valeurs :

In [None]:
prénom.columns.values

#### lignes

On utilise [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) qui prend le nom de la ligne comme paramètre

In [None]:
prénom.loc[2]

A ne pas confondre avec [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html) qui lui prend **l'indice** de la ligne.

Ici les noms des lignes sont aussi ses indices, donc c'est équivalent, mais ce n'est vraiment pas toujours le cas, surtout après un tri par exemple.

In [None]:
prénom.iloc[2]

### éléments ligne et colonne particulier

Ligne/colonne ou colonne/ligne, en utilisant leurs noms :

In [None]:
# ligne colonne
prénom.loc[2]['nombre']

In [None]:
# colonne ligne
prénom['nombre'][2]

Si l'on veut utiliser des indices, il faut considérer la dataframe comme une matrice, ce que l'on peut faire en utilisant [`to_numpy`](https://pandas.pydata.org/pandas-docs/version/0.25.1/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy) :

In [None]:
# 3ème ligne :

prénom.to_numpy()[2]

In [None]:
# 3ème ligne, 4ème colonne

prénom.to_numpy()[2][3]

ou encore :

In [None]:
# 3ème ligne, 4ème colonne

prénom.to_numpy()[2, 3]

## sélections 

Un ensemble particulier de lignes/colonnes

### lignes

####  sélection booléenne

On passe en paramètre de la datafframe une lise de booléens de longueur égale au nombre de lignes. Seront rendues uniquement les lignes *vraies*

In [None]:
# les lignes dont le nom est divisible par 10, version vrai/faux

prénom.index % 10 == 0

In [None]:
# on sélectionne les lignes vraies :

prénom[prénom.index % 10 == 0]

#### slices

On peut aussi prendre des ensembles de lignes par slices.

In [None]:
prénom[3:10]

> **Attention** : ce sont des indices de lignes pas des noms :

In [None]:
prénom[prénom.index % 10 == 0][3:10]

### colonnes

un ensemble particulier de colonnes, en passant une liste de nom de colonnes :

In [None]:
prénom[["annais", "preusuel"]]

### loc et iloc

On peut passer 2 arguments à loc et iloc

In [None]:
# ligne de nom 23 et colonne "preusuel"

prénom.loc[23, "preusuel"]

In [None]:
# 24ième ligne et deuxième colonne

prénom.iloc[23, 1]

#### arguments slices

Ces arguments peuvent aussi être des [*slices*](http://pascal.ortiz.free.fr/contents/python/slices/slices.html).

Sans sélection, on obtient toutes les lignes et colonnes :

In [None]:
prénom.loc[:, :]

In [None]:
prénom.iloc[:, :]

En spécifiant les slices on peut sélection un groupe de lignes/colonnes : 

In [None]:
# toutes les lignes, les colonnes entre "sexe" et "annais"
prénom.loc[:, "sexe":"annais"]

In [None]:
# les lignes entre celle de noms 3 et de nom 10 et les colonnes entre "sexe" et "annais"

prénom.loc[3:10, "sexe":"annais"]

#### arguments listes

Enfn, ces arguments peuvent être des listes :

In [None]:
# lignes de noms 3, 1 et 25 dans cet ordre, toutes les colonnes

prénom.loc[[3, 1, 25], :]

In [None]:
# toutes les lignes et la 4ème colonne puis la 3 dans cet ordre

prénom.iloc[:, [3, 2]]

On peut bien sur tout combinet pour extraire ce que l'on veut des données

## Opérations sur les dataframe

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html


Pour que cette introduction soit complète, il nous reste à voir comment créer des données ([Dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)), soit de rien du tout soit en combinant d'autres données.

Pour illustrer ceci on va recréer les mêmes données de plein de façon différentes. On va trouver le nombre de Dominique hommes et femmes pour chaque année.

On va procéder de trois façons différentes :

* création d'une dataframe vierge puis remplissage des données
* création de colonnes puis concaténation
* création de lignes puis concaténation
* en utilisant des méthodes issues des bases de données

### modification d'un tableau

On commence par créer un dataframe avec des listes puis on modifie celle-ci

> **Attention** pour ne pas avoir de soucis, il faut faire des listes différentes pour chaque colonne

In [None]:
# on prépare les colonnes vierges 

années = [str(x) for x in range(1900, 2020 + 1)]
nombre_1 = [0] * len(années)
nombre_2 = [0] * len(années)

In [None]:
# on crée la dataframe

dominiques = pandas.DataFrame({1:nombre_1, 2:nombre_2}, index=années)

Prenez l'habitude lorsque vous créez un dataframe de faire **TRES** attention au type de données. Comme on va manipuler des entiers, ce n'est pas très grave mais si vous manipulez des `float` et que votre colonne est de type entier, seule la partie entière sera conservée...

In [None]:
dominiques.dtypes

S'ils ne sont pas bons on peut les changer avec [`as_type`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html).

Le noms des lignes de la dataframe `dominiques` est l'année. On a deux colonnes nommées 1 (les hommes) et 2 les femmes.

In [None]:
dominiques

On modifie ensuite la table avec les données de la dataframe initiale

In [None]:
for nom_ligne in prénom.index:
    if prénom.loc[nom_ligne, "preusuel"] == "DOMINIQUE":
        sexe = prénom.loc[nom_ligne, "sexe"]
        annee = prénom.loc[nom_ligne, "annais"]
        nombre = prénom.loc[nom_ligne, "nombre"]
        
        dominiques.loc[annee, sexe] = nombre

In [None]:
dominiques

### ajout de colonnes

On va créer un dataframe vide et ajouter les colonnes une à une. Le lien se fera avec le nom des lignes, ici l'année

In [None]:
dominiques = pandas.DataFrame(index=années)

dominiques

On crée la colonne des hommes

In [None]:
homme = (prénom[(prénom["preusuel"] == "DOMINIQUE") & (prénom["sexe"] == 1)]
                   .drop(["preusuel", "sexe"], axis=1))
homme

On va changer le nom des lignes pour qu'il correspondent aux années

In [None]:
homme = homme.set_index("annais")

In [None]:
homme

On utilise la commande [`concat`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html) en lui demandant d'agir sur les colonnes (`axis=1`).

In [None]:
pandas.concat([dominiques, homme], axis=1)

Le résultat est correct, on modifie donc pour notre dataframe :

In [None]:
dominiques = pandas.concat([dominiques, homme], axis=1)

On fait pareil pour les femmes

In [None]:
femmes = (prénom[(prénom["preusuel"] == "DOMINIQUE") & (prénom["sexe"] == 2)]
            .drop(["preusuel", "sexe"], axis=1)
            .set_index("annais"))

In [None]:
femmes

In [None]:
pandas.concat([dominiques, femmes], axis=1)

On voit que concat agit intelligemment :

- l'année 2018 ne contenait pas de dominiques filles, on a donc rajouté une donnée `NaN`à cette colonne (`NaN` = not a number
- il n'y a vait pas d'année `XXXX` pour les homme, elle a été ajouté dans la concaténation.

Cete remarque justifie également le fait que l'on ait pas utilisé [`assign`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.assign.html) qui n'aurait pas fait attentions aux noms des lignes.  Cette commande ajoute juste une liste de même longeur comme attribut au dataframe.

In [None]:
dominiques = pandas.concat([dominiques, femmes], axis=1)

Il nous reste à remplacer les `NaN` par 0 :

In [None]:
dominiques = dominiques.fillna(0)

In [None]:
dominiques

Puis supprimer la ligne des `XXXX` en utilisant [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) (si l'on avait voulu supprimer des colonnes, on aurait utiliser le paramètre `axis=1` pour drop).

In [None]:
dominiques = dominiques.drop('XXXX')

### ajout de lignes

On crée le dataframe puis on ajoute ligne à ligne nos donnée

In [None]:
dominiques = pandas.DataFrame()

On va maintenant itérer sur les lignes d'un dataframe contenant uniquement les dominiques pour une année particuilère (on utilise pour ça la commande [`iterrows()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iterrows.html)). Ceci nous permet de créer une nouvelle ligne qui contient les dominique de chaque sexe pour une année donnée. 

In [None]:
for annee in [str(x) for x in range(1900, 2020 + 1)]:
    nombres = [0, 0]
    for nom, ligne in prénom[(prénom.annais == annee) & (prénom.preusuel == "DOMINIQUE")].iterrows():
        if ligne.sexe == 1:
            nombres[0] = ligne.nombre
        else:
            nombres[1] = ligne.nombre
        
        nouvelle_ligne = pandas.DataFrame([nombres], index=[annee])
    dominiques = pandas.concat([dominiques, nouvelle_ligne])


In [None]:
dominiques

On voit que cette technique est bien longue.

### base de données

La dernière façon de créer des données que l'on va monter est la plus rapide. Elle consiste à mimer des opération de merge que l'on peut faire en base de données.

On commence par extraire les dominiques garçons et les dominiques filles :

In [None]:
dominique_1 = (prénom[(prénom["preusuel"] == "DOMINIQUE") & (prénom["sexe"] == 1)]
                   .drop(["preusuel", "sexe"], axis=1)
                   .sort_values(by=['annais']))

dominique_2 = (prénom[(prénom["preusuel"] == "DOMINIQUE") & (prénom["sexe"] == 2)]
                   .drop(["preusuel", "sexe"], axis=1)
                   .sort_values(by=['annais']))

Puis on va les combiner en une table unique grace à [`merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) :

In [None]:
dominiques = (pandas
                 .merge(dominique_1, dominique_2, on=['annais'], how='outer')
                 .fillna(0)
                 .rename(columns={"nombre_x": "♂", "nombre_y": "♀"})
            )

In [None]:
dominiques

Les structures de données de pandas sont orientés pour l'utilisation efficace de merge, ce qui fait que tout est très rapide. 

Lisez https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html pour plein de trucs efficaces pour combiner vos données.