{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Méthodes hiérarchiques"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"https://fr.wikipedia.org/wiki/Regroupement_hi%C3%A9rarchique\n",
"\n",
"Il fonctionne avec des données décrites par une distance. Il construit des classes emboîtées et peut être repéresenté par une hiérarchie (un arbre).\n",
"\n",
"L'intérêt de ces méthodes est :\n",
"* de permettre une classification sans avoir à choisir un nombre de classe\n",
"* d'avoir des classes de plus en plus grosse"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Une hiérarchie est un ensemble de classes $\\mathcal{H}$ tel que pour tous $A, B \\in \\mathcal{H}$ on a : $A \\cap B \\in \\{ A, B, \\phi\\}$ (deux classes sont soit disjointes soit emboîtées).\n",
"\n",
"C'est une forme de généralisation d'une partition. C'est également un arbre si on considère l'inclusion : les enfants d'une classe étants les classes strictement plus petite que celle-ci (on appelle cet arbre un *dendregramme*)."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## algorithme\n",
"\n",
"* **Entrée** : \n",
" * un ensemble $X$ de $n$ éléments à classer\n",
" * une distance $d$ entre les éléments\n",
" * une façon de mettre à jour la distance : $f$: $X \\times X \\rightarrow \\mathbb{R}$ \n",
"* **Sortie** : Un ensemble de classes formant une hiérarchie\n",
"\n",
"* **Algorithme** :\n",
" * On considère que $\\mathcal{H}$ est l'ensemble des singletons formé avec l'ensmelbe des éléments à classer.\n",
" * $\\mathcal{C} = \\mathcal{H}$\n",
" * la distance entre 2 singletons est la distance entre les deux éléments.\n",
" * répète $n-1$ fois :\n",
" * soient $A$ et $B$ deux éléments de $\\mathcal{C}$ ayant une distance minimale\n",
" * on ajoute $A \\cup B$ à $\\mathcal{C}$ et on supprime $A$ et $B$ de $C$ \n",
" * pour tout $C \\in \\mathcal{C}$, la distance entre $C$ et $A\\cup B$ est $f(C, A\\cup B)$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"L'algorithme dépend donc d'une fonction $f$ permettant de mettre à jour la distance. Il en existe de nombreuses, qui vont changer l'arbre solution. sklearn ensupporte 4 :\n",
"* “ward” : à utiliser pour des données euclidienne : $f(A, B)$ est la perte d'inertie à regrouper $A$ et $B$ $I(A \\cup B) - I(A) - I(B)$\n",
"* “average” : méthode par défaut. Basée sur des moyennes : $f(A, B) = \\frac{1}{|A| * |B|}\\sum_{x \\in A, y \\in B} d(x, y)$\n",
"* “complete” : prend la plus grande distance (méthode pssimiste) : $f(A, B) = \\max_{x \\in A, y \\in B} d(x, y)$\n",
"* “single” : prend la plus petite distance (méthode optimiste) : $f(A, B) = \\min_{x \\in A, y \\in B} d(x, y)$"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering"
]
},
{
"cell_type": "code",
"execution_count": 48,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
\n",
"\n",
"
\n",
" \n",
"
\n",
"
\n",
"
sepal_length
\n",
"
sepal_width
\n",
"
petal_length
\n",
"
petal_width
\n",
"
\n",
" \n",
" \n",
"
\n",
"
0
\n",
"
5.1
\n",
"
3.5
\n",
"
1.4
\n",
"
0.2
\n",
"
\n",
"
\n",
"
1
\n",
"
4.9
\n",
"
3.0
\n",
"
1.4
\n",
"
0.2
\n",
"
\n",
"
\n",
"
2
\n",
"
4.7
\n",
"
3.2
\n",
"
1.3
\n",
"
0.2
\n",
"
\n",
"
\n",
"
3
\n",
"
4.6
\n",
"
3.1
\n",
"
1.5
\n",
"
0.2
\n",
"
\n",
"
\n",
"
4
\n",
"
5.0
\n",
"
3.6
\n",
"
1.4
\n",
"
0.2
\n",
"
\n",
"
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
...
\n",
"
\n",
"
\n",
"
145
\n",
"
6.7
\n",
"
3.0
\n",
"
5.2
\n",
"
2.3
\n",
"
\n",
"
\n",
"
146
\n",
"
6.3
\n",
"
2.5
\n",
"
5.0
\n",
"
1.9
\n",
"
\n",
"
\n",
"
147
\n",
"
6.5
\n",
"
3.0
\n",
"
5.2
\n",
"
2.0
\n",
"
\n",
"
\n",
"
148
\n",
"
6.2
\n",
"
3.4
\n",
"
5.4
\n",
"
2.3
\n",
"
\n",
"
\n",
"
149
\n",
"
5.9
\n",
"
3.0
\n",
"
5.1
\n",
"
1.8
\n",
"
\n",
" \n",
"
\n",
"
150 rows × 4 columns
\n",
"
"
],
"text/plain": [
" sepal_length sepal_width petal_length petal_width\n",
"0 5.1 3.5 1.4 0.2\n",
"1 4.9 3.0 1.4 0.2\n",
"2 4.7 3.2 1.3 0.2\n",
"3 4.6 3.1 1.5 0.2\n",
"4 5.0 3.6 1.4 0.2\n",
".. ... ... ... ...\n",
"145 6.7 3.0 5.2 2.3\n",
"146 6.3 2.5 5.0 1.9\n",
"147 6.5 3.0 5.2 2.0\n",
"148 6.2 3.4 5.4 2.3\n",
"149 5.9 3.0 5.1 1.8\n",
"\n",
"[150 rows x 4 columns]"
]
},
"execution_count": 48,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"import seaborn as sns\n",
"\n",
"sns.set()\n",
"\n",
"iris = sns.load_dataset('iris').drop(columns=\"species\")\n",
"iris"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On a toujours 3 espèces que l'on représentera en 3 clouleurs différentes. Les 50 premières sont de l'espèce *setosa*, les 50 suivantes de l'espèce *versicolor* et les 50 dernière de l'espèce *virginica*\n",
"\n",
"**Attention** : ces 3 espèces sont des *meta* données : ce sont les botanistes qui ont répartis les iris en espèces, ce n'est pas inhérent aux données."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Pour que nos arbres puissent être visibles, on ne va prendre qu'une partie des données, les 10 premières de chaque espèces."
]
},
{
"cell_type": "code",
"execution_count": 49,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"n = len(clustering.labels_)\n",
"\n",
"fig, ax = plt.subplots(figsize=(10, 10))\n",
"\n",
"sns.scatterplot(x='x', \n",
" y='y', \n",
" data=node_position,\n",
" legend=False,\n",
" ax=ax)\n",
"\n",
"for i, sons in enumerate(fils):\n",
" u = node_position.loc[i + n] \n",
" v1 = node_position.loc[sons[0]]\n",
" v2 = node_position.loc[sons[1]]\n",
" \n",
" l = mlines.Line2D([u['x'], v1['x']] , [u['y'], v1['y']])\n",
" ax.add_line(l)\n",
" l = mlines.Line2D([u['x'], v2['x']] , [u['y'], v2['y']])\n",
" ax.add_line(l)\n",
"\n",
"\n",
"for i, row in node_position.iterrows():\n",
" ax.text(row['x'], row['y'], i)\n",
" \n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On voit bien quele 1er nœud crée est d'index 30 et à agrégé les nœuds 0 et 4 à une hauteur de .14\n",
"\n",
"Le noeud crée à la 12 itération est d'index 29 + 12 = 41."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On peut améliorer le dessin en ne légendant que les données de départ. Pour cela, on va créer un dictionnaire de correspondance entre le nœud de l'arbre et son label."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On crée le dictionnaire en itérant sur les lignes du dataframe (`iris.iterrows()`). Cette itération rend à chaque passage un couple `(index, row)` le premier correspondant à l'index (le nom) de la linge et le secon à la ligne proprement dite.\n",
"\n",
"Ceci ne suffit pas pour nous, puisqu'il nous faut également lenuméro de la ligne (qui est différent de l'index). Pour cela on utilise [une technique de bouble](https://docs.python.org/fr/3.5/tutorial/datastructures.html#looping-techniques) avec `enumerate`.\n",
"\n"
]
},
{
"cell_type": "code",
"execution_count": 65,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"{0: 0,\n",
" 1: 1,\n",
" 2: 2,\n",
" 3: 3,\n",
" 4: 4,\n",
" 5: 5,\n",
" 6: 6,\n",
" 7: 7,\n",
" 8: 8,\n",
" 9: 9,\n",
" 10: 50,\n",
" 11: 51,\n",
" 12: 52,\n",
" 13: 53,\n",
" 14: 54,\n",
" 15: 55,\n",
" 16: 56,\n",
" 17: 57,\n",
" 18: 58,\n",
" 19: 59,\n",
" 20: 100,\n",
" 21: 101,\n",
" 22: 102,\n",
" 23: 103,\n",
" 24: 104,\n",
" 25: 105,\n",
" 26: 106,\n",
" 27: 107,\n",
" 28: 108,\n",
" 29: 109}"
]
},
"execution_count": 65,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"data = iris\n",
"\n",
"labels = dict()\n",
"\n",
"for i, (index, row) in enumerate(iris.iterrows()):\n",
" labels[i] = index\n",
"\n",
"labels"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On a alors le dessin suivant :"
]
},
{
"cell_type": "code",
"execution_count": 66,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"# données : \n",
"# - clustering : issu de AgglomerativeClustering \n",
"# - node_position : dataframe contenant la postion des différents nœuds du clustering (voir au-dessus pour son calcul)\n",
"# - labels : le label des nœuds\n",
"\n",
"n = len(clustering.labels_)\n",
"\n",
"fig, ax = plt.subplots(figsize=(10, 10))\n",
"\n",
"sns.scatterplot(x='x', \n",
" y='y', \n",
" data=node_position,\n",
" legend=False,\n",
" ax=ax)\n",
"\n",
"for i, sons in enumerate(fils):\n",
" u = node_position.loc[i + n] \n",
" v1 = node_position.loc[sons[0]]\n",
" v2 = node_position.loc[sons[1]]\n",
" \n",
" l = mlines.Line2D([u['x'], v1['x']] , [u['y'], v1['y']])\n",
" ax.add_line(l)\n",
" l = mlines.Line2D([u['x'], v2['x']] , [u['y'], v2['y']])\n",
" ax.add_line(l)\n",
"\n",
"\n",
"for i, row in node_position.iterrows():\n",
" if i in labels:\n",
" ax.text(row['x'], row['y'], labels.get(i, i), \n",
" horizontalalignment='center',\n",
" verticalalignment='top', \n",
" rotation=-90)\n",
" \n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On voit que les espèces sont bien conservées par les classes (de 0 à 9, de 50 à 59 et de 100 à 19)."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## CAH comme une méthode de partitionnement"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On utilise cette méthode d partitionnement plutôt que la méthode des $k$-means si :\n",
"* on a des formes non ronde de classes à trouver (après une isomap par exemple) :https://scikit-learn.org/stable/modules/clustering.html\n",
"* nos données sont décrites par une distance non euclidienne\n",
"\n",
"**Attention** : on perd la notion d'inertie, il est donc impossible de déterminer *a priori* si une partition est meilleure qu'une autre. Il faut se créer sa propre *fonction objectif* pour déterminer la meilleure partition."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On peut utiliser notre méthode hiérarchique pour trouver une partition de de façon différente :\n",
"- on arrète l'algorithme lorqu'il n'y a plus que $k$ classes (si on veut tout l'arbre on vueut qu'il ne reste plus qu'une seule classe)\n",
"- on fixe une hauter et on coupe la hiérarchie à cette hauteur.\n"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### nombre de classe fixé"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"`sklearn` permet de faire ça grace au paramètre `n_clusters`\n",
"\n",
"Si on fixe le nombre de classes à 4, on arête l'algorithme de la CAH lorsqu'il ne reste que 4 classes (ce sera les classes d'index 54, 42, 48 et 55 de notre arbre complet)."
]
},
{
"cell_type": "code",
"execution_count": 67,
"metadata": {},
"outputs": [],
"source": [
"clustering = AgglomerativeClustering(n_clusters=4).fit(iris)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On retrouve les classes dans l'attribut `labels_` :"
]
},
{
"cell_type": "code",
"execution_count": 68,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 3, 3, 2, 3, 2, 3, 2, 3, 2, 0, 0,\n",
" 0, 0, 0, 0, 2, 0, 0, 0])"
]
},
"execution_count": 68,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"clustering.labels_"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Il y en a bien 4. On peut maintenant regarder leurs adéquation aux espèces d'iris : "
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"clustering.labels_[:10]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"clustering.labels_[10:20]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"clustering.labels_[20:]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### coupe à une hauter donnée\n",
"\n",
"On commence par créer tout l'arbre, puis on regarde les hauteurs d'aggrégation.\n",
"\n",
"Une fois la hauteur de coupe déterminée (juste avant la montée exponentielle si elle existe), on ré-exécute la classification avec ce paramètre. Ceci nous donnera les classes conservées."
]
},
{
"cell_type": "code",
"execution_count": 69,
"metadata": {},
"outputs": [],
"source": [
"clustering = AgglomerativeClustering(n_clusters=None, distance_threshold=0).fit(iris)"
]
},
{
"cell_type": "code",
"execution_count": 70,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"
"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"fig, ax = plt.subplots(figsize=(10, 10))\n",
"\n",
"sns.lineplot(x=list(range(len(clustering.distances_))), \n",
" y=clustering.distances_, \n",
" legend=False,\n",
" ax=ax)\n",
"\n",
"plt.axhline(2, color=\"red\")\n",
"\n",
"\n",
"plt.show()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"On va couper à 2."
]
},
{
"cell_type": "code",
"execution_count": 71,
"metadata": {},
"outputs": [],
"source": [
"partition = AgglomerativeClustering(n_clusters=None,\n",
" compute_full_tree=True,\n",
" distance_threshold=2\n",
" ).fit(iris)"
]
},
{
"cell_type": "code",
"execution_count": 72,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 3, 3, 2, 3, 2, 3, 2, 3, 2, 1, 4,\n",
" 1, 4, 4, 1, 2, 1, 4, 1])"
]
},
"execution_count": 72,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"partition.labels_"
]
},
{
"cell_type": "code",
"execution_count": 73,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])"
]
},
"execution_count": 73,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"partition.labels_[:10]"
]
},
{
"cell_type": "code",
"execution_count": 74,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([3, 3, 3, 2, 3, 2, 3, 2, 3, 2])"
]
},
"execution_count": 74,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"partition.labels_[10:20]"
]
},
{
"cell_type": "code",
"execution_count": 75,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"array([1, 4, 1, 4, 4, 1, 2, 1, 4, 1])"
]
},
"execution_count": 75,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"partition.labels_[20:]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## comme méthode d'organisation\n",
"\n",
"\n",
"Permet d'organiser une matrice en éléments similaires. On fait une hiérarchie sur les ligne et le colonne puis on réordonne la matrice avec les hirarchies obtenues. \n",
"\n",
"Seaborn le fait tout seul pour nous :\n",
"https://seaborn.pydata.org/examples/structured_heatmap.html\n",
"\n",
"Idéal pour une matrice de corrélation par exemple."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Toutes les iris\n",
"\n",
"Refaisons nos algorithmes avec toutes les iris en tentant de trouver une bonne partition."
]
},
{
"cell_type": "code",
"execution_count": 76,
"metadata": {},
"outputs": [
{
"data": {
"text/html": [
"