MON 3.2. La recette des Cookies

Tags :
  • MON
  • 2023-2024
  • temps 3
  • CNIL
  • traceurs
  • ciblage publicitaire
Auteurs :
  • Sarah Sebastien

Ce MON traitera du concept de Cookies, comment il a vu le jour, son utilisation par les entreprises, et les réglementations qui vont avec.


Niveau débutant

Prérequis : Aucun

Sommaire

Introduction

Après avoir lu le MON de Kawtar sur le Data Collection et le POK de Victor sur l'AIPD, que j'ai trouvés très intéressants, j'ai voulu explorer un peu plus ce sujet. Et je me suis dit : "C'est bien beau tout ça, mais finalement, c'est quoi un cookie ? Et à quoi ça sert ?". Voilà donc comment ce MON a vu le jour.

Qu'est ce qu'un cookie?

Tentative de définition, la plus simple possible

Un cookie Internet, que l'on appelle aussi témoin (ou même témoin de connexion) est un fichier texte qui est échangé entre le client et le serveur entre chaque appel : ils sont générés par le serveur d'un site internet ou d'une application, puis sont déposés sur le disque dur de l'ordinateur.

Dans son usage le plus basique, un cookie permet d'identifier un internaute qui visite un site web et de le reconnaître lorsqu'il le visitera à nouveau.

Le serveur va stocker les informations de la session de l'utilisateur dans une BDD et ne donner qu'à l'utilisateur un identifiant de session (ou cookie) (qui est unique et aléatoire) qui est stocké dans le disque dur de l'utilisateur. Dès lors que la session se termine, le cookie devient obsolète.

On compare ça au fait de poser son vêtement au vestiaire et de recevoir un ticket avec un numéro pour le retrouver lorsque l'on revient.

Techniquement parlant, les cookies sont envoyés à l'aide d'en-têtes http (protocole qui assure que le navigateur et le serveur peuvent se comprendre) dans les messages échangés entre le navigateur, souvent appelé client, et le serveur.

Le protocole http est sans état, ie : il ne conserve ni ne stocke les sessions des clients. Donc, le client est responsable du stockage des informations de session pour les demandes ultérieures. Ainsi, lorsque le client fait une requête, il doit inclure ses informations de session au serveur pour l'authentification ou la validation.

Source

Les attributs d'un cookie

Pourquoi on se sert d'un cookie ?

Les cookies ont de multiples usages : ils peuvent servir à...

Certains de ces usages sont strictement nécessaires aux fonctionnalités expressément demandées par l’utilisateur ou bien à l’établissement de la communication et donc impossibles à refuser. D’autres, qui ne correspondent pas à ces critères, nécessitent un consentement de l’utilisateur avant lecture ou écriture. C'est pour ça qu'on distingue deux types de cookies.

Les cookies internes et tiers

Les cookies internes suivent l'utilisateur uniquement sur le site web d'origine, tandis que les cookies tiers peuvent le suivre sur tous les sites qui les utilisent.

Vers la fin des cookies tiers ?

Les cookies tiers sont de plus en plus remis en question pour limiter le suivi publicitaire, et notamment par certains navigateurs. (ex : Safari d'Apple en 2017 avec programme ITP ("Intelligent Tracking Prevention" ou "prévention intelligente de pistage"))

La CNIL observe l'émergence plusieurs alternatives aux cookies tiers, voici celles que j'ai retenues (et comprises) :

Sources

Ressources de la CNIL : https://www.cnil.fr/fr/cookies-et-autres-traceurs/regles/alternatives-aux-cookies-tiers https://www.cnil.fr/fr/cookies-et-autres-traceurs/definitions/glossaire Wikipédia : https://fr.wikipedia.org/wiki/Cookie_(informatique) (permet d'avoir une vision globale des thèmes et notions du sujet) Youtube : https://www.youtube.com/watch?v=GhrvZ5nUWNg https://www.youtube.com/watch?v=zHBpJA5XfDk (très bonne explication des attributs d'un cookie) https://www.youtube.com/watch?v=ZHvwVsoQx3o (quelques précisions sur les cookies, même si ce n'est pas le but principal de la vidéo)

D'où ça vient?

Le premier cookie

Les cookies furent inventés au milieu des années 1990 par les Américains. Leur but était améliorer l’expérience de l’utilisateur, pour permettre aux sites web de se souvenir du passage d'une personne. Les cookies ont ainsi joué un rôle important dans le développement d’internet tel qu’on le connaît aujourd’hui.

À ses débuts, le World Wide Web, tel qu'imaginé par Tim Berners-Lee, était conçu comme "sans état": chaque requête effectuée via le protocole HTTP était considérée comme indépendante. Pas de possibilité pour le serveur de lier deux requêtes successives provenant du même système et, donc de stocker des informations sur un utilisateur. Cette fonctionnalité visait à renforcer les liens entre les personnes publiant sur le Web, en encourageant les sites à inclure des liens vers d'autres sites qui leur envoyaient des visiteurs.

En 1994, deux ingénieurs (John Giannandrea et Lou Montulli) de chez Netscape créent le cookie. Ils travaillaient à ce moment là sur un projet de création de serveurs qui permettraient à leur clients d'avoir une solution de commerce en ligne. L'enjeu était de savoir : comment garder la trace des différents éléments qu’un client qui navigue sur un site web ajoute à son panier ? Le problème à l'époque, c'était que sans état, chaque navigation vers une nouvelle page provoque l’oubli de toutes les actions précédentes.

Les deux ingénieurs proposent alors une solution permettant de stocker un état dans un nouvel objet qu'ils appellent Persistent Client State HTTP Cookies ou cookie.

Des expérimentations testent le stockage de ces informations dans l’URL des pages, cependant elles ne sont pas très fructueuses.

La naissance de nouveaux problèmes qui deviennent vite préoccupants

Netscape voulait à cette époque, être rapide : dès qu'il a été trouvé, le code a été introduit sur le web, sans en informer les utilisateurs, sans introduire de notification à la dépose d’un cookie par un site web, et sans documentation.

Ce n'est qu'en 1996, que l’existence des cookies est pour la première fois révélée au grand public, dans un article du Financial Times.

Très vite, Netscape commence à être critiquée, pour un problème : Si le serveur du site peut lire et écrire des cookies sur l'ordinateur de l'utilisateur, alors lorsqu'il intègre des ressources tierces telles que des images, des scripts, etc., le serveur fournissant ces ressources tierces peut également lire et écrire des cookies sur le terminal de l'utilisateur, en identifiant le contexte dans lequel ces ressources ont été appelées (par exemple, l'URL). Alors, si un éditeur de contenu en ligne intègre une bannière publicitaire sur son site, le publicitaire peut accéder aux URL visitées par l'utilisateur. Si ce même publicitaire est également présent sur le site d'un autre éditeur, il peut identifier le même utilisateur sur ce site également.

En 1997, l’IAB (Interactive Advertising Bureau) annonce un chiffre d’affaire global du marché de la publicité en ligne de 906,5 millions de dollars. Forte opisition qui amène à un constat sans appel : il faut désactiver par défaut les cookies tiers. En octobre 2000 la norme est publiée, RFC2965. Cette année-là, le chiffre d’affaire calculé par l’IAB est de 8,2 milliards de dollars (soit presque 1000% de croissance en trois ans).

Remarque

En 1996, la société DoubleClick a été créée pour exploiter ces cookies tiers à des fins publicitaires. Cette entreprise est un succès : elle est rachetée pour 1,1 milliards de dollars en 2005 par des investisseurs et fera ensuite l’objet d’un rachat en 2007 pour 3,1 milliards de dollars par Google.


Est-ce qu'un cookie c'est sécurisé?

Les cookies contiennent des données personnelles de notre compte, de notre ordinateur. Les cookies sont donc des données sensibles d'un point de vue de la sécurité. Particulièrement les cookies de session qui permettent de s'authentifier sur un site internet. En théorie, un cookie associé à un site web ne peut pas être envoyé à un autre site web. Mais, un certain nombre de failles permettent de voler des cookies.

En faisant mes recherches, je suis tombée sur cette vidéo de ce fort sympathique québécois. Il y explique, avec un exemple concret comment récupérer un ID de session. J'ai donc essayé de réappliquer sa vidéo, pour mieux comprendre les enjeux.

Récupérer un ID de session : tentative 1

Il faut se rendre sur cette adresse : altoromutual.com, via Chrome (je n'ai pas réussi sur Mozilla).

Une fois arrivé sur la page, on fait clique droit > inspecter.

On ouvre l'onglet Application pour accéder aux cookies, et on clique sur l'URL du site. On voit alors qu'il n'y a qu'une ligne.

Il faut ensuite se connecter (identifiant : admin, et mot de passe : admin). Si on regarde le chemin de la page, on voit qu'on arrive sur la page :

https://altoromutual.com/bank/main.jsp

On voit bien que cette page est une page réservée aux utilisateurs, où est écrit "Hello Admin User".

Si on se penche maintenant sur les cookies du site, on voit alors apparaître le cookie de connexion qui vient d'être envoyé par le serveur, comme on s'est connecté.

Maintenant, si on ouvre un onglet de Navigation privée, et qu'on revient sur cette page et qu'on essaie de se connecter à cette page :

https://altoromutual.com/bank/main.jsp

On voit que c'est impossible, car je n'ai pas les droits pour accéder à cette page, comme je ne suis pas identifiée. MAIS, si je recopie les cookies de session que j'avais obtenus au début en me connectant, dans les cookies de la page privée, et que j'essaie à nouveau d'accéder à la page administrateur, la magie opère ...

Récupérer un ID de session : tentative 2

En continuant mes recherches, je suis tombée sur la méthode du Cross site scripting(ou XXS).En fait, cette technique part d'une question simple : et si on a accès au Java Script d'un site, qu'est ce qu'on pourrait faire ? XSS consiste donc à injecter un code JavaScript malveillant, dans une autre page web. Ce code est exécuté par les victimes et permet aux attaquants de contourner les contrôles d'accès et d'usurper l'identité des utilisateurs. Il permet notamment facilement, d'extraire des informations et des cookies.

Il existe normalement une politique qui empêche un site Web de lire ou d'écrire des données sur un autre site, c'est la SOP (same origin policy). Elle vérifie 3 conditions dans l'origine du site web :

Alors seulement si ces 3 paramètres sont identiques pour 2 origines différentes, le navigateur autorise la lecture ou l'écriture d'origines croisées.

Exemple : http//pwnfunction.com http//hackfunction.com Le protocole est le même, mais l'hôte est différent : la navigateur refuse la lecture.


Sources

Par manque de temps, et parce que ça devenait un peu compliqué pour moi vu mon faible niveau en JavaScript et en web, j'ai seulement visionné les vidéos suivantes. Mais elles restent très intéressantes, et très accessibles pour un sujet pas si facile ! https://www.youtube.com/watch?v=ZHvwVsoQx3o https://www.youtube.com/watch?v=UXtxfka2TuY https://www.youtube.com/watch?v=EoaDgUgS6QA

L'utilisation des cookies dans le ciblage publicitaire

A quelle fin ?

On considère qu’un consommateur doit obtenir l’information qu’il désire en 3 clics (ie maximum 3 pages après la page d'accueil) : c'est ce qu'on appelle la règle des trois clics. Même si ce n'est qu'une simple règle, elle reflète bien la frustration d'un internaute lorsqu’il a des difficultés à trouver l’information souhaitée.

Les cookies, qu'on appelle cookies de pistage, permettent sont alors un outil de :

Prendre conscience de ces cookies de pistage grâce au logiciel CookieViz

Qu'est ce que c'est ?

CookieViz est le premier logiciel à destination du grand public développé en interne par la CNIL. Il est disponible sur Windows, Linux et Mac OS. C'est un logiciel open source qui analyse les interactions entre notre ordinateur, notre navigateur et des sites et serveurs distants. Il permet de savoir à quels autres acteurs le site qu'on visite envoie des informations.

Vous pouvez retrouver ici le support de présentation de l'application avec les liens utiles pour télécharger le logiciel.

Utilisation du logiciel

J'ai voulu faire le test : j'ai navigué sur un grand nombre de sites en 2 étapes pour voir l'influence des cookies et de mon consentement. Dans la première étape, j'acceptais tous les cookies, dans la 2e je les refusais tous. Pour mon chemin de navigation, j'ai varié les plaisirs :

Au final j'ai navigué sur près de 9 sites, en revenant sur Google entre chaque recherche, mais aucune des recherches que j'ai faites n'avait de lien avec la précédente.

Expérience 1 : on accepte tous les cookies

Résultats au global

Si on regarde les statistiques annoncées par le logiciel sur ma navigation :

Si on se penche maintenant sur l'usage des cookies:

  • La zone orange indique la couverture de tiers déclarés comme explicitement publicitaires dans des fichiers ads.tx ayant déposé des cookies parmi les sites visités.
  • La zone violette indique la couverture des tiers ayant déposé des cookies dont la finalité n’est pas explicitement indiqué comme publicitaire dans des fichiers ads.txt.

On peut voir qu'il y a quand même beaucoup plus de violet que de orange dans ce diagramme...

Résultats au détails

Expérience 2: on refuse tous les cookies

Résultats au global

Si on regarde les statistiques annoncées par le logiciel sur ma navigation :

Si on se penche maintenant sur l'usage des cookies:

Remarques

  • on passe de 76% à 86% de sites qui ont déposés des cookies en les refusant. Un résultat qui me semble tout de même drôlement illogique. Même si cette information ne nous renseigne pas sur la réelle nature du cookie...
  • si on regarde le diagramme d'usage de cookies, on remarque que la zone violette est beaucoup plus étendu quand on refuse les cookies. On en déduit donc, que les cookies tiers ont tendance à être moins explicites quand on refuse les cookies.

Résultats au détails

Constat intriguant : sur le site de la fnac aucune bannière de consentement des cookies ne s'est affichée de toute ma navigation sur le site.


DoubleClick

J'ai remarqué plusieurs fois l'apparition du cookie DoubleClick utilisé par Google pour sa régie publicitaire du même nom : il contrôle l’ensemble des campagnes publicitaires qui passent par cette régie. Il permet alors d’améliorer les performances de ces campagnes, et d’éviter que les publicités soient affichées plusieurs fois de suite.

Que dit la loi?

Les lois régissant l'utilisation des cookies varient selon les pays et les régions, mais en général, elles visent à protéger la vie privée des utilisateurs en ligne et à garantir qu'ils sont informés de manière transparente sur l'utilisation des cookies par les sites web qu'ils visitent.

Principes énoncés par le CNIL

En plus de ça, le CNIL a publié certaines recommandations à destinations des

Trop de consentement, tue le consentement

La multiplication de ces bannières, si elle a permis de rendre plus visible l’existence des traceurs, aboutirait, selon certains, à une fatigue du consentement qui signifierait, selon eux, que les internautes ne souhaitent pas que leur accord leur soit demandé. Cependant, on remarque tout de même que 70 % des personnes interrogées trouvent indispensable que les acteurs obtiennent leur accord avant qu’il soit possible de se servir de leurs données de navigation via des traceurs, même si cela prend un peu plus de temps dans la navigation. Signe supplémentaire de cette volonté de contrôle étroit de l’usage des traceurs, les personnes interrogées se prononcent massivement pour que les sites qu’elles fréquentent souvent leur redemandent un consentement à intervalles réguliers (77 % souhaitent ainsi qu’une nouvelle demande de consentement pour utiliser des traceurs ait lieu au moins tous les 3 mois).

Exceptions des cookies

Traceurs sont cependant exemptés du recueil de consentement, exemple :

Cookie Walls

De nombreux services en ligne sont gratuits aujourd'hui, mais pas sans conséquence : les données personnelles des utilisateurs (âge, emplacement géographique, intérêts et comportements d'achat) sont souvent collectées, via cookies et d'autres outils de suivi, et utilisées par les entreprises du web pour financer ses services, principalement via la publicité ciblée.

Cookie Walls

L’expression « murs de traceurs » (ou « cookie walls » en anglais) désigne le fait de conditionner l’accès à un service à l’acceptation par l’internaute du dépôt de cookies sur son terminal (ordinateur, smartphone, ...).

En cas de refus de ces cookies, certains sites ont recourt à la proposition d’un choix alternatif l'internaute doit fournir une contrepartie (pour permettre aux éditeurs de ces site de compenser la perte de revenus publicitaires liée à cette absence de traceurs par un autre mode de rémunération)

Solution : Dans la majorité des cas, la contrepartie est financière, on parle alors de paywall : l’internaute qui refuse d’accepter les cookies est obligé de payer pour accéder au site. Exemple : on retrouve souvent cela sur des sites de magazines en lignes, qui proposent de s'abonner en cas de non consentement

Les Cookie Walls ne sont pas interdits par principe, mais leur légalité dépend de plusieurs critères. En l'absence d'une législation spécifique ou d'une position de la Cour de justice de l'Union européenne, c'est la CNIL qui a établi et publié ces critères :

Si certains sont intéressés par le droit, le site du CNIL est bien étoffé à ce sujet, vous pouvez aller sur cette page

Scandale liés aux cookies

Facebook-Cambridge Analytica, en 2014

Ce scandale, souvent appelé la fuite de données Facebook-Cambridge Analytica, concerne les informations personnelles de 87 millions de personnes sur Facebook, qu'une société britannique nommée Cambridge Analytica, a récupérées à partir de 2014. Elle a ensuite utilisé ces informations pour influencer les campagnes politiques à grande échelle:

Tout part d'un quiz de personnalité développé sur une application appelée "thisisyourdigitallife", conçue en 2014 par Aleksandr Kogan, un chercheur en psychologie affilié à l'Université de Cambridge. Environ 270 000 personnes ont téléchargé cette application sur Facebook, ce qui a permis de partager, sans leur consentement explicite, leurs données personnelles, ainsi que celles de leurs amis, avec l'application. Tout cela, en raison de la manière dont Facebook autorisait le partage de données à l'époque.

Utilisation des données par Cambridge Analytica : Cambridge Analytica a acheté ces données à Kogan, affirmant qu'elles seraient utilisées à des fins de recherche académique. Cependant, il a été révélé que les données ont été utilisées pour développer des profils psychographiques détaillés des électeurs, qui ont ensuite été utilisés pour cibler des messages politiques personnalisés Le scandale Facebook-Cambridge Analytica est une affaire qui a éclaté en 2018 et qui a suscité de vives préoccupations quant à la protection de la vie privée des utilisateurs et à la manipulation des données personnelles à des fins politiques:

Yahoo, en 2023

29 décembre 2023, la CNIL a sanctionné la société YAHOO EMEA LIMITED d’une amende de 10 millions d’euros pour ne pas avoir respecté le choix des internautes qui refusaient les cookies sur son site « Yahoo.com » et ne pas avoir permis aux utilisateurs de sa messagerie « Yahoo! Mail » de librement retirer leur consentement aux cookies.

Conclusion

Comme on l'a vu, les cookies sont des fichiers installés sur nos ordinateurs, on peut donc facilement contrôler les cookies tiers, qui ne sont pas forcément nécessaires pour profiter des ressources disponibles sur Internet. Pour ce faire, on peut soit :

Horodateur

Date Heures passées Indications
Mercredi 07/02 45min Définition du plan et recherches de ressources adaptées
Samedi 02/03 1h30 Visionnage de plusieurs vidéos youtube et lectures d'articles internet pour définir précisément et simplement les cookies
Dimanche 03/03 30min Recherches sur l'histoire des cookies
Samedi 09/03 2h30 Découverte de CookieViz, installation, prise en main, réalisation d'une étude et analyse des résultats
Dimanche 10/03 1h30 Recherche d'informations sur la loi concernant ce sujet, lecture des évolutions pénales, lectures de plusieurs articles sur des scandales passés, synthèses du résultat des recherches
Lundi 11/03 1h Réalisation de l’entraînement "Récupérer un ID de session"
Samedi 16/03 1h15 Recherches sur le sujet du ciblage publicitaire, visionnage de vidéos, et synthèse
Dimanche 17/03 1h Recherche des conseils à appliquer lors d'une navigation sur internet, et synthèse des conseils les plus pertinents trouvés