Le 14 mars dernier, Google a annoncé qu’il allait procéder à l’« anonymisation » des données qu’il a accumulées sur les internautes depuis sa création. A chaque fois que nous leur confions une requête, les serveurs de Google enregistrent en effet les termes de notre recherche, l’adresse IP de notre ordinateur et éventuellement un cookie. Jusqu’alors, ces informations étaient conservées indéfiniment. Sous la pression des associations de défenses des libertés, le géant de Mountain View a décidé de rendre anonyme le contenu de ses serveurs au bout de 18 à 24 mois. « C’est la première fois qu’une société Internet va supprimer des données pour protéger la vie privée de ses utilisateurs », se glorifie Peter Fleischer, un ancien de Microsoft, entré chez Google il y a un an et demi pour devenir « privacy counsel » (chargé des problèmes de confidentialité des données). A l’en croire, l’« anonymisation » est une tâche, certes longue (chez Google, elle va porter sur des milliards de chiffres), mais assez simple : « Nous allons supprimer le dernier «octet» de l’adresse IP des internautes. Ainsi, vous n’aurez plus qu’une chance sur 256 d’être reconnu. » En effet, une adresse IP est généralement constituée de quatre nombres (les « octets »), séparés par des points ; et chacun de ces octets varie de 0 à 255.
« Cela prouve la bonne volonté de Google, mais, techniquement, cela ne sert pas à grand-chose, tempère Luc Bouganim, directeur de recherche à l’Inria (Institut national de recherche en informatique et en automatique) et spécialiste de la protection des données. A tout moment, on aura au moins 18 mois de données identifiées et plusieurs années de données anonymes : on pourra alors assez facilement étudier des similarités entre les données identifiées et anonymes et réaffecter les trois derniers digits de l’adresse IP. » En fait, Google va appliquer ce que les experts appellent la « K-anonymité », une technique qui remonte déjà à 1998. Elle consiste à dégrader les données de façon à cacher un individu parmi d’autres personnes (dans le cas de Google, K = 256). Problème, il suffit souvent de croiser la base de données «anonymisée » avec d’autres fichiers qui ne le sont pas pour retrouver l’identité exacte de la personne recherchée. Pire : si ces K personnes présentent toutes les mêmes caractéristiques (par exemple, si elles souffrent d’une maladie identique), l’« anonymisation » ne sert à rien puisque l’on obtient tout de même des données personnelles sur chacun des individus « cachés ».
Aussi, depuis 2006, on ajoute souvent à la « K-anonymité » la « L-diversité » : on mélange les données dans chaque groupe de K personnes de façon à ce qu’il y ait au moins L valeurs distinctes de leurs caractéristiques (par exemple, 10 salaires différents s’il s’agit d’un fichier des rémunérations). « C’est ce que l’on fait actuellement de mieux en «anonymisation» », estime Luc Bouganim. Dans le cas de Google, il faudrait s’assurer que les requêtes d’un groupe de 256 personnes recouvrent un très grand nombre de centres d’intérêt (musique classique, médecines douces…) et ne portent pas uniquement sur la pornographie ou l’alcool, par exemple. Une autre technique d’« anonymisation » très aboutie est la fonction de « hachage » : les données textuelles (noms, adresses…) qui permettent d’identifier un individu sont cryptées et remplacées par un chiffre. « C’est comme si je prenais un cochon, que je le passais à la moulinette et que je vous confiais les saucisses, explique Jeff Jonas, chief scientist chez IBM, qui est à l’origine d’une méthode de hachage. Même si je vous donne la moulinette, vous ne pouvez pas refaire le cochon. » Cette technique sert surtout à protéger l’intégrité des bases de données : si un pirate informatique s’empare d’un fichier « haché » au moment de son transfert, soit via Internet, soit sur un support physique, à l’extérieur d’une entreprise ou d’une administration (pour enrichissement ou vérification), il ne peut rien en faire. Un argument qui séduit énormément les Américains, souvent victimes de vols d’identité. Mais le hachage ne protége pas vraiment l’identité des personnes fichées : dans les faits, l’entreprise ou l’administration propriétaire du fichier haché en conserve une version originale et, surtout, un index qui lui permet de savoir qu’à tel chiffre correspond tel individu.
Article de Jacques Henno paru dans Les Echos (rubrique « Innovation ») le 18-04-2007 sous le titre « L’anonymat des internautes difficile à garantir »