Archives de catégorie : datamining

Articles parus dans le quotidien Les Echos, Big Data, datamining, Deepfake, Intelligence artificielle

Quand le faux se mêle au vrai pour traiter les données

23/11/2021 Jacques Henno Laisser un commentaire

J’ai publié ce matin dans le quotidien Les Échos une enquête sur les outils développés pour permettre aux chercheurs d’accéder plus facilement aux données des administrations. Pour l’instant, les feuilles de soin de la Sécurité sociale, les déclarations de revenus, les résultats scolaires, les choix d’orientations, qui contiennent des informations personnelles et sensibles, ne sont accessibles – heureusement – qu’après avoir montré patte blanche. Une des pistes explorées est de réaliser, à partir des fichiers originaux et grâce à l’intelligence artificielle, de vrais-faux jeux de données ne contenant plus d’informations confidentielles.

https://bit.ly/fauxvrai

Articles parus dans le quotidien Les Echos, Big Data, datamining, Fintech, Génération numérique

Comment le Big Data va bousculer le crédit

08/03/2016 Jacques Henno Laisser un commentaire

J’ai publié ce matin dans le quotidien Les Echos un article sur une nouvelle tendance qui arrive des Etats-Unis et d’Asie : utiliser les données publiques, les réseaux sociaux et les algorithmes prédictifs pour évaluer, en quelques minutes, les capacités de remboursement des individus ou des petites entreprises.

Pour évaluer le risque que représente un emprunteur, des start-up, (Affirm, Biz2credit, Zest Finance aux Etats-Unis…) et en Asie (Lenddo aux Philippines…).scannent des centaines de « signaux faibles » : temps passé à taper son adresse e-mail (pour détecter les copier-coller, souvent symptomatiques d’une adresse créée pour la circonstance…), horaire de la demande (les formulaires remplis la nuit suscitent la méfiance…), identité sur les réseaux sociaux, descriptif du travail sur Linkedin, nombre d’amis sur Facebook, heures et fréquence d’envoi des courriels…

Pour en savoir plus :

Comment le Big Data va bousculer le crédit

Big Data, datamining, Silicon Valley, tous fichés, Vie privée

Uber en sait-il plus sur nous que Facebook ? Ou une autre raison d’apprendre à nos enfants à respecter la vie privée.

20/11/2014 Jacques Henno Laisser un commentaire

L’entreprise spécialisée dans les véhicules avec chauffeur se vante de savoir qui a eu une aventure d’un soir.

Les anglo-saxons appellent cela le « walk of shame », « la marche de la honte », le trajet qui sépare son appartement de celui de son partenaire d’une nuit : quelqu’un rentre chez lui/elle, mal rasé ou sans maquillage, tôt le matin après avoir passé une partie de la nuit chez un/une partenaire rencontré(e) dans un bar, une soirée… Bradley Voytek préfère, lui, parler de « ride of glory » (trajet de la gloire).

Portrait de Bradley Voytek sur son site http://darb.ketyov.com/

Le plus troublant, c’est que Bradley Voytek est data evangelist (il promeut l’analyse des données) pour Uber, l’application qui permet de commander une voiture avec chauffeur. Et que Bradley Voytek se vante de pouvoir utiliser les données collectées par les ordinateurs de cette entreprise pour savoir qui a eu une aventure d’un soir… Sur le blog qu’il tient pour Uber, Bradley Voytek s’est livré à une longue analyse des « rides of glory » dans six villes américaines, démontrant leur augmentation en fin de semaine (le samedi matin et le dimanche matin) et, dans l’année, par exemple au moment du Tax Day (date limite, vers le 15 avril, aux Etats-Unis pour remplir sa déclaration de revenus ; certains Américains reçoivent alors un remboursement de la part du Fisc…). En revanche, le nombre de « rides of glory » s’effondre à l’approche de la Saint Valentin…

Evolution du nombre de « Rides of Glory » au cours d’une année (source : http://blog.uber.com/ridesofglory)

Dans un message précédent, Bradley Voytek avait même établi une corrélation, toujours grâce aux données collectées par Uber, entre le versement des chèques d’allocation et de la Sécurité sociale (les deuxième, troisième et quatrième mercredis du mois, aux Etats-Unis) et la fréquentation des prostituées.

Bien sûr, pour ses calculs, Bradley Voytek n’utilise que des données anonymisées. Mais avant d’être anonymisées, ces données correspondent à des cas réels dont elles révèlent toute la vie. Lors des réunions que les dirigeants d’Uber organisent avant l’ouverture de leur service dans une nouvelle ville, ces responsables auraient même utilisé un logiciel maison, baptisé « God view » (« Ce que voit Dieu », tout un programme…) pour montrer à leur assistance qu’ils pouvaient suivre en direct les déplacements de leurs clients… Ce qui constitue, bien sûr, une violation de la vie privée (sauf dans de très rare cas où cela serait justifié par des nécessités de service ou de sécurité).

Utilisation de God View lors du lancement de Uber à Boston (source : http://www.forbes.com/sites/kashmirhill/2014/10/03/god-view-uber-allegedly-stalked-users-for-party-goers-viewing-pleasure/)

Toutes ces informations sont remontées la surface à la suite d’une récente polémique opposant une journaliste de San Fransisco et un cadre d’Uber, qui se disait prêt à espionner la vie privée de cette dernière (dont il ne supporte pas les articles qu’elle consacre à son entreprise).

Au-delà de cette polémique, le plus choquant est, bien sûr, l’extrême indiscrétion des données collectées (par exemple, qui a fait un « walk of shame » et donc une rencontre d’une nuit, selon Uber) par une simple application sur un smartphone. Un sénateur américain vient d’ailleurs d’écrire aux dirigeants d’Uber pour leur demander des éclaircissements sur l’utilisation des données qu’ils collectent.

Si nous n’apprenons pas aujourd’hui à nos enfants à maîtriser leurs données, à faire respecter leur vie privée, demain ce sont les données des autres, qu’ils seront sans doute conduits à manipuler dans le cadre de leur travail, qu’ils ne respecteront pas. Et les outils formidables que constituent les nouvelles technologies pourraient bien donner naissance à une dictature numérique mondiale.

datamining, Les enfants et les nouvelles technologies, Silicon Valley, Silicon Valley / Prédateurs Vallée ?, surveillance totale, tous fichés, Vie privée

Pourquoi il faut apprendre aux enfants à bien paramétrer Facebook : demain, ce seront les données des autres qu’ils ne respecteront pas

07/07/2014 Jacques Henno Laisser un commentaire

Devenus adultes, les ados d’aujourd’hui travailleront peut-être dans l’analyse des données, un métier en plein essor. Si nous ne les aidons pas, maintenant, à faire respecter, sur Facebook, leur intimité et à respecter celle de leurs amis, ils risquent fort de ne pas acquérir de bons réflexes en termes de défense de la vie privée. Et de conserver ces comportements dans leur travail, où ils seront justement conduits à manipuler des données personnelles. Les conséquences pourraient être catastrophiques sur les libertés individuelles.

Adam D. I. Kramer, Jamie E. Guillory et Jeffrey T. Hancock – photos extraites de leurs profils Facebook ou Linkedin

Trois brillants trentenaires américains, Adam D. I. Kramer, «data scientist» (data scientifique ou chargé de modélisation des données) au service « Recherche » de Facebook, Jamie E. Guillory, chercheuse postdoctorale à l’université de San Francisco, et Jeffrey T. Hancock, professeur à l’université Cornell (Ithaca, état de New York), ont publié le 17 juin 2014 une étude intitulée « Preuve expérimentale de contagion émotionnelle à grande échelle par l’intermédiaire des réseaux sociaux » (« Experimental evidence of massive-scale emotional contagion through social networks »).

Ces trois titulaires d’un doctorat (en communication pour la jeune femme et en psychologie pour ses deux collègues) y affirment avoir modifié les contenus vus par 689 003 utilisateurs, consultant Facebook en anglais, du 11 au 18 janvier 2012 ; ils voulaient prouver que plus un internaute voyait de messages négatifs sur ce réseau, plus il aurait tendance à publier lui-même des messages négatifs ; inversement avec les messages positifs.

Les résultats de ce travail doivent être relativisés, puisque seulement 0,1% à 0,07% des internautes auraient modifié leur comportement. Mais sa révélation a, fort justement, suscité un tollé dans le monde entier : certes Facebook n’a rien à se reprocher sur le plan légal (1), mais avait-il le droit moral de manipuler ses utilisateurs ?

Voilà trois jeunes gens bardés de diplômes qui n’ont pas réfléchi aux conséquences de leurs agissements. Comment le pourraient-ils ? Voilà des années qu’ils dévoilent leur vie sur les réseaux sociaux : Jeffrey T. Hancock et Jamie E. Guillory utilisent Facebook depuis 2004, et Adam D. I. Kramer, depuis 2007.

Ils pourraient servir de cobayes pour une étude validant la prophétie que Mark Zuckberg, le fondateur de Facebook, fit en 2010 : « la vie privée n’est plus une norme sociale.» Comment des jeunes gens, à qui ce réseau social a fait perdre la notion même de vie privée, pour eux, mais aussi pour les autres – ce qui leur a donc fait ôter une grande partie de ce qui constitue le respect d’autrui-, pourraient-ils avoir des remords en manipulant les informations envoyées à des internautes ?

Voilà bien ce qui risque d’arriver si nous n’ouvrons pas les yeux de nos adolescents sur le modèle économique des sites Internet gratuits comme les réseaux sociaux (ils revendent nos données à des entreprises, sous formes de publicité) et si nous ne les sensibilisons pas au respect de la vie privée, entre autres en leur montrant comment paramétrer correctement leur profil Facebook : devenus adultes, s’ils travaillent sur des données personnelles, ils risquent de ne pas les estimer à leur juste valeur.

Or, ces données sont aussi précieuses que les êtres humains qu’elles représentent, puisqu’elles en constituent le « double numérique ».

Il est donc urgent de former les jeunes au respect des données : nombre d’entre eux vont devenir data scientist, comme Adam D. I. Kramer. On estime à un million le nombre de spécialistes de cette science qu’il va falloir former au cours des dix prochaines années dans le monde.

Nous vivons une « datafication (2) » de nos sociétés : bientôt tous les êtres humains, tous les objets produiront des données, par l’intermédiaire des capteurs dont ils seront équipés (un smartphone, par exemple, contient plusieurs capteurs permettant de suivre son propriétaire quasiment à la trace).

Schématiquement, on peut dire que l’analyse de cette quantité d’informations incroyables à laquelle l’humanité a désormais accès, constitue ce que l’on appelle le « Big Data » ; l’objectif du « Big Data » étant de trouver, au sein de ces données, des corrélations (des règles), qui vont expliquer des phénomènes jusqu’ici mystérieux. Puis de s’en servir pour réaliser des prédictions : quel traitement va le mieux marcher sur tel malade ? quelle pièce sur tel modèle d’avion assemblé telle année dans telle usine présente un risque de « casser » ? ou qui a le plus de chance de voter pour tel candidat (3) ?

Voici ce qu’a répondu Stéphane Mallat, 50 ans, mathématicien, professeur à l’Ecole Normale Supérieure de Paris, lorsque j’ai demandé si les scientifiques n’avaient pas l’impression, avec le Big Data, de jouer avec le feu :«[…] un outil scientifique, on le sait très bien, on peut l’utiliser à des objectifs qui peuvent être complètement différents. Une roue, ça peut servir à faire un char de guerre tout comme à transporter de la nourriture. C’est absolument clair que les outils de Big Data peuvent avoir des effets nocifs de surveillance et il faut pouvoir le contrôler, donc là, c’est à la société d’établir des règles et surtout d’abord de comprendre la puissance pour pouvoir adapter la législation, les règles à l’éthique. A partir de là, en même temps, il faut bien réaliser qu’avec ces outils, on est capable de potentiellement considérablement améliorer la médecine, notamment en définissant des cures qui ne sont plus adaptées à un groupe de population, mais à une personne en fonction de son génome de son mode de vie.[…] Donc ce que je pense, c’est que c’est un outil extraordinairement riche et ensuite, c’est à nous tous en termes de société de s’assurer qu’il est utilisé à bon escient. (4) »

Commençons par éduquer nos ados au respect de leur propre vie privée.

___
(1) La Politique d’utilisation des données de Facebook précise « […] nous pouvons utiliser les informations que nous recevons à votre sujet : […] pour des opérations internes, dont le dépannage, l’analyse de données, les tests, la recherche et l’amélioration des services.»
(2) Victor Mayer-Schönberger, Kenneth Cukier, « Big Data A revolution that will transform how we live, work and think», Hougthon Mifflin Harcourt, Boston New York, 2013 p. 15
(3) voir mon livre « Silicon Valley / Prédateurs Vallée ? Comment Apple, Facebook, Google et les autres s’emparent de nos données »
(4) le phénomène Big Data, Les fondamentales (CNRS), La Sorbonne, 15 novembre 2013, à réécouter sur http://ift.tt/1snUCUo (je pose ma question 1H05 après le début du débat).

datamining, Les enfants et les nouvelles technologies, Silicon Valley, Silicon Valley / Prédateurs Vallée ?, surveillance totale, tous fichés, Vie privée

Pourquoi il faut apprendre aux enfants à bien paramétrer Facebook : demain, ce seront les données des autres qu'ils ne respecteront pas

07/07/2014 Jacques Henno Laisser un commentaire

Adam D. I. Kramer, Jamie E. Guillory et Jeffrey T. Hancock – photos extraites de leurs profils Facebook ou Linkedin

Or, ces données sont aussi précieuses que les êtres humains qu’elles représentent, puisqu’elles en constituent le « double numérique ».

Commençons par éduquer nos ados au respect de leur propre vie privée.

datamining, surveillance totale, tous fichés, US-Visit (United States Visitor and Immigrant Status Indicator Technology)

L’Amérique construit sa cyber « ligne Maginot »

28/01/2004 Jacques Henno Laisser un commentaire

Pour lutter contre le terrorisme visant son territoire, le gouvernement américain s’est lancé dans d’impressionnants développements informatiques. Certains doutent de leur efficacité et craignent pour les libertés publiques.

ENGLISH

Il y a un peu plus d’un mois, au moment de Noël, le gouvernement français, alerté par les agences de renseignement américaines, annulait six vols d’Air France pour Los Angeles. En croisant les fichiers des passagers avec leurs bases de données, les services secrets de Washington croyaient tenir un suspect. Il y aurait eu en fait une homonymie : le nom d’un terroriste aurait été mal transcrit, puis confondu avec celui d’un voyageur. Cette erreur illustre les difficultés que pose l’incroyable défi technologique relevé par Washington, à coups de centaines de millions de dollars : développer des systèmes informatiques capables de détecter à l’avance toute action d’Al-Qaida.

Ce programme repose sur un postulat tactique et technique. Il s’agit d’abord d’appliquer à la lutte antiterroriste une méthode déjà utilisée contre d’autres formes de criminalité, en particulier le blanchiment d’argent sale : identifier les criminels grâce aux messages qu’ils doivent échanger entre eux et avec des prestataires (banques, compagnies aériennes, hôtels, etc.). « Les transactions commerciales doivent être exploitées pour découvrir les terroristes, insiste un responsable du département américain de la Défense. Ces gens émettent forcément un signal qu’il nous faut capter parmi les autres transactions. C’est comparable à la lutte anti-sous-marins où il faut repérer les submersibles au milieu d’un océan de bruits. »

La seconde conviction est technologique : les outils informatiques seront bientôt assez puissants pour analyser tout ce qui se trame dans le monde. Aux Etats-Unis, dont l’histoire est jalonnée de prouesses techniques, des chemins de fer transcontinentaux aux navettes spatiales, penser cela n’a rien de surprenant. « La confiance dans la technique est une des caractéristiques du peuple américain, rappelle Guillaume Parmentier, directeur du Centre français sur les Etats-Unis, affilié à l’Ifri (Institut français des relations internationales). C’est encore plus vrai dans les cercles gouvernementaux proches des milieux d’affaires. Donald Rumsfeld, le secrétaire à la Défense, croit que l’on peut tout résoudre par la technologie. »

Un chercheur en informatique connaissant bien les services de renseignement américains estime la chose techniquement possible : « Cela n’a rien d’une chimère. Avec Echelon, leur réseau d’antennes géantes, les agences fédérales sont capables d’intercepter la plupart des messages échangés dans un pays sous une forme numérique. Certes, après, il faut tout transcrire et trier… Mais ces experts savent déjà analyser toutes les émissions de télé ou de radio diffusées aux Etats-Unis, avec 20 % d’erreur. Alors, faire une sorte de « Google » des écoutes, en indexant toutes les communications électroniques échangées dans le monde, ce n’est plus de la science-fiction. »

Dans cette énorme machinerie, l’identification des passagers est le problème le moins difficile. Le gouvernement fédéral va investir 710 millions de dollars dans le programme US-Visit (United States Visitor and Immigrant Status Indicator Technology), qui va permettre de vérifier, grâce à la biométrie, les empreintes des touristes en possession d’un visa. Et un système de présélection des passagers par ordinateur, Capps 2 (Computer Assisted Passenger Pre-screening System 2), est en test dans quelques aéroports. Il rassemble les données disponibles sur les voyageurs et attribue à ces derniers un code couleur en fonction de leur dangerosité estimée. Coût : plus de 164 millions de dollars.

Pour que ces systèmes déclenchent l’alarme à bon escient, ils doivent être alimentés en informations fiables. Chaque logiciel impliqué dans la chaîne du renseignement doit être revu. Il faut traduire des informations d’origines très diverses : fournies par les gouvernements alliés, remises gracieusement (c’est le cas des fichiers des lignes aériennes) ou contre paiement par des entreprises commerciales, ou encore interceptées par Echelon. Puis, il faut agréger ces données éparpillées entre plusieurs dizaines d’agences (sécurité intérieure, affaires étrangères, défense…), les croiser et analyser le tout. « C’est du datamining, mais appliqué à une masse d’informations inimaginable, explique Serge Abiteboul, spécialiste de la gestion de données de très gros volume à l’Inria (Institut national de recherche en informatique et en automatique). La « fouille de données » peut permettre de découvrir des informations intéressantes sans savoir a priori où celles-ci se trouvent, ni même exactement à quoi s’attendre. » Elle révèle ainsi des schémas de comportement auxquels on n’avait pas a priori pensé, et permet de s’en servir ensuite de manière prédictive. Or, quelques-uns des meilleurs experts en datamining sont justement aux Etats-Unis, en particulier chez IBM.

Dans l’ombre, les chercheurs de dizaines d’entreprises ou de laboratoires universitaires travaillent ainsi à la mise au point d’un système de surveillance de la planète. La société Language Weaver affûte des logiciels de traduction plus fiables, tandis que le CNLP (Center for Natural Language Processing), de l’université de Syracuse (Etat de New York), peaufine un programme qui apprend à identifier les comportements suspects. A Atlanta, Nexidia planche sur les données audio-vidéo. Dans la Silicon Valley, Inxight améliore l’agrégation des informations. Andrew More et Jeff Schneider, de l’université Carnegie-Mellon, à Pittsburgh, combinent probabilités et datamining. En Virginie, la firme SRA International travaille sur l’extraction de données, etc.

Le financement ? Aucun problème. Depuis le 11 septembre 2001, les fonds publics consacrés à ces recherches ont été démultipliés. Et les investisseurs privés voient là un bon moyen de concilier patriotisme et business. « En 2004, rien qu’en recherche-développement, les agences fédérales vont consacrer plus de 3,5 milliards de dollars à la sécurité intérieure, c’est-à-dire à l’antiterrorisme », a calculé Serge Hagège, attaché pour la science et la technologie à l’ambassade de France aux Etats-Unis.

Dans le privé, une mini-bulle spéculative s’est même formée autour de ces activités de surveillance. « Toutes les entreprises qui travaillent dans le datamining ont le vent en poupe », confirme Timothy Quillin, analyste financier chez Stephens, une banque de gestion de portefeuilles et un des rares spécialistes de l’informatique de défense et de sécurité. En Bourse, les investisseurs parient sur les groupes proposant des solutions complètes aux agences fédérales. En 2003, SRA International a ainsi vu son action progresser de 40 %.

Mais cette fièvre sécuritaire a également contaminé le capital-risque, qui a vu éclore des fonds voués à la défense et à la sécurité. Modèle du genre ? Le Homeland Security Fund, de Paladin Capital Group, à Washington, qui finance la protection des réseaux informatiques et des logiciels ou l’analyse de fichiers audio et vidéo. Or, deux des patrons de Paladin connaissent bien les besoins des services secrets : James Woolsey a dirigé la CIA et Kenneth Minihan, la NSA (National Security Agency).

Des chercheurs motivés, de l’argent à profusion… En dehors des problèmes de faisabilité technique, il semble n’y avoir qu’un obstacle à la construction de cette cyber « ligne Maginot » autour des Etats-Unis : les associations américaines de défense des droits de l’homme (lire page suivante). Sous leur pression, le gouvernement a renoncé à son projet initial : mettre en fiches l’humanité ou presque. L’IAO (Information Awareness Office), dirigé par l’amiral John Poindexter et doté d’un budget de près de 600 millions de dollars sur quatre ans, devait développer le projet Total Information Awareness (TIA), un gigantesque système capable d’accumuler des informations sur n’importe quel individu.

En septembre dernier, le TIA a été officiellement arrêté devant l’inquiétude du Congrès, et les agences de renseignement ont interdiction d’utiliser ce qui existait déjà du projet pour espionner des citoyens américains aux Etats-Unis. Dans le même temps, l’IAO a disparu des organigrammes. Mais la retraite du gouvernement n’a été qu’une stratégie de façade. « Les composantes du TIA ont été dispersées entre différentes agences fédérales », estime Steven Aftergood, responsable de la mission « Secret d’Etat » au sein de la FAS, la Fédération des scientifiques américains (3.000 personnalités, dont 50 Prix Nobel). Et, comme par hasard, l’Arda (agence de recherche des services secrets américains) finance actuellement un programme, NIMD (Novel Intelligence from Massive Data), très proche du TIA…

Dernier épisode en date : la semaine dernière, George W. Bush a profité de son discours sur l’Etat de l’Union pour appeler les législateurs à renouveler certaines clauses du Patriot Act. Ces clauses, qui concernent la surveillance des communications électroniques des individus, étaient censées expirer fin 2005.

Jacques Henno (article paru dans le quotidien Les Echos le 28 janvier 2004)

datamining, surveillance totale, tous fichés, US-Visit (United States Visitor and Immigrant Status Indicator Technology)

L'Amérique construit sa cyber « ligne Maginot »

28/01/2004 Jacques Henno Laisser un commentaire

ENGLISH

Des chercheurs motivés, de l’argent à profusion… En dehors des problèmes de faisabilité technique, il semble n’y avoir qu’un obstacle à la construction de cette cyber « ligne Maginot » autour des Etats-Unis : les associations américaines de défense des droits de l’homme (lire page suivante). Sous leur pression, le gouvernement a renoncé à son projet initial : mettre en fi
ches l’humanité ou presque. L’IAO (Information Awareness Office), dirigé par l’amiral John Poindexter et doté d’un budget de près de 600 millions de dollars sur quatre ans, devait développer le projet Total Information Awareness (TIA), un gigantesque système capable d’accumuler des informations sur n’importe quel individu.

Jacques Henno (article paru dans le quotidien Les Echos le 28 janvier 2004)

Les Nouvelles Technologies et Nous

Archives de catégorie : datamining

Quand le faux se mêle au vrai pour traiter les données

Comment le Big Data va bousculer le crédit

Uber en sait-il plus sur nous que Facebook ? Ou une autre raison d’apprendre à nos enfants à respecter la vie privée.

Pourquoi il faut apprendre aux enfants à bien paramétrer Facebook : demain, ce seront les données des autres qu’ils ne respecteront pas

Pourquoi il faut apprendre aux enfants à bien paramétrer Facebook : demain, ce seront les données des autres qu'ils ne respecteront pas

L’Amérique construit sa cyber « ligne Maginot »

L'Amérique construit sa cyber « ligne Maginot »

Internet, téléphone mobile, jeux vidéo… la révolution numérique affecte toute notre vie