La donnée dans tous ses états

Big Data et intelligence artificielle Les algorithmes deviennent les nouveaux oracles

Créé le

13.09.2018

-

Mis à jour le

25.09.2018

La combinaison du développement du Big Data et de l’intelligence artificielle ouvre des potentialités nouvelles avec l’utilisation d’algorithmes plus performants. Mais il ne faut pas sous-estimer les risques de discrimination dont ils sont porteurs et les enjeux politiques et éthiques qu’ils sous-tendent.

L’intelligence artificielle est sur toutes les lèvres. Présentée alternativement comme vecteur d’innovations incommensurables ou de destruction d’emplois, voire annonçant l’émergence d’une singularité technologique, cette « science qui consiste à faire faire aux machines ce que l’homme ferait moyennant une certaine intelligence » [1] reste encore mal cernée. À cet égard, le rapport rendu par le député Cédric Villani en mars 2018 a été un véritable catalyseur des espoirs et des craintes exprimés par le grand public. Pourtant, d’une certaine manière, l’IA n’est rien d’autre que l’application de techniques algorithmiques. Or, les algorithmes – dont le terme provient du mathématicien persan Al Khwarizmi ayant introduit l’algèbre en Europe au IXe siècle – sont loin de constituer une nouveauté. En effet, un algorithme n’est qu’une succession finie d’opérations précises afin d’effectuer un calcul ou de résoudre un problème. En ce sens, une recette de cuisine constituait déjà un algorithme tout comme aujourd’hui un système de guidage GPS. Utilisé depuis Euclide et son plus grand diviseur commun à deux nombres, il n’a donc pas fallu attendre l’arrivée des machines pour que la fonction de triage et de collecte des données s’effectue. Alors pourquoi cet engouement ? D’une part, parce que les données sont devenues plus que jamais massives. D’après l’Organisation des Nations Unies, plus de data ont été créées en 2011 que dans toute l’histoire de l’humanité [2] . D’autre part, parce que les algorithmes sont devenus de plus en plus sophistiqués. L’intelligence artificielle est ainsi présentée comme une « nouvelle catégorie d’algorithmes », pouvant notamment apprendre de manière supervisée ou non supervisée, à partir des données qui lui sont fournies. Ce qui a conduit la Commission Nationale Informatique et Libertés (CNIL) à consacrer une étude sur les enjeux éthiques des algorithmes, distinguant à cette occasion les algorithmes d’intelligence artificielle des programmes informatiques traditionnels, en ce que les instructions à exécuter ne sont plus programmées explicitement par un développeur humain, mais sont désormais générées par la machine elle-même, qui apprend à partir des données dont elle se nourrit. [3]

 

CHANGEMENT DE PARADIGME

Ainsi, les algorithmes ont la capacité d’analyser et de traiter des volumes massifs de données. Ils permettent un véritable changement de paradigme statistique. Grâce au Big Data, les algorithmes ne sont plus tributaires de « la moyenne », cette fiction qui nous permettait de mieux comprendre un ensemble statistique en se focalisant sur un échantillon et en extrapolant les résultats. Auparavant, la masse de données disponible ne concernait jamais l’ensemble de la population, et méconnaissait volontairement les comportements minoritaires au profit des comportements les plus fréquents. Désormais, plus question d’éviter les points de données trop écartés de la moyenne, le Big Data prend tout en compte, indistinctement. Il ne s’agit plus de déduire, c’est-à-dire de partir d’hypothèses et de modèles pour aboutir à une conclusion, mais d’induire une loi générale à partir de l’observation des data. Les données remplacent ainsi les faits, et les algorithmes deviennent les nouveaux oracles.
Ce changement de paradigme ouvre un nouvel horizon des possibles. Dans le domaine de la santé, l’avènement du Big Data et de l’intelligence artificielle permet chaque jour des avancées prodigieuses. Ainsi, le Human Brain Project financé par la Commission européenne a agrégé les images acquises par une centaine d’hôpitaux sur des millions de patients avec pour objectif de modéliser entièrement le cerveau humain. Un tel programme permettrait aux médecins de poser des diagnostics précoces, avant l’apparition des premiers signes cliniques. En matière fiscale, la HRMC, le fisc britannique, utilise un logiciel intitulé Connect qui modélise et cartographie des modèles de comportements de fraude ou d’évasion fiscale. Ce logiciel permet de comparer les déclarations faites avec la réalité de votre train de vie, par exemple lorsque vous publiez des photographies. En 2014, 83 % des enquêtes fiscales au Royaume-Uni ont été ouvertes suite à un signalement du logiciel. Les applications possibles sont extrêmement variées et peuvent révolutionner des champs aussi divers que les techniques d’enquête, la reconnaissance d’images, le calcul de risque de récidive, le profilage d’individus à risque criminel ou terroriste.
Si les opportunités offertes par le développement du Big Data et de l’intelligence artificielle semblent promettre des lendemains qui chantent, cela ne doit pas nous faire sous-estimer le risque inhérent à ces technologies. Un développeur, par exemple, ne peut pas forcément prévoir l’évolution de son programme ni ses résultats futurs. Aisément, on peut envisager la multitude de problèmes que cela peut soulever. D’abord, si les algorithmes deviennent inaccessibles à leurs développeurs, quelle marge existe-t-il pour tenter de les comprendre, de les interroger, ou encore de les contester ? En effet, de plus en plus d’algorithmes ne sont pas seulement utilisés pour apporter des informations, mais aboutiront à prendre des décisions qui impactent nos vies. Dès lors, le fait de déléguer nos décisions quotidiennes à ces boîtes noires soulève plusieurs enjeux démocratiques et éthiques de première importance. Serons-nous en mesure de débattre du fonctionnement d’outils que nous ne sommes pas toujours capables de comprendre ? Risquons-nous de diluer notre responsabilité en nous remettant à leur diagnostic ? Comment vérifier les critères utilisés par ces algorithmes ? Ceux-ci sont-ils biaisés ou discriminants ? Toutes ces questions doivent pouvoir être posées de manière sereine, afin de construire collectivement une éthique algorithmique.

 

LA SOCIETE DE LA BOITE NOIRE

Dans son livre The Black Box Society [4] , le professeur de droit à l’Université du Maryland, Frank Pasquale, interpelle sur la puissance de ces algorithmes cachés qui influencent nos choix, statuent sur notre solvabilité, jugent de notre employabilité : « Une société de cartes de crédit peut-elle s’autoriser à augmenter le taux d’intérêt d’un couple parce qu’il consulte un conseiller matrimonial ? Si oui, les titulaires de cartes devraient-ils en être informés ? ». Ainsi, un usage éthique de ces technologies apparaît de plus en plus indispensable. Dans son rapport annuel de 2016, la Federal Trade Commission – l’agence fédérale américaine indépendante pour l’application du droit de la consommation et le contrôle des pratiques commerciales anticoncurrentielle tels que les monopoles déloyaux – a énuméré plusieurs affaires dans lesquelles des algorithmes ont été utilisés pour refuser des droits à des individus sur la base des actions d’autres personnes présentant des caractéristiques similaires. Il a ainsi été démontré qu’une société de cartes de crédit diminuait le plafond de certains de ses clients, à partir de l’analyse effectuée sur d’autres clients fréquentant les mêmes magasins qu’eux et présentant de mauvais historiques de remboursement. Une autre société de carte de crédit a également transigé avec la FTC en raison de ses pratiques de notation des consommateurs. Elle variait selon que les cartes de crédit révélaient des choix, comme la consultation d’un conseiller marital [5] . Cette tendance au profilage comportemental dessine des profils de gestion des risques. Les critères utilisés pour la détermination de droits essentiels – tels que la sélection précontractuelle, l’accès à certains droits sociaux, l’octroi d’un crédit, d’une assurance, d’un emploi – sont ignorés des personnes concernées. Le Professeur Frank Pasquale explique ainsi que « Trois organismes de crédit, à savoir Experian, TransUnion et Equifax, notent régulièrement des millions de personnes. Mais cette notation ne s’effectue pas toujours de la même façon. Une étude réalisée sur 500 000 dossiers montre que 29 % des consommateurs avaient des scores qui différaient d’au moins 50 points d’un organisme de crédit à l’autre. Cinquante points, cela peut représenter des dizaines de milliers de dollars supplémentaires à payer sur la durée d’un emprunt. À moins que les intentions des différents organismes de crédit divergent sur des aspects secrets, une telle différence laisse penser que le processus d’évaluation est on ne peut plus arbitraire [6] . » Le prix Nobel d’économie Jean Tirole souligne également ce danger de sélection des risques, déjà perceptible dans les contrats collectifs d’assurance, notamment au détriment des chômeurs et des personnes âgées dont la santé est plus fragile [7] .

 

LES RISQUES DE DISCRIMINATIONS ALGORITHMIQUES

Le risque du profilage comportemental, que ce soit pour des applications aussi variées que le maintien de la sécurité nationale ou la prévention des mauvais payeurs, peut conduire à l’établissement de listes noires. Les discriminations algorithmiques constituent ainsi l’un des risques majeurs du recours à ces nouveaux artefacts. Tout citoyen s’exposerait à la possibilité d’être dans l’impossibilité de contester les décisions issues de ces algorithmes qui fonctionnent en toute opacité. Prenons l’exemple du client d’une banque ayant parmi ses contacts une personne sans-emploi ou étant déjà en retard sur ses échéances. Ce dernier pourrait-il voir diminuer ses chances d’obtenir un crédit et être sélectionné au regard de ses fréquentations ? C’est ce que fait Wonga, une start-up britannique qui répond aux demandes de crédit en fonction du moment de la journée où celles-ci sont formées, permettant ainsi de déterminer si une personne est au chômage ou non. Une autre start-up allemande, Kreditech, répertorie 20 000 sources de données, allant des données de localisation, du graphe social de Facebook – les likes, amis, localisation des postes – aux modalités de navigation sur le Web, pour déterminer sa réponse. L’entreprise ZestFinance prend, quant à elle, comme critère la vitesse à laquelle les utilisateurs font défiler les conditions d’utilisation de leur site, ou le fait que les candidats tapent seulement en lettres minuscules ou majuscules.
Que l’algorithme soit par nature discriminant au sens où il distingue, discerne et traite différemment les individus en fonction de certaines de leurs caractéristiques, cela ne crée pas en soi de difficultés, dans la mesure où cela relève de sa fonction. Il convient par contre de s’assurer que cela soit réalisé sur la base de critères objectifs et socialement acceptables, à l’abri de l’établissement de listes d’exclusion, comme des listes noires d’interdit bancaires sur des critères farfelus. Ces mécanismes doivent le cas échéant être contrôlés, sans que ne puisse constamment être invoqué un secret des affaires comme justification pour faire obstacle à l’accès aux logiques employées.

 

POUVOIR CONTESTER LES CRITERES SOUS-JACENTS AUX ALGORITHMES

Le problème soulevé par le déterminisme algorithmique est celui de la confusion entre cause et effets. Loin d’être propre à l’avènement des nouvelles technologies, il était déjà mis en avant par Spinoza qui avait tenté un travail de clarification intellectuelle en distinguant cause adéquate et inadéquate. Seulement, le droit ne peut s’encombrer de tels brouillards : son essence même est de se plonger dans une analyse complexe de l’individu pour juger l’acte. D’importants débats voient déjà le jour avec la prévention de la récidive judiciaire ou de certaines maladies diagnostiquées, que ce soit l’estimation par la start-up 23andMe des probabilités de développer la maladie d’Alzheimer et de Parkinson, ou encore des prévisions d’effondrement des marchés financiers. De nombreux rapports publics appellent à ce que toute personne faisant l’objet d’un profilage puisse connaître la logique algorithmique en cas de traitement automatique [8] . L’accès au fonctionnement des algorithmes est-il aujourd’hui possible en France ? Il convient de distinguer les algorithmes développés par une initiative publique ou privée.
Faisant écho au scandale survenu en 2016 au sujet de l’opacité de la plateforme Admission post-Bac (dite APB) pour l’orientation des nouveaux bacheliers, afin de simplifier les démarches d’inscription dans l’enseignement supérieur, la loi pour une République numérique a consacré le principe de l’ouverture des algorithmes publics. Elle prescrit désormais que toute décision administrative individuelle basée sur un algorithme doit expressément le mentionner [9] . L’administration doit ainsi indiquer explicitement si une décision individuelle est prise sur le fondement d’un traitement algorithmique, communiquer les procédés du traitement et les principales caractéristiques de sa mise en œuvre à toute personne qui en ferait la requête [10] .
Concernant les algorithmes développés par des entités privées, l’article 15-1 de la directive européenne 95/46/CE sur les données personnelles énonçait déjà que : « Les États membres reconnaissent à toute personne le droit de ne pas être soumise à une décision produisant des effets juridiques à son égard ou l’affectant de manière significative, prise sur le seul fondement d’un traitement automatisé de données destiné à évaluer certains aspects de sa personnalité, tels que son rendement professionnel, son crédit, sa fiabilité, son comportement, etc. ». Le RGPD, Règlement européen sur les données personnelles du 27 avril 2016, entré en vigueur le 25 mai 2018, reprend cette disposition en son article 22-1. Si la connaissance des logiques sous-jacentes à un algorithme privé est en théorie possible, elle est néanmoins largement limitée dans son application. En effet, le considérant 63 du RGPD prive toute personne concernée d’accéder à ces informations dès lors qu’elle est protégée par le secret des affaires ou relève d’un droit de propriété intellectuelle.
L’efficacité promise par l’utilisation d’algorithmes performants ne devrait pas empêcher d’en interroger les critères sous-jacents. Dans ce contexte, se pose désormais la question de savoir s’il conviendrait de créer des mécanismes d’audit des algorithmes, par exemple par l’intermédiaire d’un collège d’experts indépendants. Ce phénomène de discrimination algorithmique est en effet renforcé par le fait que les algorithmes propriétaires, appartenant à de grandes entreprises, opèrent comme des boîtes noires pour leurs utilisateurs dont ils traitent les données. Or, les données nourricières ne sont pas toujours complètes, correctes ou actualisées. Leur sélection comme la codification des algorithmes peut répliquer les préjugés sociaux ou personnels. Les risques de discrimination ne doivent donc pas être minorés. Le premier risque survient lorsque les données collectées au début de la chaîne (input) sont incomplètes, fausses ou inexactes et aboutissent à la sortie (output) à une discrimination peut-être involontaire, mais dont les effets sont bien réels. Dans ce cas, une solution reposerait déjà sur un nettoyage régulier des données et de leur collecte, afin de les rendre les plus complètes et exactes possibles. Tel est, le « coup data » au centre de notre réflexion [11] : le fait de donner aux données une place prépondérante sans pouvoir contrôler les mécanismes de collecte, d’analyse et les différentes utilisations qui en sont faites. Questionnons les algorithmes, leurs modalités de conception, car l’usage technologique ne devrait pas s’extraire au contrôle démocratique.

1 Définition de l’IA par l’un de ses créateurs, le scientifique américain Marvin Minsky. 2 Entretien de Robert Kirkpatrick avec Marie O’Reilly, « The Value of of Big Data », The Global Observatory, 5 novembre 2012. 3 Rapport de la CNIL de décembre 2017, Comment permettre à l’homme de garder la main ? Les enjeux éthiques des algorithmes et de l’intelligence artificielle. 4 The Black Box Society: the secret algorithms that control money and information, 6 janvier 2015, Harvard University Press. 5 FTC c/ CompuCredit Corp., No. 1:08-cv-1976-BBM-RGV (N.D. Ga. June 10, 2008). 6 Frank Pasquale, Black Box Society, op. cit., éd. française, The Black Box Society – Les algorithmes secrets qui contrôlent l’économie et l’information, Éditions FYP, 2015, p. 43. 7 Jean Tirole, Économie du bien commun, Presses universitaires de France, 2016, pp. 543-544. 8 « Le numérique et les droits fondamentaux », étude annuelle 2014 du Conseil d’État, La documentation française. 9 Juliette Crouzet, « Déchiffrer l’algorithme : la saga Admission post-bac (APB) se poursuit », Revue Lamy droit de l’immatériel n° 142, 2017. 10 Code des relations entre le public et les administrations, art. L. 311-3-1. 11 Adrien Basdevant et Jean-Pierre Mignard, L’Empire des données – Un essai sur la société, les algorithmes et la loi, Don Quichotte-Seuil, mars 2018.

Documents à télécharger:
Link
À retrouver dans la revue
Banque et Droit NºHS-2018-2
Notes :
11 Adrien Basdevant et Jean-Pierre Mignard, L’Empire des données – Un essai sur la société, les algorithmes et la loi, Don Quichotte-Seuil, mars 2018.
1 Définition de l’IA par l’un de ses créateurs, le scientifique américain Marvin Minsky.
2 Entretien de Robert Kirkpatrick avec Marie O’Reilly, « The Value of of Big Data », The Global Observatory, 5 novembre 2012.
3 Rapport de la CNIL de décembre 2017, Comment permettre à l’homme de garder la main ? Les enjeux éthiques des algorithmes et de l’intelligence artificielle.
4 The Black Box Society: the secret algorithms that control money and information, 6 janvier 2015, Harvard University Press.
5 FTC c/ CompuCredit Corp., No. 1:08-cv-1976-BBM-RGV (N.D. Ga. June 10, 2008).
6 Frank Pasquale, Black Box Society, op. cit., éd. française, The Black Box Society – Les algorithmes secrets qui contrôlent l’économie et l’information, Éditions FYP, 2015, p. 43.
7 Jean Tirole, Économie du bien commun, Presses universitaires de France, 2016, pp. 543-544.
8 « Le numérique et les droits fondamentaux », étude annuelle 2014 du Conseil d’État, La documentation française.
9 Juliette Crouzet, « Déchiffrer l’algorithme : la saga Admission post-bac (APB) se poursuit », Revue Lamy droit de l’immatériel n° 142, 2017.
10 Code des relations entre le public et les administrations, art. L. 311-3-1.