Traçabilité

Quand l’algorithme pêche la donnée personnelle

Créé le

12.07.2017

Mis à jour le

04.12.2017

RGPD, loi pour une république numérique, règlement e-Privacy : autant de textes qui confirment que la protection des données personnelles est devenue un impératif en Europe. Pour autant, si ces différentes réglementations encadrent strictement l’exploitation des données personnelles, il semblerait que l’algorithme constitue une brèche, à l’heure de l’intelligence artificielle et de l’évolution rapide de l’utilisation de l’espace numérique. Ce n’est donc pas un hasard si la CNIL a décidé d’organiser une consultation publique sur ce sujet. L’objectif étant de trouver des réponses à la question de l’autonomie de l’individu dans « un monde algorithmé ».

Dès lors que l’on se connecte sur la toile, la rencontre avec l’algorithme est désormais inévitable pour atteindre l’information que l’on recherche. S’agissant de l’industrie financière, les algorithmes sont bien connus sur les marchés financiers. En effet, instruments du trading à haute fréquence, ils font l’objet d’un encadrement dans la nouvelle directive européenne MIF 2. Cependant, l’avènement des robo-advisors et l’essor des banques en ligne ou mobiles laissent craindre une utilisation accrue de la traçabilité des personnes dans le secteur financier également.

De la trace à la donnée personnelle

Quel que soit le secteur, les traces laissées par les individus, que ce soit directement lorsqu’ils se connectent ou à travers les métadonnées, peuvent conduire à les identifier. Désormais, les algorithmes d’apprentissage permettent d’analyser et de classer la masse de données numériques générées par les utilisateurs, mais aussi de les suivre et d’anticiper leurs centres d’intérêt. Cette data est largement exploitée sur le net pour proposer diverses offres publicitaires aux utilisateurs. Cependant, en tant que telle, une seule trace ne permet pas d’identifier une personne. C’est l’agrégation de l’ensemble des traces, autrement dit le profilage, qui amène l’algorithme dit « d’apprentissage » à identifier la personne. La question de savoir si une trace peut être considérée comme une « donnée personnelle » se pose alors. Selon Jean-Marc Deltorn, chercheur au Centre d'études internationales de la propriété intellectuelle de l’Université de Strasbourg, « même si la capacité d’identification des procédés d’inférence statistique peut se suffire de traces de plus en plus infimes, imposer un contrôle sur ces données élémentaires au fondement du droit positif ou du Règlement serait aussi superflu que chimérique et nuirait, par inapplicabilité pratique de la règle, à l’effectivité de son principe de protection » [1] .

Que signifie « donnée personnelle » ?

En vertu de l’article 4 du RGPD, il faut entendre par « données à caractère personnel » « toute information se rapportant à une personne physique identifiée ou identifiable ». Est réputée comme une « personne physique identifiable » « une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu'un nom, un numéro d'identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale ». Pour Jean-Marc Deltorn, « c’est donc dans l’objectif ultime du traitement de l’information issue des données brutes, et non dans la trace elle-même, qu’il faut trouver une assise à l’interprétation : dès lors qu’une information a pour fonction de permettre l’identification d’un individu, elle le rend identifiable, et entre donc, en tant que telle, dans la définition de l’article 4 § 1 ; elle devient – à ce stade seulement – une “donnée à caractère personnel”. La collecte de données brutes ne devrait pas entrer dans le régime de protection par le Règlement, dans la mesure où elles servent seulement à mesurer une activité d’ensemble. En revanche, la construction d’un jeu de traces – aussi élémentaires soient-elles –, l’élaboration d’un ou de plusieurs profils – à granularité variable – en vue de suivre, retrouver ou cibler un individu produira une information à caractère personnel protégée au titre de la loi du 6 janvier 1978 et du Règlement » [2] .

En effet, face à l’exploitation économique accrue de la data, la captation de l’historique des navigations des utilisateurs intéresse les régulateurs. Ainsi, le projet de règlement e-Privacy, en cours de discussion au Parlement européen, entend faire entrer les métadonnées, soit les « données sur les données » comme par exemple une adresse IP, l’identification de l’expéditeur et du destinataire, la géolocalisation, la date, la durée, dans le champ des règles de protection des données de contenu. En effet, le projet de règlement e-Privacy relève dans ses exposés de motifs que « les métadonnées découlant de communications électroniques peuvent aussi révéler des informations très sensibles et personnelles […] qui permettent de tirer des conclusions précises sur la vie privée des personnes, comme leurs rapports sociaux, leurs habitudes et activités au quotidien, leurs intérêts, leurs goûts, etc. » S’agissant des cookies, le projet de règlement (article 8) prévoit aussi que le stockage et la lecture d'informations relatives à l'internaute dans son équipement terminal seraient interdits sauf dans certains cas (consentement de l’utilisateur, mesure de l’audience d’un site etc.).

Incompréhension des techniques de profilage

Si la trace à elle seule ne rentre pas dans le cadre de la définition juridique de « donnée à caractère personnel », la collecte et le traitement des données produites par un individu fait l’objet d’un encadrement réglementaire. L’article 22 du règlement dispose ainsi que « la personne concernée a le droit de ne pas faire l'objet d'une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l'affectant de manière significative de façon similaire. » [3] . Toutefois, de par l’illisibilité de leur fonctionnement, la puissance technologique des algorithmes peut mener au profilage de manière détournée. « La définition de la donnée personnelle résiste aux effets de l’algorithme, l’opacité de ce dernier (les transformations opérées au sein des modèles prédictifs) entrave néanmoins l’exercice pratique de la protection. Une opacité qui se manifeste par le fait que toute donnée brute est susceptible de participer à des collections identifiantes, mais aussi par le fait que le passage de la trace à l’information à caractère personnel se fait dans la machine (c’est-à-dire de manière délocalisée, hors du contrôle de l’utilisateur) » explique Jean-Marc Deltorn.

L’exigence de consentement de l’utilisateur

Du côté du droit, « le RGDP pose un principe général de transparence (article 12). Il s’agit d’un changement de paradigme dans la protection des données » affirme Clémence Scottez, Chef du service des affaires économiques de la CNIL. Par ailleurs, l’article 6 du règlement dispose que le traitement des donnés n’est licite que si « la personne concernée a consenti au traitement de ses données à caractère personnel pour une ou plusieurs finalités spécifiques ». De la même manière, s’agissant du profilage, l’article 22 du règlement prévoit qu’une personne peut faire l'objet d'une décision fondée exclusivement sur un traitement automatisé, y compris le profilage lorsqu’elle y a explicitement donné son consentement. Mais là encore, il semblerait que l’algorithme reste capable de mettre à mal cette exigence de consentement. Selon Étienne Papin, avocat associé au cabinet Feral-Schuhl/Sainte-Marie, « le droit de données personnelles n’est pas forcément adapté pour réguler l’usage des algorithmes prédictifs. Ce droit repose sur le principe du consentement de la personne au traitement de ses données. Ce consentement est bien souvent un leurre parce qu’il est aujourd’hui impossible d’utiliser pleinement un smartphone ou internet sans accepter d’être tracé. Le consentement étant obligatoire à l’usage de la technologie, l’exploitation réelle qui sera faite des données par le responsable du traitement est totalement opaque. Ainsi, la multitude de traces que chaque individu laisse dans son usage de l’internet et de son smartphone est récupérée par de nombreux intervenants. » À noter que des lignes directrices sur l’interprétation de l’article 22 (consentement explicite de la personne) seront publiées par la CNIL à la rentrée.

En définitive, savoir comment appréhender l’algorithme demeure un « casse-tête » pour la majorité des utilisateurs d’Internet ou autres appareils connectés lambda. Une chose est certaine : cette avancée technologique n’a pas fini de susciter les débats. Les multitudes de rapports sur le sujet en témoignent. Citons celui du Conseil général de l’économie du 13 mai 2016 concernant les « modalités de régulation des algorithmes de traitement des contenus », qui formule des recommandations. Ce rapport soulignait également que « par la nature de leur architecture et de leur fonctionnement, il est très difficile de comprendre le processus de raisonnement interne des algorithmes d'apprentissage machine, et donc d’expliquer un résultat particulier ».

Attendons donc la synthèse des échanges et des contributions du débat sur les algorithmes initié par la CNIL à l’automne 2017 pour en savoir plus sur les défis et enjeux soulevés par cette nouvelle technologie…

1 Jean-Marc Deltorn, « La protection des données personnelles face aux algorithmes prédictifs », Revue des droits et libertés fondamentaux, chronique 12, 2017.

2 Ibid.

3 Lire à ce sujet, dans ce même numéro, l’article d’Aurélie Banck.

À retrouver dans la revue

Banque et Stratégie Nº360

Notes :
1 Jean-Marc Deltorn, « La protection des données personnelles face aux algorithmes prédictifs », Revue des droits et libertés fondamentaux, chronique 12, 2017.
2 Ibid.
3 Lire à ce sujet, dans ce même numéro, l’article d’Aurélie Banck.