Économie numérique

Analyse critique du Big Data : quelques limites du système

Créé le

06.03.2017

Mis à jour le

30.03.2017

Trois catégories de limites viennent tempérer l’optimisme suscité par le Big Data. La première examine deux croyances erronées qui peuvent induire de sérieux biais d’interprétation et remettre ainsi en cause les postulats et conclusions d’une analyse. La deuxième examine quelques problèmes méthodologiques qui peuvent faire du Big Data un système non prédictif et non reproductible. Enfin, la troisième étudie la question d’éthique non sous l’angle juridique, mais en termes de conséquences sur les résultats d’une analyse.

Analyse critique du Big Data : quelques limites du système

Cheickna Traoré

L’existence et l’abondance des données ainsi que leur accessibilité ont donné lieu à des déclarations enthousiastes sur le Big Data [1] . Le champ d’opportunités annoncé laisse présupposer des promesses d’une gestion efficace et fiable de nos données et d’un bel avenir pour la connaissance.

Néanmoins, donner à croire que disposer d’une masse importante de données est l’ultime argument rhétorique pour effectuer des analyses et interprétations pertinentes des données disponibles, c’est engager toute la pensée dans une certaine direction en excluant de nombreux aspects, notamment les faiblesses et les limites inhérentes au Big Data.

Après quelques années de recul, peut-être pas suffisantes pour juger de la tenue des promesses, le Big Data fait débat quant à ses limites épistémologiques, méthodologiques, mais surtout éthiques.

Le propos de l’article n’est pas d’exposer l’exhaustivité des limites connues du Big Data, mais d’en éclairer quelques facettes qui, si elles ne sont pas intégrées dans les hypothèses d’analyse, pourraient réellement menacer l’optimisme suscité par le concept global du Big Data. Trois classes de limites sont abordées.

I. Les limites épistémologiques du Big Data

Comme tout système, nouveau ou ancien, le Big Data n’échappe pas à des analyses critiques quant à ses postulats, ses conclusions et sa méthodologie. Plusieurs limites sont effectivement évoquées après les premiers retours d’expériences et dans plusieurs domaines. Nous examinons ici les effets de deux croyances, l’une qui stipule que les faits parlent d’eux-mêmes et l’autre qui considère que disposer d’une grande quantité de données est l’assurance d’avoir des informations de bonnes qualités.

Les faits ne parlent pas d’eux-mêmes

Par vulgarisation de l’empirisme, l’on s’accorde à dire que les faits parlent d’eux-mêmes et que leur production confère au Big Bata un statut de science quantitative aux méthodes objectives.

Pour aller au-delà de cette vision, nous devons remettre en cause cette propriété objective et substantielle du Big Data en démontrant l’inexactitude de l’assertion selon laquelle l’explication des choses tient des faits. De façon très imagée, faire référence aux faits, c’est comme monter au sommet d’une tour, observer le paysage et conclure que la terre est plate et que le soleil tourne autour. Nous savons aujourd’hui, grâce à l’avancée de recherches astronomiques, que la terre est ronde. Dès l’antiquité, Aristote avait déjà émis des hypothèses plus que plausibles sur la forme de la terre. Une de ses preuves qui reste encore valable aujourd’hui repose sur l’observation selon laquelle l’ombre n’est pas la même lorsqu’on se déplace du nord au sud. Selon lui, la seule explication de cette différence réside dans le fait que la terre est sphérique. Ce raisonnement traduit que les faits, les formes de l’ombre, ne parlent pas d’eux-mêmes et qu’il faut les interpréter avec des points de vue intellectuels et théoriques, ici en l’occurrence la pensée d’Aristote.

Plus généralement, dans le domaine de la recherche, nous avons tendance à considérer que les travaux des chercheurs sont une affaire de faits et non d’interprétations. Dans la réalité, après avoir posé ses postulats et obtenu les résultats, le chercheur va ensuite tenter de cerner le sens pour finir par tirer des conclusions. Il est donc dans le processus d’interprétation.

Plus spécifiquement, dans le domaine du Big Data, il est admis aujourd’hui que les grandes masses de données, pour être pertinentes, doivent au préalable être nettoyées, c’est-à-dire allégées de certains attributs et variables sur la base d’hypothèses de travail. Ce processus est d’ailleurs au passage intrinsèquement subjectif et de ce fait contraire à toute revendication d’objectivité. L’interprétation qui découle de ce travail doit au final sa pertinence aux hypothèses de travail posées au préalable par le chercheur. Autrement dit, les résultats obtenus, donc les faits, sont valorisés d’un point de vue intellectuel grâce à la qualité de ces hypothèses.

L’interprétation étant au cœur de l’analyse des données et sachant que tout jeu de données quelle que soit sa taille est sujet à des limitations et des partis pris, la non prise en compte de ces biais dans l’analyse des données conduit mécaniquement à des problèmes d’interprétation.

Les données les plus nombreuses ne sont pas forcément les meilleures

On connaît souvent mieux les pratiques d’une population avec un échantillon bien construit de cent personnes qu’avec une base de données de plusieurs centaines de fois ce chiffre mais composée sans principe. À cet égard, l’exemple de l’élection présidentielle américaine de 1936 illustre parfaitement ce constat. Le fondateur de la première entreprise de sondage, George Gallup, avait prédit correctement l’élection du démocrate Franklin D. Roosevelt à partir d’un échantillon de quelques milliers de personnes pendant que la revue The Literary Digest, sur la base de plusieurs millions de réponses volontaires de ses lecteurs, annonçait le résultat inverse en faveur du républicain Alfred M. Landon.

Cette leçon de théorie de sondage reste toujours valable aujourd’hui et doit nous sensibiliser sur le fait que lorsque nous combinons des grands jeux de données issus de multiples sources, nous sommes confrontés à un sérieux défi méthodologique et de transparence. Ce défi est double : il porte non seulement sur la reconnaissance que chaque source de données utilisée est sujette à des erreurs, mais également sur la manière dont ces erreurs sont gérées. Au départ, c’est la méthodologie même de la collecte de données qui est susceptible de créer des biais de sélection. Tout individu peut passer d’un statut complètement inconnu au statut le plus populaire sur les réseaux sociaux. Il suffit d’avoir les moyens d’acheter des followers sur Twitter ou des likes sur Facebook. La collecte de ce type de données présente une « vérité objective » du fait que ces followers ou ces likes sont les résultats d’une action réelle des utilisateurs sur ces sites web cités. En revanche, il est évident que toute interprétation de ces données sera forcément biaisée par manque d’un vrai filtrage pouvant isoler les vrais followers et vrais likes des faux.

Supposons, dans un second exemple, que nous disposions des données sur les flux urbains de mobilité grâce à une technique d’enregistrement automatique dans les transports en commun. Ces données volumineuses, certes intéressantes, ne fournissent en réalité que peu d’information sur les modes de déplacement des habitants des villes s’ils ne peuvent pas être croisés avec d’autres informations comme le lieu de travail, le lieu de résidence, l’usage d’autres moyens de transport, etc. Lorsqu’une station particulière de métro est constamment bondée aux heures de pointe, la solution n’est pas forcément d’augmenter le nombre de rames qui peut entraîner des problèmes supplémentaires de régulation. Il est nécessaire de comprendre dans un premier temps comment cette station est desservie et, dans un second temps, comment il est possible de désengorger ce trafic en proposant, par exemple, des moyens de transport alternatifs en partance de la station ou en la contournant, des horaires différents, etc.

Ces deux exemples montrent le rôle primordial de l’échantillonnage dans l’analyse des données et confirment qu’une grande quantité de données ne signifie pas forcément une meilleure qualité de données. D’ailleurs, qu’il s’agisse de grandes quantités de données (Big Data) ou de la totalité des données (Whole Data), concepts à ne pas confondre, si dans l’un ou l’autre on ne prend pas en compte le mode d’échantillonnage, leur taille n’est d’aucune importance.

Le plus important est ce que nous baptisons le « triangle de la bonne démarche » basé sur le triptyque du besoin de comprendre les limites des sources de données utilisées, de celles des interrogations qui peuvent se poser et enfin des interprétations appropriées qui peuvent être faites.

II. Les limites statistiques

Il est nécessaire de rappeler le rôle du Big Data afin de mieux comprendre ses limites statistiques. Il s’agit de collecter un maximum de données de sources différentes, de les traiter, d’analyser et comprendre les résultats afin d’en dégager des tendances ou de les transformer si nécessaire en objectifs. C’est le principe de base d’un travail scientifique fondé sur les modélisations statistiques.

Le premier problème porte sur la fiabilité des données traitées. Une multitude d’outils peut être nécessaire pour l’exploitation des données et plus particulièrement pour le traitement de certains cas individuels. Avec de grandes quantités de données et autant d’outils pour les analyser, des confusions peuvent apparaître dans les résultats, voire remettre en cause leur fiabilité.

Le second problème porte sur les capacités prédictives des modèles statistiques. Cette capacité est altérée d’une part par l’éventuel problème de fiabilité de données mais également et surtout par une limite qui touche les méthodes statistiques en général, à savoir, l’irrationalité des comportements humains. Il est aussi connu que les outils spécialisés dans l’analyse du Big Data intègrent leurs propres limitations dont l’une d’elles est liée au temps. Le Big Data est alors critiqué pour porter sur le présent exclusivement, sans le contexte historique qui est le premier facteur prédictif.

Enfin, le troisième problème porte la reproductibilité des tests. Le principe de base de la science implique une reproductibilité de toute expérience du moment où les conditions initiales sont réunies à l’identique. Les retours d’expérience de nombreux chercheurs tendent à démontrer que mêmes les études les plus rigoureuses dans le cadre du Big Data ne peuvent parfois pas être reproduites pour donner les mêmes résultats.

Au travers de ces problèmes, le Big Data est vu comme un système non prédictif et non reproductible. Un tel système ne permet évidemment ni de capitaliser sur les expériences passées ni de se projeter sur l’avenir et chaque investissement effectué sur une campagne donnée ne tirera sa rentabilité que sur le présent. Autant dire que si des mauvais résultats sont produits sur une campagne, les décisions d’investir sur de nouvelles campagnes deviendront difficiles à obtenir.

III. Les limites éthiques

L’accessibilité à des grosses quantités de données ainsi que leur manipulation soulèvent deux questions fondamentales. L’une ayant trait à l’usage qui est fait de ces données et l’autre qui porte sur la protection juridique de certaines catégories spécifiques de ces données, à savoir, celles qui sont d’ordre privé. Il faut donc, avant toute chose, distinguer les données privées des données publiques.

Pourtant les données relevant de la sphère dite privée sont, en principe, déjà protégées par la loi en ce sens qu’elles ne peuvent faire librement l’objet d’une appropriation par un tiers. Toute la difficulté réside dans le fait que les brèches dans la vie privée ne sont pas toujours faciles à spécifier car il est difficile de mesurer le risque et encore moins l’impact induit par l’utilisation abusive qui peut en être faite. La problématique s’entoure alors d’une multitude de questionnements : le risque sera-t-il avéré et à quelle échéance, l’impact est-il immédiat ou différé, etc. ? Il n’est pas aisé de répondre à ces questions, ce qui explique qu’à ce jour, Internet foisonne de débats sur l’aspect juridique du Big Data. Des ouvrages et conférences de spécialistes traitent également du sujet depuis d’ailleurs l’avènement du concept. Des comités éthiques ayant pour but de superviser les recherches sur l’humain et sur la projection des personnes, ont été mis en place dès les années soixante-dix, donc bien avant l’invention du concept Big Data.

Bien que les spéculations autour de la vie privée et du non-respect des données personnelles soient au centre des débats, notamment au travers du système généralisé de surveillance sans autorisation dit de « Big Brother », le présent article ne suivra pas cette piste.

Nous essayons ici, au contraire, de mettre le focus sur les biais qu’une utilisation abusive des données privées peut engendrer dans l’interprétation des résultats d’une étude :

Que feront les internautes s’ils savent que les informations sur leurs habitudes de consommation ou sur leurs vies privées sont exploitées à leur insu et sans leur autorisation ?
Que feront les entreprises si elles savent que les données qu’elles publient seront décortiquées par les analystes pour déterminer leurs performances sans qu’elles ne soient sollicitées par ailleurs pour fournir d’autres éléments essentiels et déterminants dans le calcul de cette performance ?
Que feront les banques si elles savent qu’un système de surveillance des transactions peut mettre en évidence leurs liens avec des hedge funds impliquées dans le shadow banking ?

Les uns vont fournir des informations partielles ou le moins possible afin de protéger leurs identités. Pour ce faire ils peuvent fournir des informations fausses sur leur âge, leur lieu de travail, leur lieu de résidence, leur revenu, leur foyer, etc. D’autres publieront des informations volontairement dénuées de la moindre faiblesse, même les plus insignifiantes, afin de paraître dans la classe des entreprises les plus performantes. Enfin, les derniers pourront se lancer dans la création de sociétés « écran » et dans des montages financiers si sophistiqués que leurs liens avec la finance de l’ombre deviendront indétectables, du moins à court et moyen termes.

Ces exemples montrent comment des jeux de données récoltés peuvent être peu fiables et comment des erreurs et lacunes vont se trouver décuplées dès que l’on combine des sources diverses.

Un test grandeur nature

Un exemple symptomatique de ce phénomène nous a été facile à réaliser. En faisant remplir deux fois un même questionnaire à une trentaine d’étudiants sur les compétences dites interpersonnelles qu’ils estimaient avoir, les résultats obtenus furent des plus étonnants. Afin de ne pas influencer ces résultats, nous avons pris soin de ne dispenser notre enseignement sur les compétences interpersonnelles d’un chef de projet qu’après avoir réalisé les deux enquêtes.

Lorsque le questionnaire était anonyme, plus de 80 % estimaient avoir des compétences suffisantes en négociation, en gestion de conflits ou en communication. Lorsque le questionnaire est devenu nominatif, moins de 10 % s’estimaient être compétents en gestion de conflits. Pire, aucun ne s’était attribué une capacité en négociation.

Très clairement, l’élément déterminant de cette étude a été le passage du mode anonymisé en mode nominatif transparent. Les résultats de la seconde enquête nous ont semblé conformes à la réalité si nous en jugeons par les nombreuses questions posées pendant le cours sur ce sujet.

Bien que cet exemple relève plutôt de ce que nous pouvons appeler du Small Data, le mécanisme reste complètement reproductible en Big Data. Les gens auront toujours tendance à fournir des informations selon le contexte d’une enquête et selon que leur identité soit révélée ou pas.

La protection des données relevant de la sphère privée est certes importante mais elle ne suffit pas pour justifier d’avoir de bons résultats dans les études.

Un test grandeur nature

L’ère du Big Data a bel et bien démarré. Même si ce qui a été annoncé comme le remède miracle à tous nos maux n’a pas encore convaincu et satisfait les attentes, son potentiel d’exploitation reste immense. Il est légitime de s’interroger sur ses hypothèses, ses valeurs et ses partis pris car c’est ce qui nous permettra d’en reconnaître ses limites et ainsi de proposer des solutions contributrices à son processus d’amélioration continue. Si nous voulons insuffler une nouvelle dynamique à cette nouvelle vague de recherche, nous devrions rapidement sortir d’une des limites du système qui fait le plus débat à ce jour, à savoir les droits d’utilisation des données ou plus particulièrement la protection des données privées. Ce débat est certes légitime : pour ce que nous en savons aujourd’hui, le Big Data peut à la fois améliorer et détruire nos vies. Nous devrions, d’un autre côté, intégrer le fait que l’exploitation des données quelles qu’elles soient sera bonne pour les uns, mauvaise pour certains, ni bonne ni mauvaise pour d’autres. L’objectif devrait être de rechercher, au final, à positionner le curseur de manière à ce que cette exploitation ne créée aucune fracture sociale ou numérique, qu’elle ne soit ni bonne, ni mauvaise pour des franges spécifiques de la population mais qu’elle soit au contraire utile pour le plus grand nombre.

Ceci ne sera évidemment possible que si nous arrivons à créer un équilibre entre la technologie et son contrôle. Pour ce faire, nous devons comprendre que la technologie doit être utilisée pour notre bien commun, comme, par exemple, permettre à une analyse d’ADN à grande échelle d’aider à guérir les maladies au lieu de créer des inégalités médicales ou encore, faciliter l’accès à l’information au grand nombre plutôt que de créer une fracture numérique dans laquelle seuls ceux qui ont des moyens financiers peuvent accéder aux meilleures sources de données. A contrario, cette technologie ne devrait aucunement être utilisée pour nous contrôler, par exemple, lors de manifestations dans les rues de grandes villes. C’est le défi auquel le Big Data fait face aujourd’hui.

1 Lire à ce sujet, du même auteur, Revue Banque n° 806, mars 2017 : « Big Data : comprendre les enjeux du système (1/2) ».