Conceptuellement, le terme Big Data s’est positionné dans le discours technique ambiant comme le grand défi informatique de la décennie 2010- 2020. L’espoir qu’il suscite repose sur le postulat qu’il va produire un changement radical dans la manière dont nous pensons la recherche et que ce changement va ouvrir un champ d’opportunités considérables dans presque tous les domaines. Les banques pourront mieux analyser les tendances du marché et les changements d’opinions, les assureurs pourront optimiser leurs offres, les équipes marketing pourront mieux orienter leurs campagnes, les spéculateurs pourront mieux gérer leurs anticipations et conjectures formées à propos de l’avenir, etc. Le Big Data est donc perçu comme une révolution, même si, à mon sens, plusieurs aspects de cette révolution ne relèvent que d’une croyance collective selon laquelle la quantité de données signifie nécessairement qualité. Or nous savons que, quelle que puisse être la taille d’un jeu de données, il est sujet à des limitations, peut-être à des erreurs et certainement à des problèmes d’interprétation. Il existe donc un débat autour du concept Big Data qui ne se limite pas d’ailleurs uniquement au niveau de la méthodologie. Ce débat concerne également les limites épistémologiques et éthiques du Big Data.
Pour mieux appréhender ce phénomène, il a paru utile de définir le concept et contextualiser son champ d’application (I.) pour faire ressortir ensuite ses enjeux (II.). La troisième
I. Comprendre le Big Data
Aujourd’hui, aussi étonnant que cela puisse paraître, même les experts informatiques peinent à donner une définition universellement acceptée du Big Data. Certains y voient un phénomène de mode, au point de considérer qu’il ne s’agit que d’une nouvelle dénomination de concepts bien connus comme le CRM (Customer Relationship Management), le Data mining, etc. Littéralement, Big Data signifie « grosses données » ou « données massives », qui font référence à tout ce qu’Internet fournit aux organisations comme connaissance au sujet des individus (clients, employés, citoyens, etc.) et de leurs activités.
Cette définition littérale reste néanmoins très restrictive, car la caractéristique principale de ce nouvel écosystème de données repose sur une composante tripartite : volume, variété et vélocité.
Le Big Data se caractérise d’abord par la notion de volume…
Originellement, le terme a été utilisé en science pour désigner les ensembles de données suffisamment grands dont le traitement nécessite des supers ordinateurs. Le volume des données stockées est effectivement en pleine explosion du simple fait que ce soit les individus qui sont la source de ce processus de création de données. Cette révolution quantitative s’est très naturellement accompagnée d’une évolution des unités de mesure. Le GigaOctet, unité de mesure de référence depuis quelques années, est tout simplement dépassé. Entre 2010 et 2020, on ne parlera plus que du ZettaOctet (Za), c’est-à-dire 1021 octets, soit mille milliards de milliards d’octets, voire du YottaOctet (Yo), soit 1 000 Zo. Un chiffre qui dépasse la limite de la compréhension humaine.
…par la vitesse de génération des données…
On ne peut pas non plus parler de Big Data sans tenir compte de la vitesse de génération des données, aussi appelée vélocité. Cette notion de vitesse fait référence entre autres à ce qu’on appelle du « Fast Data » et du « Live Data ». Les flux de données sont recueillis à un débit tellement rapide qu’ils peuvent dans certains cas devenir complètement obsolètes aussitôt après qu’ils aient été analysés. C’est le « Fast data ». La valeur ajoutée des données traitées, c’est-à-dire l’interprétation qu’on peut en faire, peut évoluer avant même la fin de l’analyse en cours. C’est le « Live Data ».
…et par la diversité des sources de données
La variété des données est la troisième caractéristique du Big Data. C’est ce qui différencie son traitement de celui des autres types de données. Les masses importantes de données ne sont, au final, que des produits dérivés des activités des individus. Elles proviennent donc de sources diverses : smartphones et autres appareils mobiles, achats en ligne, réseaux sociaux, transactions bancaires, géolocalisation, utilisation des transports en commun, objets connectés, etc. Il s’agit par conséquent de données hétérogènes (structurées, non structurées, flux) et c’est l’amalgame de cet ensemble qui fait la particularité du Big Data et qui explique pourquoi les systèmes standard de gestion de bases de données ne sont pas adaptés à son traitement.
Cette diversité de données confère au Big Data une caractéristique qui n’est avant tout que le reflet d’un changement de société. Le changement majeur est que les entreprises ne sont plus à la source de création des données qui les intéressent.
Le développement du Big Data se différencie de celui des données analytiques par son approche macroéconomique d’un problème visant à rechercher des structures statistiques basées sur des données massives et globales issues de l’internet. Attention donc à ne pas confondre le Big Data avec des disciplines comme l’informatique décisionnelle (Business Intelligence - BI), le CRM, le Data mining, etc. Prenons l’exemple de la BI. Outre les différences en termes d’enjeux, le Big Data se différencie fondamentalement de la BI par la maturation du sujet. Ces différences se mesurent au niveau même de la nature des données traitées. Afin d’analyser les phénomènes ou détecter les tendances, la BI va se focaliser sur des données à forte densité en information. Le Big Data, au contraire, va utiliser les données à faible densité en information qui, grâce à leur important volume, vont permettre d’inférer des lois statistiques et d’apporter des capacités prédictives à l’analyse. Les techniques de traitement vont donc être différentes puisque de par la nature des données, la BI se servira des statistiques descriptives tandis que le Big Data utilisera les statistiques inférentielles.
II. Un double défi, technologique et managérial
Le principal enjeu du Big Data réside dans la transformation des données en informations pertinentes permettant ainsi de mieux cibler, analyser et prévoir les comportements et les tendances.
Le défi technologique n’en est vraiment plus un, car les outils disponibles pour traiter les volumes, la vitesse et la diversité des données s’améliorent de plus en plus depuis quelques années. Le coût d’acquisition n’est même plus un critère déterminant : les solutions disponibles sont en général de type Open Source, même si ce mode de licence ne signifie pas nécessairement gratuité ou faible coût. L’omniprésence des données (au sein de l’entreprise, dans le cloud ou encore dans les applications) a conduit à une évolution rapide des types d’outils utilisés à la fois pour gouverner et étudier ces données. Il fallait, bien au-delà de leur stockage et de leur traitement, être capable de cataloguer, sécuriser et prévoir leur évolution dans le temps. Plusieurs types de solutions ont donc vu le jour ; la plupart d’entre elles atteignent depuis quelques années déjà un niveau de maturité suffisant pour être qualifié de standard par l’industrie. Hadoop fait partie de ces standards, mais on peut citer également beaucoup d’autres outils comme In memory (HANA) ou des bases de données comme GreenPlum ou Analytics. Les grands éditeurs ont complété leurs offres de stockage en adoptant l’interfaçage avec les outils cités. C’est le cas de Microsoft qui permet de déployer des clusters Hadoop, d’Oracle avec son offre Oracle Big Data Appliance, conçue autour de la distribution spécifique Apache Hadoop du pionnier Cloudera ou encore de la solution Analytics d’IBM.
Les défis managériaux paraissent plus importants, du moins dans leur mise en œuvre, car ils visent à produire un changement dans la manière dont les managers prennent des décisions. Avant l’arrivée du Big Data, les décideurs s’appuyaient essentiellement sur le binôme Intuition-Expérience que ce soit pour affiner leurs prévisions ou cibler des initiatives. L’univers du Big Data crée une nouvelle culture de la prise de décision : plutôt que de suivre leurs intuitions, les dirigeants vont au contraire être guidés par les données pour prendre les décisions sur la base des faits concrets et prouvés. Les décisions guidées par les données sont meilleures justement parce qu’elles reposent sur de bonnes prévisions qui à leur tour ne tirent leur qualité que des faits concrets et prouvés. Le recours au Big Data permet donc de mieux prévoir et mieux prévoir permet de mieux décider. De ce fait, les organisations vont se distinguer les unes des autres en fonction de leur capacité à associer l’information et les décisions qui s’y rapportent dans un même lieu, condition sine qua non pour définir des objectifs clairs, fixer les critères de succès et poser les bonnes questions pour y parvenir. Il ne suffit pas d’avoir les données à disposition, il faut être capable de les interpréter, les transformer et les utiliser comme support des décisions stratégiques.