Big Data : les données au centre de la stratégie

Créé le

17.12.2012

Mis à jour le

02.01.2013

Avec un retard de quelques années sur les États-Unis, le phénomène Big Data commence à s’imposer en France. La capacité à exploiter intelligemment les flux de données qui circulent dans les systèmes électroniques ou sur Internet pourrait devenir le nouveau critère de compétitivité des entreprises. Les banques, qui font partie des industries de données, sont en première ligne.

Big Data : les données au centre de la stratégie

Elias Baltassis

Associé, Directeur général Opera Solutions France
Associé Bain et Company

Comment décrire le phénomène Big Data ?

Le Big Data désigne globalement l’accroissement énorme de données disponibles grâce aux technologies, la seule définition communément admise étant celle des 3V du Gartner Group : volume, variété, vélocité [1] .

En termes de volume, n’importe quelle entreprise de taille moyenne, c’est-à-dire de plus de 1 000 salariés, stocke au moins autant de données que la Librairie du Congrès américain qui conserve tout ce qui a jamais été imprimé depuis Gutenberg !

Côté variété, existent aujourd’hui les données interpersonnelles (communications électroniques, e-mails, réseaux sociaux…), des données d’interaction homme-machine (recouvrant diverses transactions comme les archives des cartes bancaires, des historiques de navigation web…) et les données inter-machine (celles issues d’une communication entre machines, par exemple les GPS, les caméras de surveillance, la géolocalisation, le contactless). Ce sont ces dernières qui vont probablement augmenter le plus, avec le développement de l’Internet des objets (Internet of things).

Enfin, la vélocité désigne le rythme de renouvellement et de défilement des données : chaque jour, 45 milliards d’e-mails sont envoyés et 50 millions de tweets postés dans le monde. Pas moins de 165 millions de transactions bancaires sont réalisées quotidiennement dans la zone euro…

C’est une erreur de croire que Big Data ne se réfère qu’aux « nouvelles données » (celles des blogs, réseaux sociaux, etc.) : une grande part de la croissance exponentielle concerne les « anciennes données », traditionnellement traitées par les banques. Le nombre de contacts clients moyen d’une banque française (incluant les transactions et les interactions bancaires) a été multiplié par 10 en moins de 10 ans, les deux tiers concernant le canal Internet et plus d’un tiers déjà provenant des smartphones (voir Schéma 1).

Ce mouvement n’en est qu’à son début et reflète les changements dans les habitudes des consommateurs : alors qu'auparavant, ils disposaient d’un relevé de compte bancaire mensuel, aujourd’hui, la position du compte et les alertes concernant les transactions sont envoyées plusieurs fois par jour. Nous faisons aussi beaucoup plus de transactions électroniques, ne serait-ce qu’en raison de la quasi-disparition du cash.

Faut-il s’en effrayer ?

Non, au contraire. Beaucoup d’études montrent qu’une exploitation intelligente de ce phénomène a un impact très favorable sur les résultats des entreprises ; je n'en citerai que deux, l'une que nous avons faite, l'autre qui vient du MIT (voir Schéma 2).

Pour notre part, nous avons pris en compte les 150 plus grandes entreprises du Nasdaq et les avons classées entre celles qui s’appuient sur des méthodes analytiques de gestion des données, c’est-à-dire qui sont capables d’exploiter ces flux pour construire leur stratégie concurrentielle, et celles qui n’y ont pas recours. Nous avons observé que, sur tous les critères de performance étudiés, les « analytiques » surperforment systématiquement les « non analytiques ».

Le MIT a procédé de même, mais il est allé plus loin : il a non seulement constaté que la performance des « analytiques » était supérieure de près de 300 % à celle des « non analytiques », mais il a établi également que les entreprises les plus performantes ont une probabilité 5,4 fois plus forte d’utiliser une approche analytique que la moyenne des entreprises.

Comment exploiter techniquement toutes ces données ?

Les données créées aujourd’hui dépassent largement les capacités de stockage. D’ailleurs, il n’est pas nécessaire de conserver et d’exploiter toutes les données, car une grande partie d’entre elles ne sont que du « bruit ». Désormais, il faut fonctionner avec d’autres méthodes d’analyse, comme les techniques de traitement du signal, qui permettent de ne sélectionner que les données utiles repérées grâce à un signal qu’il faut parvenir à discerner dans le bruit ambiant. C’est pour cela que nous disons de façon un peu provocatrice que le data mining, basé sur des données statiques, est mort.

Qui est concerné par le Big Data ?

À terme, tout le monde le sera, à commencer par les entreprises pour qui la compréhension du comportement des clients est essentielle. Le concept même de Big Data disparaîtra, parce qu’il est tellement indispensable qu’il sera intégré à toutes les entreprises du monde. C'est comme le process reengineering, inventé il y a 15 ans : aujourd'hui, tout le monde est en process reengineering, le concept en tant que tel a disparu.

Plus concrètement, si vous prenez une très grande entreprise de cosmétiques qui propose à des millions de consommateurs des gammes qui couvrent du plus pauvre au plus riche, du plus jeune au plus vieux, en réalité elle ne vend pas à ces personnes, mais aux grands distributeurs. Elle n’est pas une entreprise « B to C », mais « B to B to C ». Comme elle n’a pas de contacts directs avec ses clients finaux, les tweets, facebooks, ou autres blogs peuvent lui être utile pour mieux connaître ces derniers, le danger étant que ces vecteurs de communication sont autosegmentés. Pour une gamme de produits de beauté ciblée vers les ados, utiliser les réseaux sociaux peut être un vrai facteur de succès, car c’est un public qui y est présent à 100 %, mais pour une gamme de produits de beauté plus haut de gamme et plus chère, ciblée vers les femmes de 40 ans et plus, vous trouverez bien entendu de nombreux contacts de cette nature sur Facebook, mais c’est un groupe autosegmenté, différent du public général visé. Si vous basez vos décisions marketing, ou votre pricing, sur ce critère, vous allez vous tromper.

Qu’en est-il des banques ?

Les banques sont déjà en partie dans le Big Data, mais sans l’exploiter entièrement, car elles n’en ont peut-être pas les moyens, voire le besoin, ni l’appétit. Beaucoup d’entre elles font encore un marketing très traditionnel, essentiellement sur la base de données sociodémographiques, combinée à une notion d’équipement (le nombre de produits bancaires détenus par un client), de patrimoine ou de flux financiers. En revanche, les données comportementales sont mal prises en compte. Même si certains établissements prétendent le faire : ainsi, le patron du comex d’une grande banque française se targuait d’avoir identifié un segment dit des « épicuriens », c’est-à-dire les clients qui dépensent plus 500 euros par mois en restauration, et auxquels étaient donc proposés des produits haut de gamme. Mais il a suffi d’une rapide analyse des transactions de ces clients pour montrer que dans cette catégorie, il faut distinguer ceux qui vont une fois dans un restaurant étoilé, et ceux qui vont 30 fois dans un fast-food. Il est évidemment inutile de tenter de vendre le même produit aux deux populations.

Comment s’organise une stratégie marketing dans le Big Data ?

Auparavant, l’idée était de construire des tableaux de bord, sur la base de données structurées et centralisées pour décrire le passé ; aujourd’hui, il faut tenter de prédire l’avenir, dans un environnement de données de plus en plus décentralisées et déstructurées. Nous sommes passés d’un travail sur des échantillons à des données complètes, ce qui nous permet de passer du client moyen au client individuel. C’est un énorme changement. Par exemple, de nombreuses banques à l’étranger sont déjà en mesure d’attribuer des limites de crédit sur les cartes de façon individuelle à chaque client et de les adapter en quasi-temps réel.

Autre conséquence, jusqu’à maintenant, l’informatique était un « enabler », qui permettait de faire de la banque de façon plus efficace et parfois, pendant un court laps de temps, de donner un avantage concurrentiel : ainsi, il y a 15 ans, a eu lieu une bataille pour savoir qui installerait le plus de GAB et certains acteurs n’ont pas pu suivre, leur informatique ne pouvant pas intégrer suffisamment rapidement autant de machines. Mais cet avantage n’a duré qu’un an ou deux. Avec Big Data, pour la première fois, l’informatique et les données sont véritablement au centre de la stratégie marketing et commerciale.

Les banques anglo-saxonnes sont-elles en avance sur leurs concurrentes européennes ?

Le monde anglo-saxon a adopté le premier les solutions analytiques, car elles sont fondées sur des technologies d’origine américaine, comme celles utilisées par Facebook, Google, Twitter, etc. Ces méthodes ont très vite essaimé vers la Grande-Bretagne, car tous les établissements financiers américains y ont des filiales et la proximité de la culture et de la langue facilite ce passage. Puis les pays scandinaves et les Pays-Bas ont suivi, car ce sont des économies très anglophiles et relativement petites, dans lesquelles le coût du changement n’est pas si élevé. Cela commence seulement à arriver en France.

À quels changements faut-il s’attendre avec la prise en compte de Big Data dans la stratégie des établissements financiers ?

Les premiers qui l’utiliseront auront un énorme avantage concurrentiel. Nous allons assister à des créations de sélections adverses très importantes. En effet, de nos jours, dans le domaine financier, il est difficile de changer radicalement les parts de marchés. Il n’y a pas d’attrition au sens propre du terme, puisque les comptes-courants en France ne coûtent rien : les clients restent, mais sont de moins en moins actifs. Ainsi, même si le nombre de clients reste relativement stable dans chaque banque, les pionnières parviendront à améliorer sensiblement la qualité de leur portefeuille en activant les meilleurs clients, alors que leurs concurrents verront leur propre clientèle perdre de leur intérêt. Les parts de marché mesurées en nombre de comptes ne bougeront guère, mais cela se traduira à l'horizon de quelques années par des différences sensibles de rentabilité de leurs portefeuilles respectifs.

Les assurances qui ne peuvent s’appuyer sur un groupe bancaire risquent aussi d’avoir du mal à résister. En effet, les filiales des banques pourront utiliser les données de ces dernières pour faire du marketing assurance, alors qu’un assureur pur ne recueille par définition que très peu de renseignements sur ses clients, qu’il voit à peine une fois par an, et dont les transactions se limitent au paiement des primes annuelles et à quelques virements sur des produits d’épargne. En comparaison, les banques ont un ou deux points de contact par jour au travers du fonctionnement du compte, de la gestion de l’épargne, du patrimoine, des achats et des paiements. Les assureurs sont certes excellents en calculs actuariels : ils travaillent depuis des dizaines d’années sur le sujet et n’ont pas besoin pour ce faire de données propriétaires ; les données publiques suffisent, d’énormes bases de données étant accessibles sur les accidents de voiture, de maison, les décès, etc. Mais cela ne suffira pas, et c’est un problème majeur pour l’avenir de ces groupes.

Les banques font partie des industries de données. Mais ne sont-elles pas dépassées par les web players, comme Google ou Paypal ?

Google a un groupe analytique très efficace, Google Analytics, mais cela n’a rien à voir avec les banques. Google peut empiéter sur le domaine bancaire, entrer sur les paiements, mais dans un futur proche, il restera probablement simplement un facilitateur dans ce domaine et les paiements resteront une activité privilégiée des banques. La banque de détail est un métier tellement protégé par le régulateur que très peu d’acteurs pourront l’attaquer.

En revanche, Paypal peut être plus dangereux, car il travaille sur les données de paiement et va essayer de cibler les transactions à plus forte valeur ajoutée, qui rapportent les meilleures marges. Mais les banques peuvent répliquer le système de Paypal, et c’est ce que certaines sont en train de faire avec les nouveaux systèmes de paiement qu’elles commencent à développer.

Autre risque, les grands distributeurs pourraient rapidement mener une véritable offensive. Ils ont déjà leurs banques et disposent d’outils d’analyse ad hoc qui, même s’ils ne sont pas d’une extrême sophistication, offrent une connaissance extraordinaire de leurs clients. À ce titre, les transactions de paiement, la façon dont un client dépense son argent, ses habitudes de consommation, disent tout sur ce dernier et sa famille. Mais les distributeurs vont cibler un public particulier : ils ont intérêt à aller vers les clients qui font des transactions, car c’est le cœur de leur métier.

Comment développer ces stratégies Big Data compliant ?

Il ne faut pas faire du Big Data parce que c’est à la mode : c’est une question stratégique fondamentale et il faut la traiter comme telle. Il s’agit d’abord d’identifier les questions centrales qui engagent la stratégie de l’entreprise et sur lesquels il convient de se concentrer. Que cherche-t-on avec le Big Data ? Est-ce pour mieux comprendre les besoins de nos clients ? Pour mettre en place une tarification plus dynamique b? Est-ce pour mieux cibler certains groupes b? Il pourrait être en effet rassurant de penser que Big Data permettra d’apporter des réponses à tout, mais cela ne serait ni pertinent (les enjeux essentiels d’une entreprise étant limités), ni réaliste (en termes d’effort nécessaire à la mise en œuvre).

Ensuite reste à dérouler les différentes étapes d’une méthodologie analytique, la première étant l’acquisition des données, internes et externes. Chaque banque a ses propres sources, à savoir ses systèmes transactionnels, interactionnel et Internet des objets, mais elle peut aussi en acheter auprès de certains acteurs comme Linkedin, Thomson Reuters, Lagardère Active ou Google. Elles peuvent également s’adresser à des data markets, qui collectent ou achètent des données, les uniformisent et les structurent ; ceux-ci sont encore peu actifs en Europe, contrairement aux États-Unis où le phénomène commence à prendre de l’ampleur. En un mot, cela revient à mettre en place une stratégie cohérente de collecte de données capables d’apporter des éléments de réponse nouveaux aux questions fondamentales de l’entreprise.

Se pose alors la question de la gestion de ces données. Il est essentiel de s’assurer de l’adéquation de l’infrastructure informatique, qui doit être capable de manipuler de larges volumes de données, souvent hétérogènes et non structurées. C’est là qu’interviennent les fournisseurs de plates-formes Big Data qui constituent une population hétérogène, qui comprend aussi bien les fournisseurs de « gros disques », de « logiciels pour gros disques », de plates-formes de cloud computing, de systèmes de Business Intelligence, d’outils analytiques plus ou moins évolués, etc. Aujourd’hui encore, bon nombre d’établissements identifient mal cet écosystème, ses différentes parties et les acteurs qui y évoluent (voir Schéma 3).

Vient ensuite l’analyse des données proprement dite. Nous avons évoqué plus haut la différence entre les méthodes traditionnelles du data mining (orientées vers les données bien maîtrisées et statiques) et les approches modernes de traitement de signal, plus adaptées à un environnement de données en croissance exponentielle. Dans ce domaine, il est cependant indispensable de s’assurer que les modèles prédictifs et les résultats analytiques sont en adéquation avec les besoins (et les capacités) de l’entreprise. Il ne faut pas faire de la science pour la science.

Enfin, et c’est peut-être le point le plus crucial, il faut adapter l’organisation de l’entreprise et sa culture pour que les résultats analytiques ne restent pas confinés dans le comex, ou au sein d’un groupe d’analyse stratégique, mais transcendent l’organisation à tous les niveaux et atteignent les collaborateurs qui sont en contact direct avec le client. Pour cela, il faut des outils simples (la sophistication des approches analytiques ne doit pas obscurcir les objectifs ou rendre les résultats incompréhensibles) et des processus qui intègrent ces outils de façon fluide.

Cela demande d’éduquer progressivement les collaborateurs, leur faire comprendre l’intérêt et la fiabilité de ces nouveaux types d’analyse, de leur donner confiance dans ces nouveaux outils pour leur travail quotidien. Vaste programme.

Les banques ont-elles les profils RH ad hoc pour développer ces méthodes analytiques ?

La contrainte est double : d’abord, il n’existe pas suffisamment de ces ressources en France ; ensuite, il est difficile pour les banques de les attirer et surtout de les garder, car elles n’ont pas de carrière à leur proposer… contrairement aux opérateurs spécialisés comme Opera, dont les patrons des départements analytiques sont le plus souvent au Board et ont une autorité très respectée.

Pourtant la France est un pays de matheux…

Mais nous parlons là de maths extrêmes et très spécialisés : les programmes de l’X, Centrale ou normale sup ne préparent pas nécessairement leurs élèves à cela. La situation est sensiblement la même dans tous les pays du monde occidental, comme l’a estimé le rapport de Mckinsey [2] qui chiffre les ressources manquantes à des centaines de milliers de personnes pour les États-Unis seulement. Le problème ne peut être résolu, en tout cas dans le court terme, qu’avec l’arrivée des Indiens et des Chinois, qui sont de plus en plus investis sur ces nouvelles technologies et ne portent pas l’héritage que traînent les pays occidentaux ; ils ont fait un saut technologique. Aujourd’hui, la Chine produit 50 % de plus d’ingénieurs que la France, pas dans l’absolu mais en proportion de sa population (voir Schéma 4).

Cet usage des données ne pose-t-il pas des questions quant à la sécurité, à la confidentialité et à la propriété de ces données ?

Ces questions se posent en effet, mais pratiquement toutes sont d’ordre technologique et pourront être résolues : les techniques de cryptage, d’anonymisation, de codage, de lignes sécurisées existent même si elles ne sont pas toujours utilisées. La seule question est le débat de société autour du syndrome Big Brother : mais il faut comprendre que ces nouvelles applications serviront à améliorer notre vie, à adapter encore mieux l’offre de services des entreprises, des banques, des assurances, des telecoms. Dans ce sens, c’est une évolution positive.

1 Douglas Laney, The importance of Big Data : a definition, Gartner, 21 juin 2012 : « Big Data are high-volume, high-velocity, and/or high-variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization. » 2 « Big Data: the next frontier for innovation, competition and productivity », Report McKinsey Global Institute, mai 2011.

À retrouver dans la revue

Revue Banque Nº755

Notes :
1 Douglas Laney, The importance of Big Data : a definition, Gartner, 21 juin 2012 :
2 « Big Data: the next frontier for innovation, competition and productivity »,