Les réglementations et normes se sont multipliées ces dernières années, mettant directement ou indirectement en avant l’importance de la qualité des données. Que ces exigences ou attentes soient directement exprimées – comme dans le cas de BCBS #239 par exemple – ou implicites – comme pour GDPR (General Data Protection Regulation – protection des données à caractère personnel) par exemple ou bien encore IFRS 9 –, toutes ces réglementations et normes soulignent la nécessité de la qualité des données et l’importance qu’y accordent les autorités nationales ou supranationales. Ces attentes sont complétées par la nécessité d’être en mesure de produire des données à la demande, parfois même n’existant pas en natif dans les systèmes (comme, par exemple, à l’occasion de l’exercice AQR où certaines données demandées par la BCE ont dû être créées ex nihilo par les assujettis), et dans une échelle de temps qui tend vers l’instantané.
Répondre à ces exigences multiples rend non seulement nécessaire l’implémentation d’un cadre organisationnel qui le permette, mais conduit également à des transformations en profondeur des SI en place afin d’en accompagner la mise en œuvre. En entamant ces transformations profondes l’entreprise rend possible l’exploitation du gisement d’opportunité et de valeur que constitue le capital en données qu’elle s’est constitué.
L’état des lieux
Les banques ont donc acté ces exigences réglementaires ou les prérequis pour la réponse à telle ou telle norme.
L’organisation, la mise sous contrôle et le pilotage dans le temps de la qualité des données apparaissent comme le socle incontournable d’une réponse pratique et efficiente à ces contraintes, tout en rendant possible l’exploitation du gisement de valeur présumé ou réel des données.
Les banques ont donc défini et mis en œuvre des dispositifs de gouvernance des données – définition et mise en œuvre des rôles et responsabilités, de la comitologie – et organisé les processus accompagnant le cycle de vie des données (création/modification/gestion des incidents/suppression des données mais également historisation et archivage). S’agissant de la mise en place d’une nouvelle fonction à part entière, cette mise en œuvre s’est accompagnée de la nomination de Chief Data Officers positionnés dans l’organisation en regard de l’importance accordée à cette fonction.
Toutefois, ce cadre, s’il rend possible la gestion de la qualité des données, n’est que le point de départ d’un long cheminement pour le mettre en œuvre sur un plan pratique. Le chemin est en effet ardu, à commencer par trouver où commencer.
Identifier la sensibilité de telle ou telle utilisation (modèle, calcul ou reporting) des données résultantes aux données sources peut permettre de prioriser ces dernières. Il s’agit là d’un travail d’inventaire dense et exigeant engageant la banque dans un travail méticuleux lui permettant de recenser les données qu’elle communique ou bien qu’elle utilise pour le pilotage ou le suivi des risques.
À partir de ce recensement, elle est en mesure de commencer la construction de son dictionnaire des données qui constitue la « colonne vertébrale » de la gestion de la qualité des données. Les challenges sont nombreux, autour de la constitution de ce dictionnaire des données, comme par exemple traiter le sujet de la généalogie des données – le « data lineage » –, ou bien encore arbitrer les problématiques d’intégrité référentielle.
Sur cette base, les premiers diagnostics de la qualité des données peuvent être conduits afin, entre autres, d’effectuer des mesures initiales de qualité et de fixer les objectifs et seuils de qualité donnée par donnée. La pose des premiers dispositifs d’évaluation de la qualité des données et des premiers reportings peut alors s’ensuivre.
Aujourd’hui, les banques les plus avancées ont déjà industrialisé leur dispositif de mesure de la qualité des données alors que d’autres sont en prise avec les dictionnaires de données.
La prise de conscience a donc été claire et les banques se sont toutes engagées sur le processus de mise en œuvre de la gestion de la qualité des données en mettant en place des organisations dédiées aux données.
Le futur : penser la mise en œuvre
Face au coût que représente la surveillance de la qualité des données, la réflexion doit se faire en profondeur. Transformation en profondeur – par quoi commencer, comment le faire – ou évolution du SI brique par brique ? Préalablement à cette question d’ailleurs, une réflexion doit être menée sur la manière dont on veut exploiter les données et en contrôler la qualité, en ce qui concerne les compétences à rassembler au sein d’une équipe dédiée à la qualité des données, ou bien encore l’approche que l’on veut déployer. Le périmètre d’une telle équipe a-t-il vocation à se limiter à la qualité des données ou bien est-il possible de capitaliser sur cette dernière pour d’autres utilisations ?
Un élément d’éclairage peut être apporté en se rapportant aux concepts qui sous-tendent la qualité de données. Considérons l’évaluation de « l’exhaustivité », du « format » et de la « cohérence » (d’un enregistrement, d’une donnée ou historique) à titre d’exemple.
L’évaluation de « l’exhaustivité » ne porte pas de complexité particulière à part dans le cadre d’une transformation ou d’une agrégation. L’évaluation du « format » des données non plus. L’interprétation des résultats des tests correspondants est de lecture directe. La « cohérence » réclame, quant à elle, plus de savoir et d’expertise dans son évaluation. En effet, évaluer la qualité des données lorsque l’on aborde la notion de la « cohérence » passe par la compréhension fine de la donnée analysée, de son sens « métier », de sa provenance, de son contexte, de son/ses utilisations… C’est au prix de cette compréhension fine et approfondie que les tests et analyses que l’on veut construire seront pertinents. Au regard de la complexité de l’évaluation de la « cohérence » et du coût qui en découle, l’intelligence artificielle (IA) apporte d’ailleurs de véritables accélérateurs tout en garantissant un niveau d’efficience important. Enfin, les résultats de ces analyses devront être suivis dans le temps afin d’être interprétés.
Or, dans le cadre de l’exploitation du gisement de valeur que représenteraient les données, construire une réponse à une question « métier » ou stratégique n’est pas fondamentalement différent du process d’évaluation de la « cohérence » des données. La réponse à une question, qu’elle soit relative à la qualité des données ou au métier, se fait de la même manière : modélisation de la question et/ou du besoin « métier », identification des données sous-jacentes, collecte et préparation des données, analyse et restitution. Là encore, l’IA apporte de nombreuses réponses concrètes et pertinentes en matière d’approche, que ce soit pour prédire ou estimer des valeurs numériques ou des valeurs textuelles. En ce sens, les compétences requises pour évaluer la cohérence des données ou pour effectuer une analyse des données dans une perspective métier sont donc les mêmes.
Enfin, au regard de ce qui précède et à l’heure actuelle, poser la question de la donnée dans l’entreprise peut-il se faire sans se poser la question prospective du Big Data et donc de l’orientation de son SI pour entrer dans l’ère Big Data ?
Conclusion
Le marché a pris la mesure des enjeux. Les acteurs sont plus ou moins avancés sur le chemin. Les plus avancés en la matière ont déjà mis en œuvre les premiers contrôles de qualité des données quand la majorité travaille sur le dictionnaire des données et les premiers diagnostics.
L’évaluation de la qualité des données commande des choix d’orientation en matière d’approche et de technologies. L’IA est par exemple un facteur d’efficacité et de réduction de coût à prendre en compte pour certaines évaluations complexes. Sa mise en œuvre fait d’ailleurs appel à un socle de compétence qui permet de répondre à d’autres enjeux, comme l’exploitation des données en tant que gisement de valeur ou bien encore la lutte contre la fraude. Ces choix auront eux-mêmes des conséquences structurantes pour les orientations du SI (dispositifs de stockage et de mise à disposition des données, architecture distribuée ou verticale…).
Ces projets, par les compétences ou les transformations qu’ils nécessitent, constituent l’opportunité de se réapproprier les données et de se doter d’une plate-forme – données mises en qualité, mises à disposition, historisées et archivées ainsi que les compétences et les technologies permettant l’exploitation de celles-ci – qui en favorisera l’exploitation et la découverte de la richesse qu’elles renferment.