Intelligence Artificielle, Big et Open Data

Quel apport dans les modèles de scoring de crédit bancaire ?

L’utilisation d’algorithmes auto-apprenants peut paraître séduisante pour affiner les modèles de gestion des risques des établissements financiers. Mais dans les faits, leur difficile audit et la faible valeur prédictive des données qui servent à les paramétrer rendent l’intelligence artificielle moins attractive. Il n’en va pas de même de l’accès gratuit aux données, dans la mouvance de l’Open Data.

Big et open data

L'auteur

Pour en savoir plus

image
  • Graphiques 1 et 2

    Graphiques 1 et 2

Revue de l'article

En matière de gestion des risques dans le domaine financier, l’exploitation et le croisement de données diverses dans des modèles prédictifs de type scores de crédit n’est pas une nouveauté. La réglementation bancaire bâloise a d’ailleurs reconnu ces « modèles internes » comme la pierre angulaire du dimensionnement des fonds propres dès les accords Bâle II de 2004. Ces modèles internes sont aujourd’hui regardés non plus comme une bonne pratique de la gestion des risques, mais au contraire comme une source potentielle d’opacité et d’arbitrage réglementaire au service de l’optimisation de la rentabilité du secteur bancaire. Tout l’enjeu de Bâle IV porte ainsi sur la limitation des bénéfices tirés de l’usage des modèles internes, à travers le dimensionnement d’un plancher (floor) approprié. Cette question est particulièrement sensible pour les établissements français qui ont lourdement investi dans les modèles de risque de crédit. Dans le même temps, l’ère est à l’intelligence artificielle (IA) et aux FinTechs qui les portent. Mais au final, quel est le véritable apport de la révolution de l’IA du Big et de l’Open Data par rapport aux approches de data mining existantes ? Cette révolution, ou plutôt évolution, peut-elle pleinement délivrer ses bénéfices dans le cadre réglementaire actuel ?

L’apprentissage automatique et la transparence des modèles

Tout d’abord, l’IA entend inférer des comportements, des mécanismes et corrélations à partir de l’exploitation de grandes masses de données issues du passé. Par rapport au data mining classique, l’apprentissage peut ne pas être supervisé par un être humain, mais au contraire se faire de manière parfaitement automatique (machine learning), c'est-à-dire sans qu’un expert ne suive le processus de sélection et de construction pas à pas des variables retenues dans l’algorithme. Cet apprentissage automatique peut ainsi inférer des corrélations entre un jeu de données et une variable ou un comportement à expliquer (par exemple le défaut d’un emprunteur). La recalibration et le choix du modèle (régression statistique, réseau de neurones…) peuvent alors évoluer en temps réel pour coller aux dernières données et aux dernières évolutions des comportements des emprunteurs.

Toutefois, la recalibration en temps réel et de manière absolument automatique présente deux inconvénients. D’une part, le modèle peut ne pas être connu de l’établissement financier à un instant donné. Ce premier point pose un problème car un modèle prédictif doit rester transparent et explicable auprès du superviseur pour être reconnu comme modèle interne de mesure des fonds propres. De la même façon, la réalisation du backtesting annuel (i. e. la mesure empirique de la capacité prédictive du modèle) ne sera pas aisée à réaliser de manière transparente avec un modèle changeant, devant être communiqué aux superviseurs. D’autre part, les variables retenues comme les plus discriminantes dans le modèle prédictif peuvent aboutir de facto à exclure complètement certaines populations de l’accès au crédit, ce qui peut poser des problèmes légaux. De même, des fraudes plus ou moins massives peuvent biaiser le processus d’inclusion ou d’exclusion des informations dans le modèle, sans qu’il soit aisé de les détecter en amont en l’absence d’apprentissage supervisé. À l’inverse dans le cadre d’une méthode hybride dite d’apprentissage semi-supervisé (mi-automatique, mi-humaine), des experts pourront en amont nettoyer les variables ou s’assurer que les scores répondent bien à des critères éthiques d’accès au crédit. Ces retraitements « humains » ne peuvent se faire que lorsque les variables et les algorithmes utilisés restent transparents et compréhensibles sur un plan économique.

La difficile exploitation des données passées…

Par ailleurs, à l’instar des approches de data mining classiques, les algorithmes d’IA restent cantonnés à une exploitation des données passées en supposant que les mécanismes de la solvabilité resteront identiques à court et moyen terme. En cas de grosse crise économique, cette hypothèse peut générer de grosses erreurs de prédiction et donc de sélection des emprunteurs. Cette dépendance par rapport au passé n’est pas nouvelle. Le recours à des simulations de crise (stress-tests) ou à des marges de conservatisme est d’ailleurs déjà imposé par la réglementation bancaire pour limiter les risques liés à un usage aveugle des modèles en période de changement radical de l’environnement économique. L’IA ne réduit pas cette dépendance par rapport aux données et comportements observés dans le passé.

…parfois non structurées

L’avantage de l’IA est que la palette de données exploitables dans le modèle prédictif peut être très large et aller bien au-delà des seules données numériques. Des posts sur les réseaux sociaux, des photos, ou autres données de géolocalisation peuvent ainsi être exploités. La constitution du dossier d’étude du crédit peut ainsi se faire de manière automatique en obtenant les autorisations du client, sous forme de connexion via un réseau social par exemple.

Cependant, l’inclusion dans le dossier d’analyse de crédit de données à faible intensité d’information (signaux faibles) requiert de balayer des jeux de données de grande taille (Big Data) pour compenser leur moindre contenu informationnel. Cela peut fonctionner sur des produits financiers standardisés (crédit à la consommation par exemple). Cela est en revanche moins pertinent lorsque la banque entend proposer une offre plus segmentée pour épouser les besoins de ses différents groupes de clientèle (clustering).

L’IA à l’heure de l’Open Data

Si le machine learning semble peu adapté aux exigences réglementaires bâloises et si les technologies autour du Big Data ne sont pas non plus la panacée dans la prédiction de la solvabilité des emprunteurs, en revanche la mise à disposition de données gratuites et ouvertes (Open Data) constitue, elle, une véritable source d’amélioration des processus d’octroi et de scoring bancaires. La France a ainsi pris le parti de mettre à disposition des jeux de données publiques de plus en plus large depuis la loi Valter de décembre 2015 et ce de manière gratuite depuis janvier 2017, notamment pour les données Insee. La France constitue un terrain particulièrement favorable à l’exploitation des Open Data puisqu’elle se situe au 4e rang mondial selon le Global Open Data Index en juillet 2017. Progressivement, la dynamique Open Data a ouvert l’accès aux annonces commerciales du Bodacc [1], puis à la base Sirene de toutes les personnes morales ayant un siège en France, de même pour la base des personnes physiques. Plus récemment, ce sont les liasses fiscales des entreprises collectées par les greffes des tribunaux qui sont également mises à disposition. À la différence des Big Data collectées sur les réseaux sociaux, les Open Data sont pour la plupart qualifiées, cela signifie que leur qualité fait l’objet de garanties via des contrôles externes de l’organisme collecteur ou bien du fait des pénalités légales applicables en cas de fausse déclaration.

Ces Open Data peuvent être exploitées soit directement dans les modèles prédictifs, soit être utilisées pour nettoyer des données externes dont la collecte ou la mise à jour s’avère coûteuse, aléatoire ou sujette à de fausses déclarations (collecte de bilans, déclaration de revenus…). La banque peut ainsi disposer d’une vision à 360° du client en comparant les informations fournies par celui-ci auprès de différents organismes pour en évaluer la cohérence globale. C’est plutôt dans cet environnement de données plus qualifiées que les algorithmes d’IA vont produire des bénéfices accrus. Ainsi les algorithmes de deep learning permettent de lire et analyser l’ensemble des annonces légales d’une entreprise parues au Bodacc depuis 2014 pour un coût marginal nul. Depuis janvier 2017, la part des Open Data dans les modèles de scoring de crédit est ainsi devenue nettement majoritaire (cf. graphiques ci-dessous). Seules quelques données internes issues de l’exploitation des relevés de mouvements bancaires restent, du fait du secret bancaire, inaccessibles au mouvement d’Open Data. Cette situation pourrait elle-même évoluer avec la nouvelle directive des systèmes de paiement (DSP2) visant à rendre ces données bancaires accessibles aux FinTechs.

Renforcer les modèles de scoring

Les Open Data, par la vision à 360° qu’elles apportent, qui plus est sur des données qualifiées, permettent de renforcer les modèles de scoring de crédit. Le Graphique 2 mesure l’amélioration des capacités de prédiction des modèles par l’inclusion d’Open Data.

Les Open Data permettent aussi de pré-évaluer la profitabilité et le risque de crédit de l’ensemble des prospects ou tiers que la banque souhaiterait démarcher. Des scores de ciblage commercial peuvent ainsi être mis en place pour démarcher des clientèles spécifiques en pré-analysant l’ensemble de leurs données de profil et surtout leurs données individuelles mises à disposition en Open Data (annonces légales, liasses fiscales, données Insee…).

En conclusion en matière d’analyse du risque de crédit, l’IA s’inscrit dans le prolongement des approches statistiques et de modèles internes existants. Toutefois, le cadre réglementaire pose des exigences de stabilité et de transparence des modèles qui sont des entraves fortes à des modèles fondés sur des apprentissages automatiques. En revanche, la démarche Open Data ouvre un champ des possibles particulièrement attractif en permettant une évaluation des risques à 360° fondée sur des sources de données multiples et surtout en permettant de qualifier et d’évaluer en amont les risques des prospects dans des campagnes commerciales mieux ciblées.

 

[1] Bulletin officiel des annonces civiles et commerciales.

 

Sommaire du dossier

Intelligence artificielle : jusqu’où les machines peuvent-elles assister les financiers ?

Articles du(des) même(s) auteur(s)

Sur le même sujet