Possibilités et limites

Que peut faire l'intelligence artificielle pour les marchés financiers ?

Créé le

18.04.2018

-

Mis à jour le

29.05.2018

Sur les marchés financiers, l’intelligence artificielle trouve deux principaux débouchés : la synthèse automatique des données et l’aide à la décision ; mais, outre le fait qu’elle doit s’appuyer sur des volumes de données suffisants pour être efficace, certains résultats peuvent être atteints avec la même pertinence en exploitant des technologies déjà utilisées dans les banques.

L’intelligence artificielle (IA) est un concept assez mouvant : dans les années 1950, il s’agissait d’une exploration systématique de tous les choix possibles pour répondre à un problème (et cela a mené à l’élaboration de langages de programmation comme le Prolog) ; aujourd’hui, il s’agit d’imiter le mieux possible une collection préexistante de cas réels de bonnes et de mauvaises réponses. Ce qui frappe les esprits, c’est qu’une des techniques ayant connu de grands succès depuis peu s’appelle les « réseaux de neurones artificiels », qui sont basés sur un « apprentissage » statistique mis en place lors d’essais-erreurs fait par la machine. Nous sommes donc (au moins au niveau de la terminologie) proches des capacités cognitives développées par la plupart des animaux, dont les humains. L’opposition entre le symbolisme (la manipulation explicite de concepts, ambition des années cinquante) et le « connexionnisme » (la prise de décision par une collection de neurones stimulés par un input extérieur, apanage de l’IA d’aujourd’hui) reste importante, même si, comme nous le verrons, l’un ne va pas sans l’autre dans les applications en finance.

Les succès déjà enregistrés par ces techniques d’apprentissage statistique (« machine learning » en anglais) se focalisent autour du traitement du signal (audio, vidéo, ondes en général) et de la classification ou segmentation (qui est très proche du « credit scoring » opéré par les compagnies d’assurance : les caractéristiques d’un prospect me permettent-elles de deviner s’il fera un bon ou un mauvais client ?). Il est assez facile d’imaginer des applications similaires sur les marchés : la digestion et le classement de divers types de contrats (pensez aux KYC des banques), la transcription d’enregistrements (pensez aux dialogues entre les traders et leurs clients), et la recommandation de produits (pensez à un teneur de marché qui a besoin de trouver des clients qui lui permettront d’équilibrer son inventaire). Mais pour aller plus loin que la simple transcription au secteur financier d’applications déjà existantes ailleurs, il convient d’être un peu systématique. Les possibilités offertes par l’apprentissage statistique se classent en deux grandes catégories : l’aide à la décision et le résumé (ou la synthèse) automatique d’informations. Chacune d’entre elles peut être mise en œuvre dans trois contextes assez différents : à l’adresse des clients, pour un usage interne au système financier, ou bien sur des données qui viennent du monde économique.

Une désintermédiation massive

Avant de se lancer dans une liste des utilisations possibles de l’apprentissage statistique en finance de marché, il est important de noter l’impact plus macroscopique qu’ont déjà eu ces techniques dans d’autres domaines. Pensons simplement à l’ubérisation de beaucoup d’industries : elle a été rendue possible grâce à la synthèse d’informations diffuses (quels sont les chauffeurs les plus proches de moi ? Quelle note mes précédents clients m’ont-ils donnée ?) et l’aide à la décision (calcul de trajets automatisés permettant à tout titulaire d’un permis de conduire de s’improviser chauffeur). On oublie souvent que ces opérations qui nous paraissent simples car la plupart de nos téléphones nous proposent quantité de services de ce genre, reposent sur des techniques d’IA au sens où on l’entend aujourd’hui. Tout comme nous oublions que le premier moteur conversationnel (« chat bot » en anglais) est le moteur de recherche de Google. Cette vague de services innovants a avant tout mené à la désintermédiation des secteurs qu’elle a touché (les transports pour Uber, les librairies pour Amazon et les médias pour Google et Youtube par exemple).

Or, les marchés financiers sont avant tout un gigantesque réseau d’intermédiaires très bien décrit par Robert Merton en 1995 dans son article « A Functional Perspective of Financial Intermediation » (Financial Management, Vol. 24, No. 2). Nous devons donc avant tout nous poser collectivement la question de l’effet qu’aura une désintermédiation massive du système financier dans les années à venir. Les industriels (les banques d’investissement, les assurances, les courtiers, les sociétés de gestion, les places de marché, les chambres de compensation) doivent remettre en question leurs modèles et leur positionnement, et les régulateurs doivent penser à la protection des investisseurs et aux nouveaux risques. Ceci étant dit, la transformation du secteur financier sera sans doute plus lente que celle d’autres secteurs, essentiellement à cause de coûts fixes très élevés pour les nouveaux entrants (en partie dus à la régulation ; il a fallu par exemple que l’AMF modifie le cadre réglementaire sur le financement participatif en 2014 pour permettre aux start-up de crowdfunding d’opérer en France). Face à cette situation particulière, les jeunes entreprises doivent se positionner en dehors du système financier (par exemple en ne proposant que des technologies et pas des services financiers) ou bien ne faire que des démonstrations en attendant de se faire racheter. De leur côté, les grandes entreprises ont intérêt à intensifier leurs relations avec les universitaires pour accéder à des avis éclairés sur ces nouveaux entrants, et créer des « Labs » internes, qui reconstituent en leur sein les conditions de travail et de créativité de start-up. Pour compléter ce tableau, soulignons qu’à l’échelle de l’Europe où les vocations scientifiques se raréfient, nous faisons face à un fort besoin en formation initiale et continue dans les domaines des sciences des données.

La synthèse automatique de données

La synthèse automatique d’information est sans doute le premier domaine auquel il faut penser pour imaginer des applications de l’IA en finance de marché. Elle trouve ses applications dans la digestion des montagnes d’informations déjà stockées par cette industrie (souvent pour des raisons réglementaires [1] ) auxquelles viennent s’ajouter l’open data et ce qu’il convient aujourd’hui d’appeler les « données alternatives ».

L’open data est constitué de toutes les données gratuites disponibles sur internet : des collectivités locales aux sites des entreprises en passant par les autorités de régulation, une masse très importante d’informations sur l’état de l’économie est disponible. Les données alternatives proviennent, quant à elles, des nouveaux services liés eux-mêmes aux avancées technologiques récentes : images satellites, objets connectés, réseaux sociaux publiques ou privés, etc.

Il s’agit alors de résumer ce réseau d’informations mal structuré pour avoir une image instantanée de l’état d’un secteur économique. Dans le langage de l’apprentissage statistique, cela s’appelle du « nowcasting » ; ce n’est pas de la prédiction (« forecasting » en anglais), mais plus simplement la constitution d’indices de bonne santé de tel ou tel secteur qui soient disponibles bien avant les traditionnelles sorties de chiffres officiels. Notons qu’il est possible d’appliquer des techniques d’apprentissage supervisé (qui fonctionnent plus facilement que les techniques dites « non supervisées ») pour mettre au point ces algorithmes de nowcasting. En effet, on peut lui fournir les chiffres officiels qui sont connus plus tard mais bel et bien disponibles au moment où la machine doit « apprendre ».

Une particularité de ces applications est qu’il n’est pas nécessaire de disposer de données financières pour mettre en œuvre ce genre de synthèse de données diffuses sur l’état de l’économie. Une start-up peut acheter les données brutes, les traiter et fournir des indices de « bonne santé » de l’activité économique en question. J’ai organisé au 11e Forum International du Risque de l’Institut Louis Bachelier une session sur le traitement d’images satellites qui illustrait très bien l’écosystème qui peut se développer autour d’une nouvelle source de données : ainsi un fonds d’investissement (Capital Fund Management), une start-up (Kayrros), et un laboratoire universitaire (le CMLA de l’ENS de Paris Saclay) peuvent travailler dans des directions un peu différentes mais partagent les mêmes données, les mêmes outils et les mêmes méthodologies.

Du point de vue des institutions financières, l’importance de la synthèse automatique de données économiques tient en deux points : à court terme, elle peut se suppléer à l’analyse financière « classique » habituellement produite par les sociétés de courtage et dont le business model est mis à mal par la directive MiFID II depuis janvier 2018. À plus long terme, une gamme de services reposant sur cette technologie ne peut que mieux connecter les prix qui proviennent d’un équilibre entre l’offre et la demande sur les marchés financiers à l’état réel de l’économie. Ce qui pourrait se résumer à « l’intelligence artificielle au service de l’intelligence économique ».

L’aide à la décision

Une autre gamme d’applications de l’apprentissage statistique en finance est liée à l’aide à la décision (« decision support » en anglais). La plus connue d’entre elles est le robo-advisory : un système apprenant conseille un investisseur particulier. Il pose tout d’abord des questions sur les revenus, les capacités d’épargne, le profil de risque et les retours sur investissement espérés. En fonction des réponses, il propose un portefeuille de produits censé répondre à ces besoins.

Une autre fonctionnalité issue de l’aide à la décision est développée par les banques d’investissement depuis quelques années : il s’agit d’aider les services de tenue de marché (« market making » en anglais) à équilibrer leurs inventaires, surtout pour des produits peu liquides. Suites aux évolutions réglementaires post-crise (augmentation du capital réglementaire et intensification de la collatéralisation) et aux politiques monétaires non conventionnelles (quantitative easing des banques centrales), les banques d’investissement passent d’un modèle de tenue d’inventaire à un modèle de flux. Avant la crise, les banques n’hésitaient pas à solliciter leurs bilans de façon durable pour tenir des positions. Aujourd’hui, elles essaient de ne tenir que temporairement leurs positions. Par conséquent, elles se focalisent plus sur la synchronisation des acheteurs et des vendeurs, que sur la valorisation éventuelle de leurs propres positions. Sur des produits peu liquides, cela nécessite d’être proactif : aller chercher les vendeurs lorsqu’on a un inventaire trop long et les acheteurs lorsqu’on a un inventaire trop court. Pour cela, il est possible d’utiliser un « moteur de recommandation » semblable à celui utilisé par Netflix. Au lieu de deviner quel est le prochain film qu’un utilisateur a envie de visionner, il s’agit de deviner quel client va avoir un appétit pour les produits financiers « en surplus » dans l’inventaire de la banque. Ce genre d’applications donne au vendeur ou au négociateur une liste de clients ayant le plus de chances de répondre favorablement à leur sollicitation. Là où les équipes de la banque tentaient de mémoriser les besoins de leurs contacts, elles peuvent aujourd’hui s’appuyer sur cette liste « objective ». Bien entendu, il leur reste la possibilité de s’en éloigner, pour prendre en compte une information non disponible pour la machine (par exemple une conversation téléphonique récente avec un client), car ces systèmes n’exploitent que ce qui est disponible dans les bases de données de la banque (qui se limite souvent aux transactions effectuées et les « requests for quotes »).

Exploiter les technologies sous-jacentes

Les progrès récents de l’IA reposent sur plusieurs améliorations qualitatives des techniques de manipulation de données par des moyens informatiques, et sur des méthodes d’optimisation. L’industrie de la finance de marché travaille depuis longtemps sur de grosses bases de données avec de fortes capacités de calcul [2] , afin d’optimiser le contrôle des risques. Elle peut largement profiter de ces progrès directement sur ses données en utilisant ses propres capacités de calcul sans recourir à l’IA.

La manipulation de données non structurées (comme les « graphes » de vos contacts Facebook ou linkedIn) est un de ces progrès. Les intermédiaires financiers sont par nature constamment en train de manipuler des graphes de ce genre et ils ont tout intérêt à moderniser leurs outils pour exploiter ces nouvelles technologies. Cela leur permet, par exemple, de trouver beaucoup plus rapidement tous les produits financiers et tous les documents concernant une entreprise ou un client, et de comparer des entreprises ou des clients au vu de ces collections de données.

Par ailleurs, une des techniques d’optimisation très utilisée par les librairies d’IA, comme TensorFlow ou pyTorch, est la différenciation automatique. Il s’agit de pouvoir calculer numériquement à la volée la dérivée partielle de n’importe quelle fonction [3] . Or les calculs de sensibilité aux risques économiques mis en place par les banques et les assurances reposent eux aussi sur des calculs massifs de dérivées partielles. Il y a deux ans, j’ai organisé, dans le cadre de la « Conférence internationale sur les simulations de Monte Carlo » de Paris (au Centre de conférence des Cordeliers), un mini-symposium sur l’application des techniques de différentiation automatique de l’IA aux calculs de sensibilité des banques [4] . Les différents orateurs ont exposé comment combiner cette technologie habituellement réservée à l’apprentissage statistique avec les besoins de l’industrie financière.

En prenant un peu de recul, on peut se rendre compte que les innovations de rupture s’appuient très souvent sur des progrès technologiques de plus bas niveau. Il faut aller au-delà des fonctionnalités clef en mains (comme les réseaux de neurones) et regarder comment il est possible d’exploiter les technologies sous-jacentes.

Comprendre les processus de décisions de l’IA

Même si les différentes applications de l’IA évoquées plus haut peuvent paraître impressionnantes, tout n’est pas possible. Par ailleurs, des questions sont soulevées par l’aspect « boîte noire » des fonctionnalités qu’elle propose.

Au premier abord, il est souvent difficile de comprendre, en termes simples, les raisons pour lesquelles un réseau de neurones artificiels prend une décision. Néanmoins, il a « appris » à tirer des conclusions à partir d’une liste d’exemples, c’est-à-dire à partir d’une base de données. Ces données sont généralement très volumineuses ; il ne faut pas oublier que les progrès du Big Data ont précédé et permis ceux de l’IA. En quelque sorte, le réseau de neurones a résumé cette base de données, afin de pouvoir l’utiliser pour en tirer des conclusions. En relisant les travaux des philosophes des sciences, on ne peut qu’être saisi par la démarche : les capacités cognitives de ces mécanismes reposent sur la compression d’une très grande masse d’information. Si on se réfère par exemple à Karl Popper, on peut penser qu’un réseau de neurones construit une « théorie scientifique » à partir de cette collection d’exemples. Par la suite, il va se servir de cette théorie pour prendre des décisions. Deux difficultés peuvent entraver la construction d’une théorie scientifique bien fondée : un trop petit nombre d’expériences disponibles, ce qui aboutira à des théories infalsifiables (l’équivalent popperien du « sur-apprentissage », en anglais « over-fitting »), ou des expériences faussées.

Le nombre de données est donc capital : il en faut beaucoup et il est nécessaire qu’elles soient très diverses. Si le système apprenant n’a vu que de petites variations d’un même exemple, il va avoir tendance à ne rien savoir faire d’autre que répéter toujours la même réponse, qui n’est adaptée qu’à cet exemple anecdotique, sans jamais pouvoir généraliser. Les ingénieurs qui mettent en production des IA devraient donc toujours pouvoir justifier qu’ils les ont abreuvées de données suffisamment diverses et nombreuses. Par ailleurs, la qualité des données est aussi très importante. L’ensemble des données ayant servi pendant la phase d’apprentissage devrait donc être conservé, ou devrait au moins pouvoir être reconstitué à la demande, de façon automatique.

En outre, les théoriciens travaillent à rendre explicites certains aspects des processus de décision de ce genre d’outils. Par exemple, il est aujourd’hui possible de comprendre comment fonctionnent les « forêts aléatoires » (« random forests » en anglais) qui étaient considérées comme des boîtes noires il y a une vingtaine d’années. Ce n’est pas encore possible pour les « réseaux de neurones profonds » (« deep neural networks » en anglais), mais un effort académique notable est mené depuis quelques années pour mieux interpréter leurs décisions.

Maîtriser l’interface homme-machine

Pour conclure, il faut souligner que les fonctionnalités qualifiées aujourd’hui d’« intelligence artificielle » viennent avec quantité de méthodologies et de technologies qui, elles aussi, peuvent beaucoup apporter à l’industrie financière. Puisque les applications naturelles de la synthèse d’information et de l’aide à la décision à cette industrie sont en cours, il faut anticiper les conséquences de ces nouvelles fonctionnalités et de l’apparition de nouveaux acteurs sur l’organisation du système financiers et sur ces composants. On peut s’attendre à deux mouvements opposés : d’une part la fragmentation des acteurs et des services, d’autre part une émergence de plates-formes globales facilitant les relations d’entreprise(s) à entreprise(s). Face à ces transformations, les régulateurs vont devoir s’équiper d’outils de monitoring innovants et tenteront d’avoir une vision des flux de produits financiers et de risques à l’échelle mondiale.

Dans tous les cas, les « machines apprenantes » seront surveillées et pilotées par des humains. Les débats qui ont déjà au lieu autour de l’émergence du trading haute fréquence vont se reproduire : comment maîtriser le risque opérationnel, et comment s’assurer que la formation des prix reste « publique » lorsque de nombreuses machines y contribuent ? La solution viendra d’une bonne organisation des échanges d’information entre les humains et les machines. Il est nécessaire d’entamer dès aujourd’hui une réflexion pour que les machines fournissent aux humains les informations qui leur permettront de « reprendre la main » à bon escient et pour que les leviers d’action adéquats soient disponibles. Au-delà des opérateurs des machines, il sera nécessaire qu’une information publique digeste soit visible par le plus grand nombre de participants de marché.

 

1 Les spécialistes des sciences des données font la différence entre les données déjà bien rangées dans des bases immédiatement exploitables, et la « dark data » : des données qui sont effectivement archivées par l'entreprise, mais inexploitable en l'état. C’est le cas, par exemple, de données papier ou de bases de données non connectées au système d’information de lentreprise.
2 L'étude « The State of Cloud Application Adoption in Large Enterprises » de TCS, de mars 2012, signale que le secteur financier est le second secteur mondial (juste après le secteur des industriels électroniques et informatiques) en termes de nombre d'applications sur le cloud par employé. Et le blog SAP HANA cite en février 2014 une étude de McKinsey qui note que l'industrie financière était en 2009 de très loin la première aux États-Unis en termes de volume de données stockées par employé.
3 L'apprentissage des réseaux de neurones artificiels repose en effet sur des techniques de « descente de gradient », qui nécessite le calcul automatique de dérivées partielles de fonctions compliquées définies par des faisceaux de neurones.
4 Les éléments essentiels des exposés sont résumés dans l'article « Mini-Symposium on Automatic Differentiation and Its Applications in the Financial Industry », ESAIM: Proceedings and Surveys, 2017).

À retrouver dans la revue
Revue Banque Nº821bis
Notes :
1 Les spécialistes des sciences des données font la différence entre les données déjà bien rangées dans des bases immédiatement exploitables, et la « dark data » : des données qui sont effectivement archivées par l'entreprise, mais inexploitable en l'état. C’est le cas, par exemple, de données papier ou de bases de données non connectées au système d’information de lentreprise.
2 L'étude « The State of Cloud Application Adoption in Large Enterprises » de TCS, de mars 2012, signale que le secteur financier est le second secteur mondial (juste après le secteur des industriels électroniques et informatiques) en termes de nombre d'applications sur le cloud par employé. Et le blog SAP HANA cite en février 2014 une étude de McKinsey qui note que l'industrie financière était en 2009 de très loin la première aux États-Unis en termes de volume de données stockées par employé.
3 L'apprentissage des réseaux de neurones artificiels repose en effet sur des techniques de « descente de gradient », qui nécessite le calcul automatique de dérivées partielles de fonctions compliquées définies par des faisceaux de neurones.
4 Les éléments essentiels des exposés sont résumés dans l'article « Mini-Symposium on Automatic Differentiation and Its Applications in the Financial Industry », ESAIM: Proceedings and Surveys, 2017).