Dans un contexte réglementaire en constante évolution, les données audio issues des conversations téléphoniques en salle de marché deviennent incontournables pour la conformité bancaire. La technologie vocale est de son côté révolutionnée par les nouvelles approches d’apprentissage profond associées à l’intelligence artificielle. Nous analysons le point de rencontre de ces deux tendances, à travers un déploiement innovant dans la salle de marché de Londres d’une grande banque de financement et d’investissement (BFI). Et si cette réussite signait non pas la fin d’une problématique technique pour la conformité, mais le début d’un grand nombre d’applications pour les établissements financiers, sur fond de transformation digitale ?
I. L’avènement des données audio dans les processus de conformité
Les départements de conformité des banques de financement et d’investissement (BFI), des gérants d’actifs, des courtiers, et d’une façon générale des prestataires de services d’investissement (PSI) portent aujourd’hui un intérêt appuyé aux données audio issues des communications téléphoniques en salle de marché. Analysons les raisons réglementaires qui rendent les données audio incontournables pour la conformité.
Les nouvelles obligations MIF 2
Le premier vecteur de l’attention récente des départements de conformité pour les données audio est l’entrée en vigueur au 3 janvier 2018 de la réglementation sur les marchés d’instruments financiers, MiFID II/MIFIR, dite « MIF 2 ». Par rapport à MIFID I, MIF 2 renforce et systématise les obligations de conservation des communications et les étend au téléphone (voir encadré1) ; cette conservation est toujours associée à la capacité de retrouver toutes les données liées à une transaction. MIF 2 introduit également une obligation de surveillance et de contrôle de conformité des communications et l’utilisation potentielle des données pour le contrôle de conformité à d’autres réglementations, notamment concernant les abus de marché et la protection des clients.
Un contexte d’inflation réglementaire
MIF 2 arrive dans un contexte dense de réglementation : depuis Bâle II et MIFID I en 2007, suivies par Dodd-Frank et FATCA en 2010, EMIR en 2012, ou encore Bâle III en 2013, de nombreuses réglementations se sont accumulées pour les prestataires de services d’investissement. Parmi les plus récentes, outre MIF 2 et la RGPD, citons la nouvelle réglementation contre les abus de marché MAD2/MAR entrée en vigueur à l’été 2017, et assortie dans la foulée d’un renforcement du « code de conduite ».
Cette inflation réglementaire s’est accompagnée d’une augmentation conjointe du spectre des contrôles, de leur nombre, et du montant des sanctions. D’après un rapport de la
Le même rapport relève des coûts juridiques pour les banques européennes entre 15 et 25 milliards de dollars par an, entre 2013 et 2015. Et si les montants globaux des amendes ont sensiblement diminué depuis 2015, notamment grâce aux investissements importants dans la conformité, certains experts s’interrogent : « Faut-il attendre un nouveau cycle d’amendes avec l’entrée en vigueur de la directive MIF 2 à partir du
Le risque de non-conformité est pris au sérieux par les banques et PSI. Au-delà même du risque d’amendes ou de remédiation, le risque d’image est pris en compte dans l’équation. La surveillance des communications téléphoniques mentionnée dans MIF 2 est considérée par beaucoup comme un moyen supplémentaire pour réduire le risque global de non-conformité, vis-à-vis de réglementations telles que MAR, le code de conduite, les luttes antiblanchiment d’argent, anti-évasion fiscale et autres.
Le rôle des communications, un changement de paradigme
L’attention est aussi attirée sur les communications, digitales comme téléphoniques, du fait des rapports publiés par les régulateurs, notamment la FCA, suite à des scandales de manipulation d’indice et de divulgation d’information privilégiée (voir schéma 2). Les traces d’infraction, quoique multifactorielles, sont souvent liées aux communications, que ce soit la messagerie instantanée ou le téléphone.
Ainsi, des départements de conformité prônent aujourd’hui un changement de paradigme, consistant à sourcer l’alerte dans les communications, plutôt que contrôler uniquement les communications a posteriori, suite à une alerte venant de données autres, généralement structurées, telles que le carnet d’ordre, les données de marché et le P&L des traders. La levée d’alertes dans les communications digitales, de type e-mail ou messagerie instantanée est aujourd’hui assez largement adoptée, avec des technologies sous-jacentes encore en forte évolution ; la levée d’alerte à partir des conversations téléphoniques, en revanche, n’a été mise en production systématique que récemment.
II. Le contrôle des communications voix : une tâche considérable enfin résolue ?
Dans les faits, le contrôle des communications voix par la conformité est une tâche considérable, qui était jusqu’à peu assez mal outillée, du fait de la nature particulière de ces données audio. Des déploiements récents réussis ouvrent aujourd’hui la voie, non seulement pour les départements conformité des PSI, mais aussi pour un grand nombre de métiers de l’entreprise.
Les approches existantes
Les responsables de la conformité ont souvent peu d’outils à leur disposition pour adresser les communications téléphoniques : accès et réécoute d’enregistrements ciblés ; recherche par métadonnées d’appel, telles que appelant, appelé, date et heure de l’appel ; enfin écoute par échantillonnage.
Étant donné la masse des appels générés en salles de marché, la capacité d’écoute humaine est largement insuffisante et la probabilité de découverte sur un échantillonnage aléatoire est extrêmement limitée. Seule une approche quasi exhaustive des appels peut donner une capacité de découverte efficace. C’est une tâche considérable pour les départements conformité, et impossible à mener à bien sans automatisation.
En termes de solutions vocales automatiques, la principale famille d’offres existant jusqu’à présent sert plutôt les enquêtes ex-post, principalement sur le marché nord-américain. Ces offres intègrent de la détection de mots-clefs et de l’indexation phonétique pour rechercher de séquences de phonèmes et expressions clefs dans une base de données audio préalablement extraite. Comme l’audio n’est pas transformé en texte, ce type d’approche ne permet pas de convergence naturelle avec les autres canaux digitaux et ne fait pas levier des progrès rapides en intelligence des données textuelles. Ces solutions incluent parfois certaines capacités de transcription parole-texte (speech-to-text), mais ne permettaient pas, jusqu’à récemment, de passer le cap de la surveillance quotidienne.
La révolution technologique apportée par les apprentissages profonds, discutée dans un précédent
Cependant, les données audio des salles de marché comportent de nombreuses particularités qui sont autant de défis pour les solutions automatiques, fussent-elles neuronales.
La nature des données
Les données audio qui rentrent dans le périmètre du contrôle de la conformité sont pour l’essentiel les enregistrements des postes téléphoniques de l’environnement salle de marché : platines de téléphonie de marché, téléphones IP, éventuellement téléphones mobiles.
Certains fournisseurs de téléphonie de marché préparent des offres permettant d’analyser leurs flux téléphoniques à la source ; ce qui ouvre des perspectives intéressantes. Pour l’instant, ces offres nouvelles sont encore limitées et pas forcément compatibles avec les exigences de conservation légale des données de MIF 2.
Les enregistrements conventionnels des conversations en salle de marché restent aujourd’hui la source incontournable des travaux de la conformité. Ces enregistrements cumulent de nombreux défis : le volume de données, la multiplicité des types de téléphonie et d’enregistreurs, le bruit ambiant, la parole superposée – surtout si les lignes sont mixées entre elles, la mauvaise qualité audio due à la forte compression des enregistrements, la spontanéité de la parole, les jargons utilisés, les langues et les accents.
En résumé, Les données audio issues des enregistrements de salles de marché cumulent les défis les plus ardus de la reconnaissance vocale.
De façon intéressante, les plus grands défis pour la technologie s’avèrent être ceux liés au territoire européen, et d’une façon générale aux territoires hors Amérique : il s’agit de la diversité des langues parlées par les traders, des nombreux emprunts à l’anglais dans les conversations non anglophones et surtout de la prévalence des accents non natifs dans les conversations anglophones.
Il a donc fallu pousser les technologies neuronales encore plus loin pour répondre à ces défis spécifiques (voir Encadré 2) et répondre aux besoins concrets des salles de marché.
Retours d’expérience d’un déploiement pour une BFI
Ainsi nous avons déployé une technologie de reconnaissance vocale innovante à grande échelle dans la salle de marché de Londres d’une BFI globale. La chaîne de traitement est entièrement automatisée, y compris l’extraction des enregistrements d’appels, issus des différents enregistreurs concernés (voir Schéma 3). Les transcriptions des appels sont indexées de façon unifiée avec les autres canaux de communications, à savoir e-mails et messageries instantanées. L’équipe conformité traite les alertes issues des conversations téléphoniques dans le même outil que les autres alertes, et peut croiser les informations entre sources. La mise en place de la nouvelle chaîne de traitement, incluant le speech-to-text, a déjà permis à l’équipe de découvrir un plus grand nombre d’alertes pertinentes. Le niveau de qualité de la technologie de reconnaissance vocale (speech-to-text) sur les enregistrements d’appels des traders a été évalué pendant plusieurs mois sur données réelles par la conformité et la précision de transcription a été déclarée suffisamment élevée pour être utilisée quotidiennement (voir Encadré 2).
Ce déploiement systématique du speech-to-text en salle de marché, est, à notre connaissance, l’un des premiers en son genre au niveau mondial. Par ailleurs, depuis la mise en place de la solution de transcription vocale, de nouvelles applications dérivées se font jour, qui dépassent les usages conformité, pour toucher à des enjeux de performance métier. La conformité est initiatrice d’une innovation technologique qui bénéficie à terme à l’ensemble de la banque.
Perspective : la conformité fer de lance de la capitalisation globale des données
La transformation et la maturation des départements de conformité depuis quelques années les positionnent aujourd’hui naturellement comme fers de lance de la capitalisation des données de l’entreprise. En effet, les données impactées par les différentes réglementations sont de nature très diverse, tant en termes de sources que de forme : données internes comme externes, données structurées comme non structurées, données textuelles comme audio ou vidéo. Les défis de capitalisation et de traitement de données auxquels doit répondre la conformité ont ainsi des spectres très larges et sont générateurs d’innovation et d’accélération de la transformation digitale.
Ainsi, l’odyssée de la technologie vocale au sein de la banque ne fait que commencer, et ce n’est pas un hasard si elle commence par la conformité.