Révolution digitale

Dispositif KYC : pourquoi l’intelligence artificielle est-elle nécessaire ?

Créé le

03.07.2020

Effectuer un processus de KYC* à distance efficace nécessite de pouvoir exploiter efficacement un très grand nombre données. Seul le recours à l’intelligence artificielle permet d’obtenir de bons résultats. Les exemples du couplage des données et du traitement des données multilingues et de la translittération permettent d’en mesurer concrètement les enjeux.

Dispositif KYC : pourquoi l’intelligence artificielle est-elle nécessaire ?

George Emelyanov

Directeur technique Schwarzthal Tech

Marius Cristian Frunza

Partner Schwarzthal Kapital

Dans le contexte de la pandémie liée au coronavirus Covid-19, une révolution digitale s’est mise en marche en impactant tous les secteurs économiques. L’objectif principal de cette révolution est de transformer la façon de communiquer, et de l’adapter au télétravail et à la diminution des interactions entre individus. Le secteur bancaire est au cœur de ces transformations, car il se voit obligé de servir les clients actuels et de recruter de nouveaux clients en s’appuyant, de plus en plus souvent, uniquement sur une interaction entièrement virtualisée. La vérification d’identité et le processus de KYC qui demandaient traditionnellement un contact physique avec le client doivent désormais pouvoir s’effectuer sur des plateformes digitales. À l’aube de la révolution digitale, le KYC dépasse son périmètre traditionnel et se voit contraint d’utiliser des méthodes innovantes afin de rester efficient.

La digitalisation du KYC constitue un réel défi pour le secteur bancaire…

Contraintes par la consigne de la distanciation sociale, les principales banques traditionnelles ont avancé rapidement dans la numérisation de leurs services. HSBC, Barclays et bien d’autres proposent des services nécessitant une interaction humaine minimale, y compris la vérification et le KYC pour les nouveaux clients. Ouvrir des comptes pour de nouveaux clients ou placer des produits en se basant uniquement sur un processus dématérialisé comportent cependant de nombreux risques.

La collecte continue de données, le couplage des enregistrements et le traitement automatique de données multilingues sont parmi les défis techniques de la dématérialisation du process KYC. Une solution KYC entièrement digitalisée permettrait d’obtenir en temps réel des informations sur les personnes physiques et morales, de visualiser le réseau global de connexions d’un client, et d’évaluer les risques de blanchiment de capitaux et d’évasion fiscale. Un tel processus s’appuierait sur des outils utilisant des techniques innovantes de traitement automatique du langage naturel et d’apprentissage automatique.

…car la réglementation devient plus contraignante à ce sujet

La cinquième directive européenne anti-blanchiment [1] stipule que les États membres doivent veiller à ce que les sociétés et autres entités juridiques constituées sur leur territoire obtiennent et conservent des informations adéquates, exactes et actualisées sur leurs bénéficiaires effectifs, car c’est la clé pour pouvoir identifier les chefs d’orchestre dans les affaires de criminalité financière.

La Commission européenne estime en outre que l’accès du public aux informations sur les bénéficiaires effectifs des sociétés permet un contrôle accru des informations, et contribue à préserver la confiance dans l’intégrité des transactions commerciales et du système financier. Cette transparence doit également faciliter la mise à disposition efficace d’informations pour les institutions financières et les autorités, notamment les autorités des pays tiers impliquées dans la lutte contre la criminalité financière.

Ce cadre prudentiel est une terre fertile pour les solutions logicielles KYC. Les nouvelles lois et réglementations liées à la lutte contre le blanchiment d’argent, le financement du terrorisme et les sanctions ont contribué à la croissance durable de ce marché, estimé à 5,6 milliards de dollars en 2017 avec un taux de croissance annuel de 16 %.

Les institutions financières ont commencé à bâtir de grosses bases de données…

Les banques et les FinTechs ont réalisé que l’accumulation des données dans des entrepôts de données géants les rend peu utilisables. Les solutions technologiques dédiées à la conformité réglementaire ne font guère exception. À l’instar de ce que la NSA (National Security Agency) a fait dans les années 2000, la majorité des grandes banques se sont lancées dans la valse du stockage de données pour appuyer les différents chantiers relatifs à la conformité et à la lutte contre la criminalité financière.

Seul bémol : la mise à jour et l’exploitation de ces énormes bases de données, qui incluent entre autres des informations relatives aux sociétés, aux identités des clients et aux transactions bancaires, affichent des coûts très élevés. Les techniques traditionnelles utilisées dans l’administration des bases de données s’avèrent obsolètes devant un tel défi.

…mais le « Big Data » peut s’avérer être un problème plutôt qu’une vraie solution

Non seulement les bases de données nécessaires atteignent des dimensions importantes, mais elles ont aussi un caractère dynamique, ce qui rend l’équation bien plus complexe. La myriade de solutions dites « Big Data » propose dans la plupart des cas des capacités de stockage des données, sans pourtant être toujours efficientes et viables quand les données sont dynamiques et nécessitent des mises à jour périodiques. Analyser l’information stockée dans les différentes solutions « Big Data » peut s’avérer une tâche laborieuse parfois impossible, avec des coûts de projets pouvant s’étaler sur plusieurs années, laissant les chantiers de conformité dans un hiatus opérationnel. Stocker de grosses bases de données est pourtant un mal nécessaire. Les normes prudentielles ainsi que la jurisprudence montrent que les institutions financières sont tenues responsables de la bonne compréhension du profil détaillé de leurs clients, des liens avec les tiers, ainsi que des possibles connexions avec des personnes ou des sociétés sanctionnées ou ayant un passé obscur.

Les « lacs de données » sont une solution de secours…

Le « lac de données » (en anglais, « Data Lake ») est un concept qui a vu le jour au moment où le Big Data est devenu trop « big ». Les « lacs de données » se sont d’ores et déjà imposés comme une alternative efficace permettant de loger des données non structurées en différents formats et facilitant l’utilisation des techniques avancées d’apprentissage automatique.

La colonne vertébrale d’un processus robuste de KYC est un « lac de données » incluant les informations disponibles concernant les clients (personnes physiques et morales) et leurs connexions globales. Dans ce cadre, les algorithmes avancés peuvent coupler des données multilingues provenant de différentes sources, pour analyser et quantifier la complexité d’un réseau de personnes et de sociétés. Un tel processus KYC fournit une image globale sur une personne physique ou une entreprise mettant en exergue leurs réseaux transnationaux correspondants.

…qui nécessite l’utilisation de l’intelligence artificielle

Adopter des solutions utilisant l’intelligence artificielle pour la conformité réglementaire n’est pas qu’une question de mode. En effet, dans les établissements financiers, la plupart des processus opérationnels qui concernent l’extraction et la consolidation des informations se font encore manuellement. La pression réglementaire impose davantage de granularité dans l’analyse des dossiers clients et le contrôle des transactions. Ainsi, à l’heure actuelle, le process de KYC nécessite plus que le recueil des données concernant uniquement le client concerné. Désormais, le cadre normatif actuel demande aux responsables de la conformité d’explorer plus en profondeur les actuels ou potentiels clients, et cette vérification devient une véritable investigation qui dépasse le périmètre traditionnel du process de KYC.

Ayant peur des pénalités liées au non-respect des lois visant la lutte contre le blanchiment d’argent, les établissements se voient obligés d’augmenter leurs ressources opérationnelles. Cependant, cette augmentation des ressources engendre des coûts grandissants. De ce fait, l’automatisation des tâches humaines devient plus que nécessaire. Ainsi, l’utilisation de l’intelligence artificielle dans le cadre de la lutte contre la criminalité économique se décline sur deux axes principaux :

– d’une part, l’extraction et la consolidation de l’information ;

– d’autre part, la surveillance et le monitorage des activités clients.

Le couplage des données est une tâche complexe…

Explorer les « lacs de données », repérer et lier les informations significatives pour chaque client s’avère être un processus complexe. Les informations concernant un client peuvent être dispersées dans plusieurs bases de données, et afin de crayonner une image agrégée, il faut d’abord coupler ces données d’une manière cohérente.

Le couplage des données consiste à rechercher des informations dans un ensemble de données faisant référence au même client dans différentes sources de données. Le couplage des données est nécessaire lors de la jonction de divers ensembles de données basés sur des entités qui peuvent partager ou non un identifiant commun, ce qui peut être dû à des différences dans la forme ou la langue d’enregistrement.

Cette opération simple en apparence s’avère plus difficile quand le client a par exemple un nom assez fréquent au sein de la population. Dans ce cas, la probabilité d’obtenir un faux couplage est élevée. « Michel Roux » ou « Pierre Lefebvre » sont des exemples de noms assez fréquents dans la langue française, et lier l’ensemble des données dans de tels cas demande des techniques d’apprentissage automatique (voir Tableau). Ces méthodes explorent donc d’autres caractéristiques du client, comme l’adresse, la date de naissance ou le numéro de téléphone, afin de reconstruire son image complète.

…et l’utilisation de l’intelligence artificielle est impérative

Le couplage des données n’est pas le seul défi du processus KYC. Afin de pouvoir bâtir le profil complet d’un client, la simple compilation des données n’est pas suffisante. Un éventail de techniques avancées doit être appliqué afin de mettre en musique les différentes informations. La translittération de noms écrits dans différentes langues est une technique qui mérite une attention particulière dans le contexte du KYC.

Un exemple parlant pour l’utilité de la recherche approximative dans le processus de KYC est celui de l’acteur français Gérard Xavier Depardieu, qui a obtenu la nationalité russe en 2013. Le nom de l’acteur français se présente en russe comme Жерар Депардьё ou Жера́р Ксавье́ Депардьё. La translittération française de la version russe est : Zherar Ksavie Deparde. Évidemment, entre les deux versions du nom, le lien n’est pas immédiat, et demande un traitement avec un algorithme dédié.

Dans un processus KYC traditionnel, le profil de Gérard Depardieu serait lié uniquement aux entreprises françaises qu’il dirige ou dont il a été fondateur. La recherche de son nom dans la base de données des entreprises russes ne donnerait pas de résultat sans un algorithme de translittération approprié (voir Figure 1). Or, la translittération n’est pas une fonction bijective, plusieurs versions existant pour un nom traduit dans une langue avec un alphabet différent.

À titre d’exemple, le nom de l’oligarque russe Serguei Pougatchev (Sергeй Викторович Пугачёв en cyrillique) présente plusieurs versions dans les langues utilisant l’alphabet latin, dont Sergei Pugachev, Serguei Pougacheff, Serge Pugachoff, Sergey Pugachyov ou Serguei Pougatchev.

La translittération est une véritable arme facilitant la création d’identités multiples. Autrement dit, les versions du nom de la même personne dans plusieurs langues lui permettent de créer des identités différentes. Les noms suivants : Vladimir Plahotniuc [2] , Plahotniuc Vladimir Gheorghievici, Vlad Ulinici, Vladimir Ulinici, Влад Володимир Плахотнюк (en russe), Владимир Георгиевич Плахотнюк (en ukrainien) correspondent à une seule et même personne : un célèbre homme d’affaires moldave. Il est d’ailleurs publiquement désigné par le Département d’État américain pour son implication dans une corruption importante.

Des enjeux stratégiques

Construire un tel algorithme pour pouvoir identifier correctement toutes les versions d’un nom translittéré en plusieurs langues nécessite des méthodes recourant à l’intelligence artificielle.

De plus, quand une banque doit implémenter un tel processus pour un grand nombre de clients en provenance de plusieurs pays, elle se confronte à un double défi. D’un côté, l’établissement doit pouvoir gérer efficacement de grosses quantités de données concernant ses clients, à travers des « lacs de données » ayant une architecture complexe. D’un autre côté, l’exploitation de ces données en mobilisant l’intelligence artificielle réclame d’énormes capacités de calcul. Les gagnants de cette révolution digitale dans le monde de la conformité seront encore une fois les géants comme Google et Amazon. Les banques traditionnelles sont donc obligées de se lancer sur le terrain des FinTechs. C’est sans aucun doute une dérive stratégique risquée, qui pourrait mener les établissements financiers à subir un processus de restructuration douloureux.

1 https://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX:32018L0843.

2 https://www.state.gov/public-designation-due-to-involvement-in-significant-corruption-of-former-moldovan-official-plahotniuc/

À retrouver dans la revue

Notes :
1 https://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX:32018L0843.
2 https://www.state.gov/public-designation-due-to-involvement-in-significant-corruption-of-former-moldovan-official-plahotniuc/