La mesure, élément clé
de la réussite d’une stratégie IA

Créé le

25.03.2025

Il n’est point de stratégie efficace sans instrument de mesure ! Choix des projets, évaluation des performances des agents IA ou des hallucinations de la machine : explications détaillées de la gouvernance à mettre en place pour se distinguer grâce à l’intelligence artificielle.

L’essor de l’intelligence artificielle (IA), et plus particulièrement de l’intelligence artificielle générative (GenAI), transforme profondément le secteur financier. Des back-offices aux services clients, en passant par la conformité et la gestion des risques, ses promesses sont immenses : réduction des coûts, augmentation des revenus et de la satisfaction clients. Pourtant, si les cas d’usage ne manquent pas, leur adoption à grande échelle soulève une question centrale : comment garantir que ces systèmes produisent un impact mesurable et maîtrisé ?

Car, au-delà de l’aspect technologique, l’automatisation des processus et l’intégration de tiers non humains dans la chaîne de valeur engendrent inévitablement une perte de contrôle. Ainsi, comment s’assurer que les investissements dans l’IA/GenAI génèrent un impact positif ? Comment garantir qu’en parallèle, ces solutions ne dégradent pas l’usage, en introduisant des solutions moins fiables ou en créant de l’opacité dans des processus régulés ?

L’IA rapporte : oui, mais combien ?

Face à ces enjeux, une approche renouvelée de la gouvernance devient indispensable. Il faut mesurer la performance et l’impact de la GenAI. C’est non seulement une nécessité stratégique, mais aussi un levier clé pour instaurer la confiance auprès des régulateurs, des clients et des équipes métiers. Dès lors, les institutions financières doivent structurer des mécanismes de suivi et d’évaluation rigoureux de la GenIA pour exploiter pleinement son potentiel tout en maîtrisant les risques associés.

Au niveau stratégique, tout d’abord. L’adoption de la GenAI dans la banque et l’assurance ne peut se résumer à une accumulation de cas d’usage. L’écueil majeur serait de les multiplier de manière isolée, sans ligne directrice claire. La valeur ne réside pas tant dans la capacité des organisations à identifier un grand nombre de use cases. Elle se situe dans leur aptitude à les prioriser, les intégrer dans une feuille de route globale et lancer/piloter ceux offrant le meilleur retour sur investissement (ROI), qu’il s’agisse de réduire les coûts, d’augmenter les revenus ou de diminuer les risques.

Définir un plan moyen terme, régulièrement revu

Pour ce faire, l’évaluation des cas d’usage doit s’appuyer sur des critères clairs et quantifiables, prenant en compte les gains économiques réels qu’ils génèrent. L’approche à privilégier est donc pragmatique et sélective : mieux vaut investir dans un nombre restreint d’initiatives stratégiques s’intégrant pleinement dans la feuille de route de l’organisation, plutôt que de se disperser dans une multitude de projets à faible impact.

Pour maximiser la valeur de la GenAI, il est en premier lieu crucial de structurer une approche méthodique et mesurable. Cela passe par un cadre de pilotage précis permettant de suivre l’impact des initiatives déployées et d’ajuster les stratégies en fonction des résultats obtenus. Tout programme de mesure efficace reposera ainsi sur trois principes fondamentaux. Primo, une feuille de route IA à deux-trois ans. Elle doit être alignée sur la stratégie de l’entreprise et pilotée par la direction générale. Elle doit aussi être révisée tous les six mois pour intégrer les évolutions technologiques et réglementaires, mais aussi itérer et ajuster les priorités en fonction des premiers retours.

Secundo, une définition et un suivi précis de la valeur attendue de chaque cas d’usage, qu’il s’agisse d’une augmentation du produit net bancaire (PNB), d’une réduction du coût du risque ou d’une optimisation des effectifs via la productivité générée par l’IA. Dès le premier jour, il est ici essentiel de prendre en compte la capacité des métiers à rendre opérationnels les cas d’usage et à constater les gains attendus.

Tertio, un pilotage économique rigoureux des business cases. Il doit intégrer une estimation détaillée des coûts de bout en bout, c’est-à-dire englobant toutes les phases du projet : le développement, la mise en production, la maintenance et l’infrastructure nécessaire pour garantir une intégration et un fonctionnement optimaux, ainsi qu’une réallocation dynamique des budgets en fonction des résultats.

Un tel cadre méthodologique permet d’éviter un éparpillement inefficace et de focaliser les investissements sur les véritables poches de valeur. Plutôt que de multiplier les initiatives dispersées à travers l’organisation, il est ainsi essentiel de cartographier les domaines d’activités de la banque et d’identifier un ou deux axes prioritaires à refondre en profondeur. Cette approche sélective permettra d’aligner les investissements avec la stratégie du groupe et de maximiser leur impact.

La mesure devient alors un instrument d’aide à la décision, permettant d’arbitrer en continu entre les opportunités les plus rentables et d’ajuster les efforts en fonction des retours concrets des métiers. Cependant, il ne s’agit pas seulement de mesurer l’impact des actions. L’objectif est aussi de superviser en continu les agents autonomes pour s’assurer qu’ils restent alignés avec les objectifs et s’intègrent bien dans les processus de l’entreprise ; en d’autres termes, de générer de la confiance.

La révolution des agents IA

La mesure est également clé sur les agents IA, ces outils capables d’exécuter de façon autonome des tâches plus ou moins complexes. Leur montée en puissance va non seulement améliorer de manière significative la performance des assistants IA – et donc la productivité individuelle – mais aussi transformer et automatiser les processus.

Plus particulièrement, deux dynamiques majeures émergent avec l’essor des agents IA. D’une part, une nouvelle workforce virtuelle se met en place, automatisant les tâches répétitives telles que la gestion des contrats, l’envoi d’emails aux clients, l’automatisation de tâches du KYC (Know Your Customer)... Cette automatisation à grande échelle génère des gains de productivité, mais soulève en parallèle des questions sur le suivi et le contrôle de cette nouvelle « main-d’œuvre » numérique.

D’autre part, au-delà de l’exécution automatisée de tâches, les agents IA transforment en profondeur les processus métiers. Ils ne se contentent pas d’améliorer l’existant, mais redéfinissent aussi la manière dont les humains et les machines interagissent. Cette évolution impose un cadre rigoureux de gouvernance et de mesure, pour garantir que ces transformations génèrent des gains effectifs, sans pour autant engendrer de dérives opérationnelles.

Besoin d’une politique RH de l’IA !

Face à ces évolutions, pour éviter la perte de contrôle, la mesure devient a fortiori un enjeu clé. Assurer une gestion cohérente et rigoureuse des nouveaux agents autonomes implique la mise en place d’une gouvernance solide et d’une supervision continue. Tout d’abord, il est crucial de mettre en place une gouvernance des agents IA, sur un modèle similaire à celui des ressources humaines (RH). Cela implique la création d’une plateforme centralisée standardisant le contrôle, l’évaluation et la définition des rôles des agents, tout en assurant leur développement et leur intégration dans les processus de l’entreprise, à l’image de la gestion des équipes RH traditionnelles.

Ensuite, la supervision continue joue un rôle essentiel dans le maintien de la performance des agents IA. On peut ici faire un parallèle avec l’automobile : lorsque les chaînes de montage ont été automatisées, il a fallu revoir en profondeur les modes de travail, introduire de nouvelles formes de supervision et ajuster les contrôles qualité pour garantir un fonctionnement optimal. De la même manière, avec les agents IA, il est impératif de redéfinir plusieurs niveaux de contrôle afin d’assurer un suivi efficace et de maintenir la confiance dans ces systèmes autonomes.

L’apport d’outils spécialisés

Cette supervision repose sur trois niveaux d’action complémentaires. Tout d’abord, l’observation permet d’assurer un suivi précis des interactions. Elle sert également à repérer les anomalies grâce à des outils spécialisés, tels que Langfuse ou Langsmith, qui permettent d’analyser et de tracer les interactions entre les modèles d’IA et les utilisateurs afin de détecter d’éventuelles anomalies ou dérives. Ensuite, l’évaluation repose sur l’expertise des data scientists. Ils analysent les performances des modèles et les améliorent en continu via des solutions comme RAGAS et Giskard. Enfin, la supervision proactive, assurée par les responsables techniques et les product owners, veille à ce que les ajustements nécessaires soient réalisés en temps réel pour optimiser les processus et éviter toute dégradation des performances.

L’émergence d’une « force de travail numérique » soulève également des enjeux RH et managériaux : comment articuler les rôles entre humains et IA ? Comment éviter une dépendance excessive aux systèmes automatisés tout en assurant leur efficacité ? Ces questions structurantes imposent aux institutions financières d’adopter une approche mesurée et encadrée de l’IA générative. En définitive, on revient ici à une notion clé : la confiance. Sans une supervision efficace et donc une confiance accrue, ces agents ne pourront être adoptés à grande échelle. C’est en mettant en place un cadre de contrôle structuré, en instaurant des mécanismes d’évaluation rigoureux et en garantissant une transparence totale que les institutions financières pourront exploiter pleinement le potentiel de la GenAI, tout en assurant une adoption maîtrisée et pérenne.

Évaluer les hallucinations

Enfin, l’adoption des grands modèles de langage (LLM) en entreprise, dans les services financiers comme ailleurs, est freinée par un risque majeur : les hallucinations, c’est-à-dire la génération de contenus erronés ou non vérifiables. Là encore, il faut penser mesure ! Pour y remédier, l’approche « LLM as a Judge » repose sur l’usage d’un modèle de contrôle chargé d’évaluer la fiabilité des réponses produites par un LLM principal. Ce mécanisme combine fact-checking automatique, en comparant les réponses à des bases de données fiables, et scoring de fiabilité, attribuant un niveau de confiance aux réponses pour alerter en cas de doute. Une boucle de rétroaction permet également d’affiner les résultats et d’améliorer la pertinence des modèles IA de manière continue. Exemple : dans le cadre d’un chatbot bancaire mis à disposition des clients, le LLM principal propose des recommandations, tandis que le LLM as a Judge en valide la pertinence selon les profils clients et les politiques commerciales. Cette approche permet de limiter les erreurs et d’accroître la confiance des utilisateurs.

En parallèle, la lutte contre la fraude bénéficie également de l’IA, notamment dans la lutte contre le blanchiment d’argent (Anti-Money Laundering – AML). Là encore, il est crucial de superviser et de contrôler l’utilisation de l’IA pour éviter les dérives et garantir des résultats fiables. Ici, l’intelligence artificielle permet de réduire le volume de faux positifs, libérant ainsi du temps pour les analystes. Elle peut aussi détecter de nouveaux schémas de fraude grâce à des approches non supervisées. Dans ce cadre, la conformité réglementaire impose des modèles IA capables d’expliquer clairement leurs décisions, dans un contexte où les régulateurs, à l’image de l’Autorité de contrôle prudentiel et de résolution (ACPR), exigent une transparence accrue des mécanismes de détection et de décision.

L’ambition de mettre de la rigueur
dans l’innovation

L’enjeu majeur réside donc dans la nécessité de concilier innovation et rigueur. Si l’IA offre des perspectives considérables pour améliorer la fiabilité des réponses générées, réduire les faux positifs ou encore détecter de nouveaux schémas de fraude, son adoption dans les services financiers nécessite des garde-fous. Ces systèmes doivent non seulement répondre à des exigences réglementaires strictes, mais aussi intégrer des mécanismes de supervision et de contrôle permettant d’assurer une transparence totale.

Tandis que les services financiers se transforment sous l’effet des mutations technologiques, l’IA générative gagnera à être déployée dans un cadre robuste de mesure et de supervision. Loin d’être une simple contrainte, cette exigence de contrôle constitue un levier stratégique, pour non seulement optimiser les investissements, mais aussi sécuriser l’adoption de ces technologies et générer de la confiance, tant en interne qu’en externe.

Les institutions financières qui sauront structurer une « gouvernance IA » efficace, fondée sur la mesure continue et la priorisation des cas d’usage à forte valeur ajoutée, disposeront d’un avantage concurrentiel décisif. Car si l’IA transforme les métiers, c’est bien la capacité à la piloter intelligemment qui fera la différence.

À retrouver dans la revue
Revue Banque Nº903