Transcription

Quand les réseaux de neurones apprennent le langage des traders

Créé le

19.04.2018

-

Mis à jour le

29.05.2018

Les enregistrements d’appels des traders sont des données audio de nature particulièrement adverse. Elles cumulent notamment les difficultés répertoriées comme les moins bien résolues aujourd’hui par la technologie, à savoir : données bruitées, audio de mauvaise qualité, diversité de langues et accents non natifs. La spontanéité des échanges et les jargons utilisés complètent le tableau.

Atteindre un niveau de qualité suffisant pour être validé en production par l’équipe conformité a donc nécessité de pousser la technologie plus loin. Si le moteur MediaSpeech utilisait déjà des réseaux de neurones profonds, ce sont de nouvelles topologies récurrentes qui ont été développées, en même temps que des nouvelles approches de sélection et d’augmentation de donnée, sans mentionner un travail d’adaptation spécifique au langage des traders. La copie d’écran ci-dessous (voir Schéma 4) montre un résultat de transcription sur un enregistrement de salle de marché rendu publique par le régulateur américain, résultat obtenu avec la version de moteur standard validé d‘abord en salle de marché de BFI à Londres.

L’apprentissage d’un modèle de réseau de neurones profonds prend typiquement plusieurs semaines sur plusieurs milliers de cœurs GPU. Même s’il reste des progrès à faire pour accroitre encore la précision et la robustesse de la transcription dans les conditions adverses, la performance impressionnante de ces réseaux de neurones profonds laisse penser qu’ils capturent des informations plus « profondes » qu’on ne croit sur le langage conversationnel humain, et celui des traders n’y échappe pas.

xxxmettre ici Schéma 4xxx

À retrouver dans la revue
Revue Banque Nº821bis