Ressources humaines

Les écueils de la composition d’une équipe de data scientists

Créé le

10.01.2017

Mis à jour le

30.01.2017

Collecter, organiser, exploiter la masse de données à la disposition des établissements financiers, tout en répondant à un véritable besoin des métiers : tel est l’enjeu de la constitution d’un département dédié à la data science. Recruter ces compétences rares en externe revient à chercher le mouton à cinq pattes. Et s’il était préférable de faire évoluer ses équipes internes ?

Les écueils de la composition d’une équipe de data scientists

Pierre Ménard

Account Manager Banque Assurance Fintech Dataiku

C’est un fait, les banques et assurances sont aujourd’hui décidées à embrasser la révolution du prédictif dans leurs pratiques quotidiennes. Les métiers ont pris conscience des enjeux liés à la bonne exploitation des données qu'ils collectent au quotidien pour en tirer un avantage compétitif ou gagner fortement en efficacité sur leurs processus. Depuis plusieurs années, les IT des banques et des assurances investissent massivement dans des infrastructures Big Data, mais une question épineuse reste à trancher : qui va mettre en marche ces projets de transformation ?

Une première phase a été et reste encore la constitution d'équipes de Data Scientists au sein notamment de data labs. De nombreux recrutements ont été faits et sont encore en cours pour des profils Data Scientists ayant les compétences techniques et statistiques et venant souvent d'autres secteurs (télécommunications, media, e-commerce). L'idée étant qu'il fallait constituer rapidement une équipe suffisamment dimensionnée : la capacité d’exécution des projets dépendait majoritairement du nombre de Data Scientists alignés. Et les banques de se lancer dans la chasse au Data Scientist, nouveau graal des ressources humaines.

Le Data Scientist : un « mouton à cinq pattes ? »

Qui est-il ?

Aujourd'hui, l'ensemble des publications sur le sujet de la data science fait émerger un consensus autour de trois compétences clés : la maîtrise des algorithmes, de l’informatique et la connaissance business. Le Data Scientist doit donc comprendre les enjeux de l’activité, concevoir des applications de manière fluide, des données brutes au produit final, et communiquer et vulgariser son savoir.

On s’en doute, les profils réunissant ces caractéristiques sont rares : la profession est apparue récemment et les compétences proposées sont souvent isolées les unes des autres.

Où est-il ?

Dès lors, où trouver la perle rare ? ENSAI, ENSAE, Télécom ParisTech… de plus en plus d’écoles et d’universités proposent des formations de data science. Mais beaucoup d'événements ou rassemblements (MOOC Big Data, les meet-up Dataiku) peuvent aussi être l’occasion de rencontrer ces profils.

Outre les recrutements qui sont assez longs à mener pour ces organisations, de manière traditionnelle, les banques font énormément appel à des compétences externes en data science, riche d'un écosystème de cabinets de conseils et de sociétés de services qui ont énormément développé leurs practices de data science ces dernières années.

Et si l’argent ne suffisait pas ?

Les lois naturelles de l’offre et de la demande s’appliquant aussi au monde du travail, de nombreuses entreprises se sont résolues à casser leurs tirelires pour séduire les Data Scientists disponibles sur le marché. Les banques et assurance ont la chance d'avoir les moyens d'attirer ce type de profils par des packages intéressants, par rapport à des secteurs tels que les médias ou les télécoms. Une fourchette de départ se situerait ainsi autour de 45-50k en France.

Mais la rémunération seule ne suffit pas pour attirer et surtout motiver dans la durée ces profils venus d'autres horizons, en particulier ceux ayant une culture assez « hacker ». Ils peuvent être rapidement démotivés par les lourdeurs d'une banque ou d’une compagnie d’assurance pour lancer des projets, même simples. Par exemple, il faut encore couramment plusieurs semaines pour obtenir des données au démarrage d'un projet et les Data Scientists vivent souvent mal la lourdeur d'un process IT pour installer un composant spécifique.

Maîtriser le turnover

Un facteur de fragilisation des projets

Ces facteurs influent fortement sur le turnover des data labs, phénomène encore amplifié si la proportion de consultants extérieurs est importante. C'est l'un des points les plus épineux de tous les data labs que nous avons rencontrés ces dernières années.

En effet, une fois passée la période de grâce des premiers mois suivant la constitution de l'équipe, la pression du management et/ou des entités clientes de l'organisation sur l'utilité et le ROI du data lab s'accentue. Généralement les départs interviennent au mauvais moment, avec souvent des impacts importants, du fait de l'impréparation des équipes à ces départs dans l'enthousiasme du démarrage du lab. Cela se manifeste notamment par l'absence de compétences d'un autre membre de l'équipe sur un langage donné choisi par défaut selon les propres préférences du Data Scientist qui a lancé le projet.

Et si les banques avaient déjà la solution ?

Plutôt que d’épuiser leurs budgets RH et leurs énergies dans des recherches sans fin, de nombreuses banques et compagnies d’assurance font aujourd’hui le pari de l’évolution interne. En effet, elles disposent déjà de nombreux talents susceptibles d’évoluer vers des rôles de Data Scientists. Statisticiens, chargés d’études, analystes crédits, actuaires… de nombreux métiers maîtrisent déjà une bonne partie du cursus. Par exemple, comme la data science, la science actuarielle, a recours aux données collectées comme base d’évaluation des risques en validant la qualité et la pertinence de ces données. De même, la connaissance mathématique d’un statisticien et sa connaissance métier en font un candidat tout à fait valable pour former une équipe de Data Science. En plus des compétences métiers, il est évidemment indispensable de choisir des personnalités disposées à apprendre, à l’aise avec l’informatique et ouvertes au changement.

Assez fréquemment, les équipes constituées que nous avons vu fonctionner voient ainsi se côtoyer :

des profils internes évoluant vers de la data science, qui disposent de l’expertise métier et ont la capacité de faire face aux lourdeurs de l’organisation et de faire avancer les choses ;
des data scientists venant souvent d’autres horizons ou des jeunes diplômés, qui maîtrisent les technologies Big Data (Python, Spark, Pig, etc.) ainsi que les pratiques et méthodes nouvelles de projets d’intelligence artificielle.

Les clés d’une transition réussie des équipes vers la data science

La plupart de nos clients dans la banque et l’assurance ont ainsi fait le choix de promouvoir leurs équipes internes. Une fois qu’ils ont sélectionné les nombreux profils avec le potentiel suffisant au sein de leurs services, il s’agit de les exposer à des outils suffisamment adaptés pour leur permettre de développer rapidement leurs compétences.

L’écosystème des technologies Big Data est en effet encore à ce jour hétérogène et peut apparaître, sous certains aspects, peu raffiné, notamment aux yeux de personnes habituées à des outils statistiques propriétaires éprouvés depuis de nombreuses années.

Certains traitements basiques peuvent être vécus comme un retour en arrière et être source de découragement. De plus, l’accès à des fonctionnalités plus avancées permettant de véritablement tirer bénéfice de l’infrastructure Big Data nécessite des étapes manuelles, sources de nombreuses erreurs.

Toute l’aide qui peut être apportée à ces profils pour qu’ils s’approprient les concepts et méthodes propres au Big Data sera précieuse pour accélérer la montée en compétences de ces profils, souvent très sollicités en parallèle sur leurs projets « traditionnels ».

Les quatre conseils suivants pourront favoriser la transition des équipes vers la data science.

Simplifier les tâches les plus rébarbatives . La data science étant un sujet complexe, il est nécessaire d’utiliser des outils permettant de simplifier les parties les plus rébarbatives du process. Il est souvent estimé que 80 % du travail d’un Data Scientist consiste à nettoyer des données incomplètes, sales et incompatibles, une tâche ingrate et décourageante. Il s’agit donc de faire le choix d’une solution qui automatise le nettoyage des données et les rend compatibles entre elles, pour créer une base de travail adaptée à un projet Big Data, sans rebuter les nouvelles recrues.

Favoriser la collaboration entre les parties prenantes . Dans le fonctionnement traditionnel des projets en banque-assurance, le risque est élevé de voir un Proof of Concept (PoC) ou un pilote de plusieurs mois qu’il faut quasiment recommencer depuis le début suite à un comité de pilotage du fait de quelques subtilités sur une variable connue du métier et qui aurait pu être détectées dès le début. Il est ainsi avantageux de partager le plus tôt possible des éléments (visualisation, données intelligibles) et assurer la pédagogie du projet auprès des équipes métiers qui en bénéficieront. Penser dès le début la manière dont seront consommés les résultats de l’algorithme par les utilisateurs du marketing et de la gestion est un réflexe clé pour la réussite du projet. Il est donc nécessaire de placer ses Data Scientists dans un environnement transparent, où leurs actions peuvent être montrées et expliquées de manière rapide et simple aux autres départements.

Intégrer les projets Big Data de A à Z . Trop de projets Big Data sont tombés à l’eau du fait de la multiplicité des outils utilisés par les nouvelles équipes Data Science. Pour favoriser la réussite d’un projet mené par une équipe aux compétences diverses, il faut leur donner la capacité de le gérer dans son intégralité sur le même outil. De l’intégration des données à la mise en production des résultats obtenus, les Data Scientists doivent pouvoir tous avoir la main sur l’ensemble du process, pour poursuivre un projet en cas de départ ou favoriser la reprise d’un PoC en sommeil par une nouvelle équipe quelques mois après.

Ne pas enchaîner les équipes à une seule technologie . Beaucoup de banques ont aujourd’hui pris conscience que dépendre de technologies propriétaires les empêche de suivre les évolutions du marché – pour recruter par exemple des profils juniors – et limite également la montée en compétence de leurs équipes sur de nouvelles générations de technologies. Aussi, dans l’écosystème diversifié et jeune du Big Data, il est risqué de dépendre d’une technologie unique. Mieux vaut privilégier les outils ouverts, permettant de faire de l’open source, et laissant chacun libre d’utiliser la technologie qu’il préfère.