Stockage

Face à l’explosion des données, comment repenser l’infrastructure de stockage ?

Avec le développement du multicanal, mais également l’arrivée de nouveaux services, les données stockées par les banques ont explosé. Parallèlement, les obligations réglementaires forcent les banques à connaître en temps réel et dans la durée tout ce qui se passe dans leurs systèmes d’information. Il est peut-être temps de changer sa façon de penser le stockage.

Comment repenser l'infrastructure de stockage ?

L'auteur

Revue de l'article

Données structurées ou non, virtualisation du stockage, Big Data, Hadoop [1], le stockage est au cœur de nombreux enjeux économiques de la part des prestataires informatiques. Ils n’ont pas tout à fait tort : les technologies – tant matérielles que logicielles – sont en progrès permanent et permettent de stocker toujours plus de données, toujours plus vite et avec un coût à l’espace de stockage en baisse constante. Pour autant, la course au « toujours plus de disques » est-elle d’actualité ? Pour François-Rémy Monnier, directeur des ventes pour l'Europe du Sud et l'Afrique division Entreprise chez NEC, la réponse est non : « Les besoins en matière de stockage évoluent d’une manière exponentielle, car le métier des banques est en train de changer. Outre leurs métiers historiques, certaines deviennent opérateurs de téléphonie mobile, d’autres se lancent dans le service à la personne, l’autorité de certification. À lui seul, par exemple, le NFC [2] génère une quantité de données non structurées : géolocalisation au cœur des centres commerciaux, analyse des habitudes d’achat, avec une grosse problématique qui est la sécurité d’accès des données ainsi générées. Le souci est que la plupart des grandes banques françaises ont des services informatiques liés à des intégrateurs, qui sont là pour vendre du disque et n’ont pas pensé à repenser le métier et mettre en place la bonne solution. On continue à monter des usines à gaz parce qu’on n’a pas pris le temps de se poser. »

Concilier deux approches des données

Marc Belin, responsable clientèle banque et finances chez EMC France, le constate : « nous voyons chez nos clients l’augmentation des données; bizarrement, il y a une mauvaise anticipation de cette croissance. Dans les grandes banques, c’est un vrai problème, au niveau du stockage, de la gestion des données et du respect de la conformité. Comme le cloud vient se greffer à cet ensemble, le stockage, qui était dans un silo, devient vertical. Nous devons gérer la pile complète serveur, réseau et stockage, ce qui complexifie le monitoring classique. Par rapport à la conformité, l’impact de Bâle est important, car au-delà du risque opérationnel, il y a la traçabilité de la donnée : qui a fait quoi ? et quand ? Il faut conserver des environnements complets au-delà des données, et pouvoir rejouer des sessions. Il y a également toutes les applications d’évaluation de risques qui manipulent d’énormes quantités de données avec des scénarios de crise. On arrive au Big Data, qui consiste à traiter de très grands volumes de données et à les analyser de manière plus rapide. Se pose également le problème de la consolidation et de défragmentation des data-centers avec les fusions-acquisitions qui se poursuivent entre banques: adresser les nouvelles infrastructures et les intégrer dans les systèmes d’information nouvellement créés. » Le problème se pose sous deux angles principaux : avoir une capacité de stockage adaptée à ses besoins et raisonnablement coûteuse, et exploiter correctement la masse de données stockées pour respecter les obligations réglementaires de conformité (notamment celles prévues par Bâle II et III), et améliorer la sécurité de son système d’information. Le défi pour les banques est d’arriver à concilier ces deux objectifs, qui peuvent parfois sembler contradictoires.

La bonne donnée sur le bon support

Lorsqu’il s’agit de stocker les données, les solutions passent par l’application de différentes technologies bien connues des spécialistes du stockage. « De manière à optimiser le stockage, on va avoir des couches à plusieurs niveaux avec de l’auto-tiering [3]: disques très rapides, mais à faible volumétrie de type SSD [4], puis disques durs rapides avec une interface SAS [5], et enfin les disques SATA, plus gros et moins rapides » explique René-François Mercier, expert avant-vente Europe du Sud chez Acronis. Les stockages les plus lents sont issus de technologies plus anciennes ; nécessitant une alimentation électrique moindre, ils sont plus économes. Chaque donnée va accéder à un type de stockage plutôt qu’à un autre – selon qu’elle est « vivante », c’est-à-dire régulièrement utilisée et devant être accessible rapidement, ou « dormante » –, et se déplacera entre les différents supports en fonction des besoins de production. Pour gagner de la place, d’autres techniques peuvent s’y ajouter, comme :

  • la déduplication, pour ne stocker qu’une fois la donnée et avoir des signatures et pointeurs pour toutes les autres instances où elle est nécessaire (cela fonctionne également avec les machines virtuelles) ;
  • le thin provisioning, pour faire croire à une baie ou à un serveur qu’il dispose d’un espace de stockage plus grand que celui qui lui est physiquement alloué.

« Pour la donnée structurée, l’ensemble est maîtrisé puisqu’il s’agit de bases de données, constate René-François Mercier. La donnée déstructurée (serveurs de fichiers, contenu des mails, documents bureautiques) est souvent stockée plusieurs fois. Des mécanismes, comme le Single Informed Storage, permettent de ne stocker qu’une fois un fichier si sa signature est déjà connue. On peut alors faire des raccourcis pour les documents un peu anciens et les déplacer vers des disques moins performants, ou des solutions d’archivage. »

L’exploitation des données, un secteur en croissance

Se pose alors la question de ce que les banques peuvent et doivent faire de ces données stockées. Pour cela, il faut tenir compte de deux éléments : la sécurité et le respect des normes réglementaires. Sur le plan de la sécurité, François-Rémy Monnier estime que « les banques devraient séparer leurs données métiers de toutes les activités que la banque peut faire avec les données non structurées, pour éviter une corruption des données primaires en cas de mauvaises formulations des requêtes. Quitte à faire une copie vers l’usage des données non structurées. » Il rappelle également que « beaucoup de promesses sont faites sur l’étanchéité des données, mais elles me semblent difficilement tenues. Les banques, en allant dans un cloud public, ne sont pas à l’abri d’un piratage. »

Au-delà d’une mesure de bon sens consistant à protéger ses données essentielles, pour des questions de conformité et de sécurité, les banques doivent connaître en temps réel le contenu de leurs données. Pour Sébastien Berger, Chief Technology Officer d’EMC France, « il faut pouvoir analyser les données: analyse en temps réel sur les éléments de sécurité (y compris la recherche de comportements anormaux des utilisateurs, du système d’information ou du système bancaire). En terme de conformité, il faut conserver de plus en plus de données et de plus en plus variées (les images chèques, par exemple), avec des délais de plus en plus courts pour fournir les pièces. Il faut stocker et archiver les données avec les bons attributs pour y accéder selon les besoins: mix entre rapidité, sécurité et prix. Aujourd’hui, les délais de restitution sont tellement courts que la bande ne convient plus. » Pour l’exploitation de ces données, des sociétés comme StoredIQ (achetée par IBM) ou Autonomy (achetée par HP) s’intéressent de plus en plus à la gestion du cycle de vie des données. De quoi s’agit-il ? Jean Mourin, vice-président de la société indépendante RSD, définit son métier comme « de la gouvernance de l’information documentaire. Toutes les applications d’une banque ont tendance à produire des documents finaux sur papiers ou électroniques. Et nous allons en gérer le cycle de vie sur une très longue période, avec notamment la date à laquelle il est légalement possible de la détruire, en tenant compte des différentes réglementations qui s’opèrent dans les différents pays. » Au niveau de la direction générale, la banque définit sa politique de gouvernance, qui sera déclinée suivant les pays où elle est implantée, et pour les documents électroniques, suivant les environnements techniques où elles sont stockées. « Nous automatisons la vie du document là où il est. L’avantage d’avoir défini des politiques a priori est de permettre les simulations des économies envisagées. Nous avons développé depuis 5ans une plate-forme de gouvernance (RSDGlass) qui permet de définir les politiques, de les propager et les appliquer aux environnements techniques, et d’en rendre compte de façon auditable, défendable devant une cour de justice. Et nous allons évoluer vers le cloud, en gouvernant le contenu déplacé vers du cloud public, dans un premier temps vers Amazon S3 et Glacier. Nous travaillons aussi avec d’autres, comme la solution française, Cloudwatt, Microsoft Azure et les offres de Google. » Un domaine qui suscite bien des convoitises de la part des éditeurs, mais qui va vite devenir indispensable face aux volumes de données brassés chaque jour dans les banques… Celles-ci doivent donc réfléchir à leurs besoins en amont, avant même d’en discuter avec leurs prestataires.

 



[1] Framework en open source pour réaliser des traitements sur des volumes de données massifs.

[2] Near Field Communication.

[3] Technologie intégrée par tous les grands éditeurs, qui consiste à classer automatiquement la donnée sur le support de stockage le plus adapté.

[4] Solid State Drive – disque à mémoire flash.

[5] Serial Attached SCSI.

 

Articles du(des) même(s) auteur(s)

Sur le même sujet