Tâche INF-2 : « gestion de grandes quantités de données sur architectures large échelle »
Cette tâche s’intéresse à la gestion performante de grandes quantités de données structurées ou non sur des architectures de grande taille de type grille, fortement connectées pour des problématiques de type calcul scientifique au sens large, simulation, bio-informatique etc.
Les grandes quantités de données mises en jeu (l’unité de base est le tera-octets) obligent à distribuer le stockage sur plusieurs sites au moins logiquement, c’est-à-dire différents disques dans une même grappe, voire physiquement, sur différentes grappes reliées par des réseaux haut débit. Ce stockage distribué implique la disponibilité de mécanismes haute performance de transfert entre les éléments de la grille pour apporter les données là où elles sont utiles, qui sera souvent différent de leur lieu de stockage. Ce transfert est basé sur l’utilisation de protocoles réseau haute-performance qui doivent être utilisés au maximum de leur capacité, ce qui suppose de les ordonnancer de manière à optimiser leur rendement. Une approche intéressante pour limiter les temps d’attente consiste à anticiper le besoin des données dans les applications en les transférant avant qu’elles ne soient nécessaires. Cela suppose une coopération forte entre l’ordonnanceur de travaux, le système sous-jacent et les applications. Qui dit transfert dit existence de copie sur le site qui sert de stockage mais également sur le site d’utilisation des données ; cette nécessité de recopie génère de potentiels problèmes de cohérence et de version entre les différents sites contenant les données.
Sur de telles quantités de données se pose rapidement le problème de l’exploration et de la recherche. Les approches traditionnelles, basées sur une structuration en fichiers, montre vite leur limite en terme de recherche et d’indexation. Les approches traditionnelles pour la gestion des données, basées sur les SGBD relationnels ou objets, ne se montrent pas capables de gérer de telles quantités de données, particulièrement distribuées. Il est donc nécessaire de chercher de nouvelles pistes pour fournir des opérations évoluées de recherche et de sélection, sans même considérer un support transactionnel, sur de telles masses de données. Cela passe par une séparation claire entre données et méta-données, tout en autorisant une certaine souplesse dans la définition de ces dernières. Les SGBD n'offrent pas assez de souplesse alors que les systèmes de gestion de fichiers n'offrent pas de fonctionnalités d'assez haut niveau.
Les infrastructures actuelles de gestion de données sur grilles sont, d’une part, basées sur la notion de fichiers et gèrent des catalogues de fichiers ainsi que, pour les plus évoluées, des catalogues de réplicats. Il n’existe pas de support pour une gestion fine des critères d’indexation, de la duplication ou de la gestion de la cohérence entre les copies. De même rien n’est proposé pour anticiper sur les besoins des données des applications ou des travaux dans le cadre d’un gestionnaire de travaux.
À l’IN2P3, pour l'analyse des centaines milliers de To de données de physique produites au LHC, l'indexation et l'ordonnancement des tâches par rapport à leur localisation sont encore des sujets d'étude à approfondir.
Les travaux à mener dans ce sous-projet sont de trois types :
|