|
|
Programme9h00 - Accueil
9h30 - Introduction
Large scale numerical simulations are producing an ever growing amount of data that represent a double challenge. First, these amounts of data are becoming increasingly difficult to analyse relying on the traditional tools. Next, moving these data from the simulation to disks, to latter retrieve them from disks to the analysis machine is becoming increasingly costly in term of time and energy. And this situation is expected to worsen as supercomputer I/Os and more generally data movements capabilities are progressing more slowly than compute capabilities. While the simulation was at the center of all attentions, it is now time to focus on high performance data analysis. This integration of data analytics with large scale simulations represents a new kind of workflow that needs adapted software solutions. In this talk we will survey two directions: big data like solutions and in-situ analysis. Big Data Analytics solutions like Google MapReduce, Spark or Flink were developped to answer the needs for analysing large amount of data from the web, social networks, or generated by business applications on cloud infrastructures. We will give an overview of some research work that either developped their specific map/reduce stack for analysing scientific data or relied on classical Big Data stacks like the Velassco project. In-situ analysis attemps to more specifically address the reduction of data movements and data storage.
10h15 - Stockage et de traitement de la BD LSST (Fabrice Jammes, IN2P3) Présentation
Le Large Synoptic Survey Telescope (LSST) va bouleverser l'astronomie. Équipé du plus grand capteur photographique jamais conçu pour l'astronomie, ce télescope permettra de constituer le plus large et le plus profond relevé de l'univers. Dès sa mise en exploitation en 2022, le traitement des données produites par LSST nécessitera des dizaines de milliers de processeurs et une capacité de stockage de données en augmentation de plusieurs dizaines de pétaoctets chaque année et ce pendant au moins une décennie.Des objets célestes et leurs propriétés physiques seront identifiés et catalogués dans une base de données qui sera composée à terme de milliers de milliards d’entrées. D'un volume de l’ordre de plusieurs dizaines de pétaoctets, ce catalogue jouera un rôle majeur dans l’exploitation scientifique des données produites par le télescope. Pour satisfaire ce besoin, un logiciel spécifique nommé Qserv est actuellement développé par une équipe majoritairement basée à l'Université de Stanford aux Etats Unis.Cette présentation décrira l'architecture de Qserv, les défis auxquels il doit répondre, son état d’avancement ainsi que les résultats de plusieurs campagnes des tests réalisées pendant les dernières années. Les contributeurs de cet exposé font partie de l’équipe de développement de Qserv et de l’équipe opérant l’infrastructure de tests composée actuellement de 400 processeurs et 500 téraoctets de stockage, localisée au centre de calcul de l’IN2P3 / CNRS.
10h45 - Pause
11h00 - Big Data et Fouille de données (Massih-Reza Amini, LIG) Présentation
Les trois dimensions qui régissent le cadre de l'apprentissage machine; à savoir le nombre d'exemples, le nombre de sorties et la dimension de l'espace de représentation sont affectées par le phénomène de Big Data. Dans cet exposé, nous essaierons de donner un panorama des techniques et cadres d'apprentissage et de recherche d'information développés pour adresser les nouvelles problématiques émergentes liées à ces changements.
11h30 - Big Data Architectures and the New Software Stack : Real World Experiments (Yann Vernaz, UGA) Présentation
Dans le cadre de projets collaboratifs, l'équipe ERODS du LIG (Laboratoire d'Informatique de Grenoble) travaille sur des infrastructures virtualisées pour l’analyse de flux de données en temps réel. Ces infrastructures orientées « Big Data Analytics » pour le traitement temps réel des données ont un intérêt direct pour le traitement, l’analyse et la mise en œuvre des modèles statistiques (i.e. Machine Learning, Graph Processing, ...) pour construire un système intelligent et robuste. Nous présenterons les différentes architectures qui ont été déployées et éprouvées à travers plusieurs cas d'usages que nous avons développés.
12h30 - 14h buffet 13hxx - Présentation générale de Bull/Atos - Stéphane Carbonneau - Présentations
14h00 – Introduction, état de l’art du big data - Architectures Hardware - Technolgies Software (Datalake BDCF) - Benoit Pelletier & Frank Marendaz
14h30 - Vision sur la convergence HPC Big Data - Pascale Rosse-Laurent
15h00 - Scheduling - Michael Mercier
15h20 - Stockage Hadoop over Lustre - Eric Morvan
15h40 - DeepLearning - Guillaume ou Matthieu
16h00 - Contexte de workflow : illustration avec le cas *OMICS* - Pascale Rosse-Laurent
16h20 - Echanges : commentaires, questions & réponses
17h00 Fin |