Programme

9h00 - Accueil
 
9h30 - Introduction
 
9h45 - High Performance  Data Analytics for Numerical Simulation (Bruno Raffin, INRIA) Présentation
 
Large scale numerical simulations  are producing an ever growing amount of data that represent a double  challenge.  First, these amounts of data  are becoming increasingly  difficult to analyse relying on the traditional tools.  Next, moving  these data from the simulation to disks, to latter retrieve them  from  disks to the analysis machine is becoming increasingly costly in term of  time and energy.  And this situation  is expected to worsen as  supercomputer I/Os and more generally data  movements capabilities are progressing more slowly than compute  capabilities. While  the simulation was at the center of all  attentions, it is now time to focus on high performance data analysis. This integration of data analytics with large scale simulations represents a new kind of workflow that  needs adapted software solutions. In this talk we will survey two  directions:  big data like  solutions and in-situ analysis. Big Data Analytics solutions like Google  MapReduce, Spark or Flink were developped to answer the needs for  analysing large amount of data from the web, social networks, or  generated by business applications on cloud infrastructures.  We will  give an overview of some research work that either developped their  specific map/reduce stack  for analysing scientific data or relied on  classical Big Data stacks like the Velassco project. In-situ analysis attemps to more specifically address the reduction of data movements and data storage.
 
10h15 - Stockage et de traitement de la BD LSST (Fabrice Jammes, IN2P3) Présentation

Le Large Synoptic Survey Telescope (LSST) va bouleverser l'astronomie. Équipé du plus grand capteur photographique jamais conçu pour l'astronomie, ce télescope permettra de constituer le plus large et le plus profond relevé de l'univers. Dès sa mise en exploitation en 2022, le traitement des données produites par LSST nécessitera des dizaines de milliers de processeurs et une capacité de stockage de données en augmentation de plusieurs dizaines de pétaoctets chaque année et ce pendant au moins une décennie.Des objets célestes et leurs propriétés physiques seront identifiés et catalogués dans une base de données qui sera composée à terme de milliers de milliards d’entrées. D'un volume de l’ordre de plusieurs dizaines de pétaoctets, ce catalogue jouera un rôle majeur dans l’exploitation scientifique des données produites par le télescope. Pour satisfaire ce besoin, un logiciel spécifique nommé Qserv est actuellement développé par une équipe majoritairement basée à l'Université de Stanford aux Etats Unis.Cette présentation décrira l'architecture de Qserv, les défis auxquels il doit répondre, son état d’avancement ainsi que les résultats de plusieurs campagnes des tests réalisées pendant les dernières années.

Les contributeurs de cet exposé font partie de l’équipe de développement de Qserv et de l’équipe opérant l’infrastructure de tests composée actuellement de 400 processeurs et 500 téraoctets de stockage, localisée au centre de calcul de l’IN2P3 / CNRS.
 
10h45 - Pause
 
11h00 - Big Data et Fouille de données (Massih-Reza Amini, LIG) Présentation
 
Les trois dimensions qui régissent le cadre de l'apprentissage machine; à savoir le nombre d'exemples, le nombre de sorties et la dimension de l'espace de représentation sont affectées par le phénomène de Big Data. Dans cet exposé, nous essaierons de donner un panorama des techniques et cadres d'apprentissage et de recherche d'information développés pour adresser les nouvelles problématiques émergentes liées à ces changements.

11h30 - Big Data Architectures and the New Software Stack : Real World Experiments (Yann Vernaz, UGA) Présentation
 
Dans  le cadre de projets collaboratifs, l'équipe ERODS du LIG (Laboratoire  d'Informatique de Grenoble) travaille sur des infrastructures  virtualisées pour l’analyse de flux de données en temps réel. Ces infrastructures orientées « Big Data Analytics » pour le traitement  temps réel des données ont un intérêt direct pour le traitement, l’analyse et la mise en œuvre des modèles statistiques (i.e. Machine  Learning, Graph Processing, ...) pour construire un système intelligent  et robuste. Nous présenterons les différentes architectures qui ont été  déployées et éprouvées à travers plusieurs cas d'usages que nous avons développés.  

12h30 - 14h buffet

 
13hxx - Présentation générale de Bull/Atos - Stéphane Carbonneau - Présentations
 
14h00 – Introduction, état de l’art du big data - Architectures Hardware - Technolgies Software (Datalake BDCF) - Benoit Pelletier & Frank Marendaz
 
14h30 - Vision  sur la convergence HPC Big Data - Pascale Rosse-Laurent
 
15h00 - Scheduling - Michael Mercier
 
15h20 - Stockage Hadoop over Lustre  - Eric Morvan
 
15h40 - DeepLearning - Guillaume ou Matthieu
 
16h00 - Contexte de workflow : illustration avec le cas *OMICS* - Pascale Rosse-Laurent
 
16h20 - Echanges : commentaires, questions & réponses
 
17h00 Fin
Personnes connectées : 1