Programme détaillé

Besoins des sciences du vivant

Session plénière

  • La révolution next-generation sequencing et les enjeux de l'expansion de la  bionformatique pour les biologistes Thierry GRANGE (CNRS Institut Jacques MONOD) [diapos]
  • Situation et besoins en Cancérologie - Alain VIARI (INRIA) [diapos]
  • Cloud et informatique scientifique - Gilles Mathieu (Inserm) [diapos]
    • Présenter le contexte de l'informatique scientifique à l'Inserm.
    • Identifier les besoins de calcul/stockage de quelques domaines, notamment de l'imagerie.
    • Préciser en quoi les technologies de cloud peuvent être une solution pour répondre à ces besoins

 

Animée par Jean-François GIBRAT

Les présentations et discussions s'attacheront à brosser un panorama des besoins scientifiques et technologiques de différentes communautés des sciences du vivant et des verrous technologiques actuels.

Panel: Christophe BRULEY (CEA iRTSV/BGE/EDyP), Thierry GRANGE (CNRS Institut Jacques MONOD)Gilles Mathieu (Inserm), Claude THERMES (CNRS CGM), Alain VIARI (INRIA)

Infrastructures bioinformatiques

Session plénière

  • L'institut Français de Bioinformatique: une infrastructure nationale pour la bioinformatique - Jean-François Gibrat (INRA IFB) [diapos]

Présentation de l'IFB, les liens avec les infrastructures nationales et européennes.

  • Le cloud IFB et ses services bioinformatiques - Christophe Blanchet (CNRS IFB-core) [diapos]

Présentation des infrastructures actuelles, les clouds IFB-core et Genocloud, les machines virtuelles fournissant les services bioinformatiques à la communauté et les perspectives d'une fédération de cloud, en lien avec les infrastructures européennes (ELIXIR).

  • Concepts techniques : les termes du cloud - Olivier Collin (CNRS IFB-GO PF GenOuest) [diapos]

Concepts clés des serveurs, du réseau et du stockage. Savoir comment ils s'intègrent et interagissent. Les concepts d'administration et d'automatisation sous-tendus par la mise en place et l'utilisation de services.

Sessions pratiques

  • IBI-1 “Introduction au Cloud IFB” (1h30)

Contenu : Pratique des fonctionnalités de base du cloud IFB: le tableau de bord en ligne (Web), le déploiement des machines virtuelles, le stockage des données avec des disques virtuels, leur gestion, les différents types de connexion aux VMs (SSH, Web et bureau à distance).

Objectifs : Savoir utiliser le cloud IFB pour ses analyses de données biologiques, exécuter ses propres machines virtuelles et transférer ses données entre son poste de travail et le cloud.

Matériel : IBI-1-materiel

  • IBI-2 “Utilisation avancée du Cloud IFB” (1h30)

Contenu : Pratique de déploiement d'une application complexe comprenant plusieurs machines virtuelle, du mode cluster, de containers Docker, partager ses données avec les appliances dédiées (NFS, biomaj...).

Objectifs : Savoir déployer une infrastructure d’analyse intensive de données biologiques de grande taille. Savoir adapter les machines virtuelles disponibles pour répondre à des besoins plus complexes.

Matériel : IBI-2-materiel

  • IBI-3 “Intégration d'outils bioinformatiques dans une appliance” (1h30)

Contenu : Pratique de l'intégration d'un logiciel bioinformatique dans une machine virtuelle, le référencement de l’appliance et la mise à disposition des utilisateurs. Description des fonctionnalités bioinformatiques du cloud IFB, le montage automatique des collections de données publiques de référence, la contextualisation d’un portail web, les modèles de disques virtuels pour la conservation des paramètres d’un logiciel ou portail … Les différents modèles d'intégration: scripts et archives sources/binaires, container (Docker) et déploiement automatisé (Puppet, Chef). Bonnes pratiques et exemples.

Objectifs : Savoir intégrer un logiciel ou un pipeline bioinformatique dans une machine virtuelle pour une diffusion et mise à disposition sur le cloud IFB.

Matériel : IBI-3-materiel

Intégration des données et des outils

Session plénière

Sarah COHEN-BOULAKIA (Université Paris-Sud LRI) et Christine FROIDEVAUX (Université Paris-Sud LRI)

Présentation de la problématique de l'intégration de données et d'outils. Mythes et réalités. Problèmes résolus et problèmes encore à résoudre; grandes familles de solutions existantes; 3 types d'approches importantes : workflow, classement, ontologies (reprises dans les sessions pratiques).

Sessions pratiques

  • IDO-1 “Navigation et recherche d'informations dans les bases des données biologiques publiques” (1h30)

Contenu : A partir d'un cas d'utilisation réel, recherche d'informations dans les bases, expression de requêtes (questions), inspection des résultats, croisement (manuel) des informations issues de plusieurs bases.

Objectifs : Savoir utiliser les principaux moteurs de recherche d'informations de données biologiques publiques européens et d'Amérique du nord; Savoir utiliser les fonctionnalités avancées de ces outils; Identifier les différents niveaux d'hétérogénéité des données; complémentarité, redondances et apparentes divergences des données.

  • IDO-2 “Workflows d'analyse de données et classement de données” (1h30)

Contenu : Cette session est composée de deux parties. (1) Présentation de la solution “workflow” pour l'intégration des données. (2) Présentation des solutions pour classer les données par ordre d'importance. Alternance entre transparents et démonstrations faites par l'instructeur.

Objectifs : (1) Connaître les grands systèmes de workflows existants (pros et cons); Savoir concevoir un workflow de base sous Galaxy; Connaître et savoir utiliser les librairies d'outils existants pouvant être utilisées dans un workflow.

(2) Savoir utiliser des systèmes de classement pour interroger les bases de données biologiques et obtenir des résultats mieux triés en réponse à une requête.

  • IDO-3 “Ontologies” (1h30)

Contenu : Présentation de la solution “ontologie” pour l'intégration des données.

Recherche en cloud computing

Session plénière

  • Recherche dans les Clouds - Adrien Lebre (Inria)  [diapos]
  • Présentation de Grid'5000 - Lucas Nussbaum (Loria) [diapos]

Sessions pratiques

Lucas Nussbaum (Loria) et Simon Delamare (LIP ENS-Lyon)

  • CLR-1 “Travaux pratiques sur Grid'5000” (1h30) [matériel]

Infrastructures de cloud de production

Session plénière

  • Panorama des Clouds de production - Jérôme Pansanel (IPHC) [diapos]
Tout d'abord, un aperçu des principaux Cloud de production (commerciaux et académiques) sera donné. Puis, une introduction aux différents projets académiques e-Biothon, FG-Cloud et EGI FedCloud sera réalisée.
  • L'accès aux Cloud académiques : du mode IaaS au mode SaaS - Charles Loomis (Sixsq) [diapos]
Au cours de cette présentation seront détaillés les différents gestionnaires de Cloud Open Source, ainsi que les actions en cours pour faciliter l'utilisation de ces plateformes.

Sessions pratiques

  • CLP-1 "Utilisation du Cloud France Grilles" (1h30)

Contenu : Pratique de l'utilisation des ressources France Grilles et ouverture vers l'utilisation des ressources EGI.

Objectifs : Savoir utiliser le Cloud France Grilles. Connaître les différences entre le Cloud France Griles et le Cloud fédéré EGI, connaître les étapes clés pour accéder aux ressources du Cloud fédéré EGI.

Matériel : CLP-1-materiel

  • CLP-2 "Introduction au déploiement simplifié d'applications sur les clouds avec Slipstream” (1h30)

Contenu: Pratique de l'environnement web SlipStream pour l'exécution d'environnements virtuels dans le cloud. 

Objectifs: Savoir utiliser Slipstream. Savoir déployer une machine virtuelle sur un cloud.

Matériel : [CLP-2-materiel]

  • CLP-3 "SlipStream, utilisation avancée pour le déploiement d’environnements complexes" (1h30)

Contenu: Pratique de l'environnement SlipStream pour la configuration et le déploiement d'applications complexes, comprenant plusieurs machines virtuelles et potentiellement sur différents clouds. 

Objectifs: Savoir utiliser Slipstream pour automatiser la configuration de plusieurs machines virtuelles requises pour une application scientifique complexe. Savoir rendre disponible cette configuration aux utilisateurs.

Matériel : [CLP-3-materiel]

Gestion des données dans les clouds

Session plénière

Alexandru Costan (INSA Rennes/Inria)

Introduction au Big Data et aux défis associées à leur gestion sur les clouds. Introduction au modèle de programmation MapReduce et à l'environnement Hadoop. [diapos]

Sessions pratiques

  • GDC-1 “Découverte de l'environnement Hadoop” (2h00)

Contenu : déploiement d'Hadoop, lancement et exécution de quelques applications-jouets, lecture commentée de code.

Objectifs : Découvrir dans la pratique l'environnement Hadoop, les étapes nécessaires à sa bonne utilisation, comprendre l'impact des paramètres de configuration sur les performances, comprendre le modèle MapReduce.

Matériel : GDC-1-materiel

Autres expériences

Session plénière

  • Cloud computing, calcul intensif, travail collaboratif : l'expérience de France-Génomique sur le centre de calcul CEA CCRT (TGCC) - Claude Scarpelli  (Genoscope -- CEA DSV/IG) [diapos]

 

  • Bilan - Discussion   [diapos]
Personnes connectées : 1