Programme détailléBesoins des sciences du vivantSession plénière
Animée par Jean-François GIBRAT Les présentations et discussions s'attacheront à brosser un panorama des besoins scientifiques et technologiques de différentes communautés des sciences du vivant et des verrous technologiques actuels. Panel: Christophe BRULEY (CEA iRTSV/BGE/EDyP), Thierry GRANGE (CNRS Institut Jacques MONOD), Gilles Mathieu (Inserm), Claude THERMES (CNRS CGM), Alain VIARI (INRIA) Infrastructures bioinformatiquesSession plénière
Présentation de l'IFB, les liens avec les infrastructures nationales et européennes.
Présentation des infrastructures actuelles, les clouds IFB-core et Genocloud, les machines virtuelles fournissant les services bioinformatiques à la communauté et les perspectives d'une fédération de cloud, en lien avec les infrastructures européennes (ELIXIR).
Concepts clés des serveurs, du réseau et du stockage. Savoir comment ils s'intègrent et interagissent. Les concepts d'administration et d'automatisation sous-tendus par la mise en place et l'utilisation de services. Sessions pratiques
Contenu : Pratique des fonctionnalités de base du cloud IFB: le tableau de bord en ligne (Web), le déploiement des machines virtuelles, le stockage des données avec des disques virtuels, leur gestion, les différents types de connexion aux VMs (SSH, Web et bureau à distance). Objectifs : Savoir utiliser le cloud IFB pour ses analyses de données biologiques, exécuter ses propres machines virtuelles et transférer ses données entre son poste de travail et le cloud. Matériel : IBI-1-materiel
Contenu : Pratique de déploiement d'une application complexe comprenant plusieurs machines virtuelle, du mode cluster, de containers Docker, partager ses données avec les appliances dédiées (NFS, biomaj...). Objectifs : Savoir déployer une infrastructure d’analyse intensive de données biologiques de grande taille. Savoir adapter les machines virtuelles disponibles pour répondre à des besoins plus complexes. Matériel : IBI-2-materiel
Contenu : Pratique de l'intégration d'un logiciel bioinformatique dans une machine virtuelle, le référencement de l’appliance et la mise à disposition des utilisateurs. Description des fonctionnalités bioinformatiques du cloud IFB, le montage automatique des collections de données publiques de référence, la contextualisation d’un portail web, les modèles de disques virtuels pour la conservation des paramètres d’un logiciel ou portail … Les différents modèles d'intégration: scripts et archives sources/binaires, container (Docker) et déploiement automatisé (Puppet, Chef). Bonnes pratiques et exemples. Objectifs : Savoir intégrer un logiciel ou un pipeline bioinformatique dans une machine virtuelle pour une diffusion et mise à disposition sur le cloud IFB. Matériel : IBI-3-materiel Intégration des données et des outilsSession plénièreSarah COHEN-BOULAKIA (Université Paris-Sud LRI) et Christine FROIDEVAUX (Université Paris-Sud LRI) Présentation de la problématique de l'intégration de données et d'outils. Mythes et réalités. Problèmes résolus et problèmes encore à résoudre; grandes familles de solutions existantes; 3 types d'approches importantes : workflow, classement, ontologies (reprises dans les sessions pratiques). Sessions pratiques
Contenu : A partir d'un cas d'utilisation réel, recherche d'informations dans les bases, expression de requêtes (questions), inspection des résultats, croisement (manuel) des informations issues de plusieurs bases. Objectifs : Savoir utiliser les principaux moteurs de recherche d'informations de données biologiques publiques européens et d'Amérique du nord; Savoir utiliser les fonctionnalités avancées de ces outils; Identifier les différents niveaux d'hétérogénéité des données; complémentarité, redondances et apparentes divergences des données.
Contenu : Cette session est composée de deux parties. (1) Présentation de la solution “workflow” pour l'intégration des données. (2) Présentation des solutions pour classer les données par ordre d'importance. Alternance entre transparents et démonstrations faites par l'instructeur. Objectifs : (1) Connaître les grands systèmes de workflows existants (pros et cons); Savoir concevoir un workflow de base sous Galaxy; Connaître et savoir utiliser les librairies d'outils existants pouvant être utilisées dans un workflow. (2) Savoir utiliser des systèmes de classement pour interroger les bases de données biologiques et obtenir des résultats mieux triés en réponse à une requête.
Contenu : Présentation de la solution “ontologie” pour l'intégration des données. Recherche en cloud computingSession plénière
Sessions pratiquesLucas Nussbaum (Loria) et Simon Delamare (LIP ENS-Lyon)
Infrastructures de cloud de productionSession plénière
Tout d'abord, un aperçu des principaux Cloud de production (commerciaux et académiques) sera donné. Puis, une introduction aux différents projets académiques e-Biothon, FG-Cloud et EGI FedCloud sera réalisée.
Au cours de cette présentation seront détaillés les différents gestionnaires de Cloud Open Source, ainsi que les actions en cours pour faciliter l'utilisation de ces plateformes.
Sessions pratiques
Contenu : Pratique de l'utilisation des ressources France Grilles et ouverture vers l'utilisation des ressources EGI. Objectifs : Savoir utiliser le Cloud France Grilles. Connaître les différences entre le Cloud France Griles et le Cloud fédéré EGI, connaître les étapes clés pour accéder aux ressources du Cloud fédéré EGI. Matériel : CLP-1-materiel
Contenu: Pratique de l'environnement web SlipStream pour l'exécution d'environnements virtuels dans le cloud. Objectifs: Savoir utiliser Slipstream. Savoir déployer une machine virtuelle sur un cloud. Matériel : [CLP-2-materiel]
Contenu: Pratique de l'environnement SlipStream pour la configuration et le déploiement d'applications complexes, comprenant plusieurs machines virtuelles et potentiellement sur différents clouds. Objectifs: Savoir utiliser Slipstream pour automatiser la configuration de plusieurs machines virtuelles requises pour une application scientifique complexe. Savoir rendre disponible cette configuration aux utilisateurs. Matériel : [CLP-3-materiel] Gestion des données dans les cloudsSession plénièreAlexandru Costan (INSA Rennes/Inria) Introduction au Big Data et aux défis associées à leur gestion sur les clouds. Introduction au modèle de programmation MapReduce et à l'environnement Hadoop. [diapos] Sessions pratiques
Contenu : déploiement d'Hadoop, lancement et exécution de quelques applications-jouets, lecture commentée de code. Objectifs : Découvrir dans la pratique l'environnement Hadoop, les étapes nécessaires à sa bonne utilisation, comprendre l'impact des paramètres de configuration sur les performances, comprendre le modèle MapReduce. Matériel : GDC-1-materiel Autres expériencesSession plénière |