Contexte

La bioinformatique est définie comme l’ensemble des méthodes informatiques permettant de gérer et d’analyser les données produites par les sciences du vivant. Les technologies actuelles permettent d’obtenir de très grandes masses de données sur les systèmes biologiques. Depuis 2007, les technologies de séquençage sont ainsi capables de produire plusieurs teraoctets (To) de données par expérience (par exemple, un séquenceur HiSeq peut produire plus d’un milliard de lectures appariées de 2x100 nucléotides, soit 1.6 To rien que pour les données « nues », le double si l’on prend en compte les métadonnées de qualité). Le grand intérêt de toutes ces nouvelles technologies haut-débit, c’est qu’elles permettent aux biologistes d’adopter une démarche encyclopédique pour étudier les questions biologiques d’intérêt en leur donnant accès à l’ensemble du génome d’un organisme, à tous les transcrits, toutes les protéines, toutes les interactions, tous les métabolites et les flux, etc. Le revers de cette médaille c’est que les biologistes sont noyés sous un flot de données hétérogènes et extrêmement volumineuses.

Au-delà de la simple gestion de ce flot de données, le rôle central que joue la bioinformatique est d’aider les biologistes à extraire des connaissances biologiques à partir de ces grandes masses de données « brutes ». Une caractéristique essentielle des traitements bioinformatiques est l’extraordinaire foisonnement des logiciels d’analyse des données et la grande diversité des langages de programmation utilisés. Beaucoup d’analyses sont constituées par un enchaînement de logiciels, les sorties des uns étant les entrées des autres d’où l’intérêt manifesté par les bioinformaticiens pour les workflows et autres pipelines. De plus ces différents traitements requièrent l’utilisation de grosses quantités de données mises à jours régulièrement et devant être accédées en mode fichier pour des questions de compatibilité avec l’ensemble de ces outils logiciels historiques.

Ces caractéristiques nécessitent de s’appuyer sur une infrastructure informatique adaptée aux problèmes rencontrés. À travers la création de l’Institut Français de Bioinformatique et de sa volonté de mettre en place un cloud académique pour les sciences du vivant, la communauté nationale en bioinformatique désire s’équiper des outils de traitement des données biologiques nécessaires pour faire face au déluge des « big data » et maintenir son action innovante dans le domaine.

Personnes connectées : 1