2020
Annotation des éléments transposables dans les Pangénomes
Contexte :
Les éléments transposables (ET) sont des séquences d'ADN mobiles pouvant envahir les génomes. Lors de cette invasion, ils provoquent des mutations, sources de nouveautés génétiques affectant réseaux de régulations et fonctions.
Les individus d’une même espèce subissent de façon indépendante cette invasion. Les mutations qui apparaissent sont ainsi soumises à la sélection naturelle qui amène une adaptation accrue des individus à leur environnement. De nombreux cas d’insertions d’éléments transposables bénéfiques pour leur hôte ont été décrit dans la littérature (voir D. Lisch, Nat Rev Genet. 2013, pour revue chez les plantes).
Comprendre comment les ET modèlent les génomes des espèces leur permettant de s’adapter à leur environnement demande d’étudier de façon détaillée ces insertions dans différents génomes d’une même espèce. Cette approche qualifiée de « pan-génomique » cherche à décrire la gamme complète de gènes dans une espèce. Il s'agit d'un sur-ensemble de tous les gènes de toutes les souches d'une espèce. Le pangénome comprend ainsi les séquences indispensables à l’espèce (« core-genome »), les séquences facultatives (« dispensable-genome ») ou ecogénome quand celui-ci est spécifique d’un environnement, et enfin les séquences spécifiques d’un individu. Identifier les ET qui font partie de ces ensembles, permet d’étudier leur impact sur l’adaptation des espèces à leur environnement. Cette information peut se révéler essentielle pour comprendre comment les espèces s’adapteront aux changements climatiques actuel.
Objectifs :
Nous avons développé un pipeline novateur d'annotation des ET au sein d'une espèce qui identifie leur présence dans les compartiments du pangenome. Les résultats obtenus sur Arabidopsis thaliana montrent une très haute spécificité de détection. Nous souhaitons optimiser et valider le système en augmentant le nombre d'accessions au sein de l’espèce.
Travail demandé :
Le stagiaire développera des outils pour la suite logicielle REPET dédiée à l’annotation des ET que nous développons au laboratoire https://urgi.versailles.inra.fr/Tools/REPET ). Il mettra en œuvre cette nouvelle approche sur les différents génomes d’Arabidopsis thaliana disponibles. Il comparera les résultats obtenus à l’annotation de référence pour en évaluer les performances.
Le stagiaire acquerra des compétences en développement de pipelines et d’annotation des génomes dans un contexte « big data » où plusieurs génomes sont à annoter simultanément. Le travail sera réalisé en mettant en œuvre du calcul parallèle dans une infrastructure Cloud pour les analyses les plus gourmandes. Il rédigera des notebook jupyter pour automatiser les analyses afin d’obtenir une meilleure reproductibilité et traçabilité des résultats.
Compétences techniques recherchées :
• Maitrise des commandes UNIX (shell) et de la programmation python.
• Compétences en programmation C++ souhaitable.
• Connaissances des outils d’alignements de séquences.
Ce sujet constitue un premier pas vers un travail de thèse (oui / non) : oui
Date de début du stage et durée estimée du stage : début mars pour une durée de 6 mois
Proposition de stage début octobre 2020
Date limite fin décembre 2020
Adresse électronique : hadi.quesneville@inrae.fr johann.confais@inrae.fr