CONTACT  |  SITE MAP  |  ABOUT US   
Ask an account
You are here : Home / Home URGI / About us / Jobs / M2 Resilens

Jobs

20 Oct 2021 M2 Internship data management

Intégration de données de légumineuses dans un système d’information

Mots clés : Data management, FAIR, Talend, base de données, NoSQL, ontologie, Nextflow

Contact: Nicolas Francillonne

Mail: nicolas.francillonne@inrae.fr

Description du sujet 

Contexte : Le projet ResiLens aborde des questions en rapport avec la culture de la lentille en France. La demande du marché est forte pour cette légumineuse mais il manque des connaissances et un support pour la sélection des variétés pour aider les chercheurs et accompagner les agriculteurs. Le projet a permis de recenser une collection de ressources génétiques sur cette espèce permettant d’organiser et caractériser une base de travail à partir de laquelle a été identifiée l’identité de pathogènes fongiques et des bruches impactant la quantité et la qualité de production. Cela a permis de révéler les génotypes montrant des réponses différentes face à ces menaces et les caractères phénotypiques associés.  

Ce stage se situe dans le cadre de la dernière action du projet, la mise en place d’une base de données pour la lentille permettant d’intégrer les données générées durant le projet. Le stagiaire devra travailler à l’insertion des données de ressources génétiques et l’insertion de données phénotypiques dans la base de données de GnpIS (Système d’information dédié aux plantes). Le candidat devra également travailler à l’intégration d’une ontologie dédiée aux lentilles dans le système d’information permettant de décrire les traits phénotypiques relatifs. Ce travail d’insertion des données et de l’ontologie se fera en étroite relation avec la communauté scientifique du projet ResiLens et notamment les scientifiques de l’UMR Agroécologie.

Les ressources mises en place permettront aux différents acteurs du projet et aux parties prenantes, d’interroger et d’accéder aux informations qui ont été générées pendant le projet ResiLens.

Objectifs :

  • Insertion de données de ressources génétiques dans une base de données dédiée pour les données de plantes (GnpIS - FAIDARE)
  • Insertion de données d’ontologie dans une interface permettant le requêtage d’informations phénotypiques
  • Insertion de données phénotypiques dans une base de données (GnpIS – Ephesis)
  • Optionnel : Mise en place d’un référencement des jeux de données de génotypage dans le dépôt de data.inrae.

Travail demandé :

Le(a) stagiaire devra insérer à l’aide des outils ETL (Extract-Transform-Load) mis à sa disposition des données dans la base de données GnpIS (SGBD : PostgreSQL). Il devra ainsi réaliser un contrôle qualité des données et faire des modifications le cas échéant des fichiers de données sources afin de répondre à un format de soumission. Une fois ces données de ressources génétiques insérées, il s’agira de renseigner des données phénotypiques décrivant ces ressources génétiques en travaillant sur le format de soumission des données phénotypiques en accord avec les termes ontologiques décrits dans l’ontologie de la lentille ou à rajouter.  Il faudra ensuite réaliser un travail d’indexation de ces données avec l’outil ElasticSearch (NoSQL) pour rendre ces données plus accessibles et interopérable.

 

Compétences techniques recherchées :

  • Maitrise des commandes UNIX (shell) et des programmations python/JAVA.
  • Maitrise de la technologie SGBD et NoSQL (postgresql et Elasticsearch)
  • Maitrise d’outils ETL (Talend)
  • Capacité à traiter d’importants volumes de données
  • Traitement de données (Excel, csv)


Creation date: 20 Oct 2021