Automatisation et généralisation d‘intégration de données issues de fouille de texte dans un système d’information.
Stage Master 2, semestre 1 2022.
Adresse où se déroulera le stage : INRAE-CNRGV, Centre INRAE de Toulouse, 24 Chemin de Borde Rouge 31326 Castanet Tolosan
Responsable du stage : FLORES Raphaël < raphael.flores@inrae.fr >
Mots clés résumant les méthodes et techniques à utiliser au cours du stage :
Résumé du projet de stage :
Un des enjeux de la biologie végétale est d’étudier, voire de prédire, le phénotype d’une plante et sa capacité à s’adapter à des stress à partir de données génétiques, génomiques et environnementales. Ce lien entre génotype et phénotype s’effectue via des approches de détection de QTL ou de GWAS, souvent complétées par une approche gène candidat. De nombreuses connaissances existent déjà chez des espèces modèles ainsi que dans la littérature scientifique.
GnpIS ( https://urgi.versailles.inrae.fr/gnpis/ ) est une base de données INRAE qui permet de stocker des jeux de données de génétique, de phénomique et de génomique chez les plantes . En complément, des données de ce type se trouvent de façon non structurée dans la bibliographie.
L’URGI développe un graphe de connaissances permettant d’intégrer des données hétérogènes dans l’optique d’apporter un appui efficace et rapide en terme d’exploration de données à la communauté scientifique, en particulier en lien avec des approches de biologie translationnelle.
Une preuve de concept a été réalisée sur le blé pour développer et automatiser un pipeline de fouille de texte (AlvisNLP développé par l’équipe Bibliome de l’UMR MaIAGE) permettant de collecter ce type d’information dans des articles et de les annoter sémantiquement.
Un premier objectif du stage consiste à adapter et utiliser le pipeline de fouille de texte sur un corpus bibliographique étendu en s’appuyant notamment sur des identifiants de gènes d’intérêt, d’ontologies de référence (gene ontology, phenotype, ...) et bases de données de référence (PFAM, UniProt, classification Wicker).
Un second objectif sera d’intégrer ces données annotées au sein d’un graphe de connaissances (basé sur Neo4J) afin de pouvoir en enrichir les connaissances et permettre de répondre à des questions scientifiques en mettant en œuvre une approche de biologie translationnelle.
Le dernier objectif consistera à exposer les données intégrées sous la forme d’un graphe en représentation RDF permettant ainsi leur publication sous une forme rendant possible leur réutilisation par la communauté scientifique.
Montant des indemnités de stage : approximativement 500€.
Modalités de candidature : les candidatures (CV + lettre de motivation) doivent être adressées au plus tard jusqu’au 31/12/2021 par courriel à raphael.flores@inrae.fr avec l’objet suivant : [2022-stage-graph-text-mining]