Amélioration d’outils et de workflow d’intégration de données pour accroitre la qualité d’un système d’information international.
Stage Master 2, 2022.
Adresse où se déroulera le stage : URGI - Centre INRAE de Versailles, RD10 Route de Saint-Cyr 78000 Versailles
Responsable du stage : Célia MICHOTEY < celia.michotey@inrae.fr >
Mots clés résumant les méthodes et techniques à utiliser au cours du stage :
Résumé du projet de stage :
GnpIS est un système d’information (SI) développé par l’URGI qui permet de stocker et d’intégrer des jeux de données de génétique et de génomique des plantes ( https://urgi.versailles.inrae.fr/gnpis/ ). Il met à disposition des données de qualité suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable), ce qui lui permet de participer aux efforts pour la science ouverte, pour laquelle INRAE est moteur.
L’URGI propose un stage de Master en développement de workflow de data management. Il vise à améliorer et automatiser les différents outils utilisés pour valider les jeux de données soumis à GnpIS afin de garantir la qualité des données. Il s’agit par exemple de vérifier que les traits observés dans le cadre d’une expérience de phénotypage sont bien rattachés à une ontologie de référence et que les valeurs mesurées sont bien cohérentes entre elles. Cette étape de vérification et de curation des données est essentielle pour la FAIRification des données et pour faciliter l’intégration de jeux de données hétérogènes, donc améliorer leur valorisation et enrichissement.
Pour répondre à ce besoin, le/la stagiaire améliorera les outils existants (utilisation de Talend, web services REST, Python, SQL) et en développera de nouveaux (R, ou autre potentiellement proposé par le/la stagiaire). Si possible, la personne recrutée explorera également des solutions innovantes reposant sur l’utilisation du dataverse d’INRAE ( data.inrae.fr ) ou de Framework comme CSV for Web ou Frictionless Data.
Montant des indemnités de stage : approximativement 500€.
Modalités de candidature : les candidatures (CV + lettre de motivation) doivent être adressées au plus tard jusqu’au 31/10/2021 par courriel à celia.michotey@inrae.fr avec l’objet suivant : [stage 2022 - data-quality]