Projet exploratoire GenIALearn du Métaprogramme DIGIT-BIO

Le développement de la sélection génomique - et des autres analyses « omiques » telles que la métagénomique, transcriptomique, métabolomique et protéomique - permet aujourd’hui de caractériser les animaux grâce à des milliers de mesures. Ces données massives sont intégrées dans des modèles, afin de prédire des caractères de production avec la plus grande précision possible.

Prédire des caractères complexes par l’intégration de données massives de génotypage.

Contexte et enjeux

Les modèles les plus couramment utilisés en prédiction génomique (modèle génétique additif type GBLUP) sont très efficaces pour prédire la valeur génétique des animaux sur quelques caractères génétiquement corrélés. En revanche, ce type de modèle ne permet pas d’intégrer un très grand nombre de mesures hétérogènes, ni de prédire beaucoup de caractères en sortie sans connaitre leurs corrélations génétiques. De plus, ce modèle reste limité pour tenir compte des nombreuses interactions non-linéaires qui interviennent entre les régions du génome ou des facteurs environnementaux.

Afin de lever ces verrous, nous proposons d’utiliser les méthodes d’apprentissage statistique (Machine Learning) et d’apprentissage profond issues de l’IA, pour à la fois traiter les informations génétiques additives mais également les informations génétiques non-linéaires présentes dans les données massives de génotypage.

Objectifs
Le projet GenIALearn propose d’évaluer les performances des méthodes d’apprentissage statistique et profond pour la prédiction conjointe de multiples caractères complexes, par l’intégration de données massives de génotypage. Deux grandes familles de méthodes seront comparées entre-elles et à la méthode de référence le GBLUP :

D’une part, les méthodes d’apprentissage ensemblistes (random forests, gradient boosting), couplées à une étape d’apprentissage de représentation des données d’entrées, afin de proposer des niveaux de prédiction de référence
D’autre part, les réseaux de neurones avec différentes architectures, couplés à une étape d’apprentissage profond sur des bases de données massives, permettront de concevoir et de comparer des modèles prédictifs pour la sélection génomique animale.

Afin d'entrainer et des valider les premiers modèles de prédiction des phénotypes à partir des génotypes, il faut disposer d'un nombre élevé de données, si possible plus de 100 000 observations (génotypes + phénotypes). Aussi deux solutions sont envisagées: i) utiliser des données humaines très nombreuses (environ 500 000 observations), rendues anonymes et disponibles dans la base UK Biobank dans un cadre très stricte d'utilisation de recherche académique (Cf Fiche d'information RGPD jointe); ii) générer des données simulées de génotypes associés à des phénotypes afin d'enrichir artificiellement des bases de données réelles trop peu nombreuses.

A télécharger : Fiche d'information RGPD

Contacts :

Eric Barrey, UMR GABI
Didier Boichard, UMR GABI

Documents à télécharger

fiche_d_informations_RGPD_GenIALearn pdf - 279.03 ko

Voir aussi

DIGIT-BIO : Biologie numérique pour explorer et prédire le vivant - Application du machine learning et deep learning pour perfectionner la sélection génomique animale (inrae.fr)

Date de modification : 14 septembre 2023 | Date de création : 09 juin 2023 | Rédaction : INRAE - Edition P. Huan

Nom du cookie	Finalité	Durée de conservation
Cookies de sessions CAS et PHP	Identifiants de connexion, sécurisation de session	Session
Tarteaucitron	Sauvegarde vos choix en matière de consentement des cookies	12 mois

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Nom du cookie	Finalité	Durée de conservation
atid	Tracer le parcours du visiteur afin d’établir les statistiques de visites.	13 mois
atuserid	Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site	13 mois
atidvisitor	Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.	13 mois

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois