Soutenance de thèse de Fatima Shokor

24 septembre 2025

AgroParisTech, 22 place de l’Agronomie, 91120 Palaiseau

Fatima Shokor soutiendra sa thèse intutilée "Apport des approches d'apprentissage profond à la prédiction génomique et à l'appui aux objectifs de sélection", mercredi 24 septembre 2025 à l'AgroParisTech Paris-Saclay.

La soutenance aura lieu le mercredi 24 septembre à 14h, en anglais, à l’amphi A0.04 d’AgroParisTech, 22 place de l’Agronomie, 91120 Palaiseau et en visioconférence.

Cette thèse s'intitule : 
Apport des approches d'apprentissage profond à la prédiction génomique et à l'appui aux objectifs de sélection

Elle a été réalisée sous la direction de :
- Pascal CROISEAU, Chargé de recherche, UMR GABI, INRAE Jouy-en-Josas

Elle a été supervisée par :
- Beatriz CASTRO DIAS CUYABANO, Chargée de recherche, UMR GABI, INRAE Jouy-en-Josas
- Tristan MARY-HUARD, Directeur de recherche, UMR MIA Paris-Saclay et GQE – Le Moulon, INRAE
- Sébastien FRITZ, Responsable équipe génétique, Eliance

Elle sera évaluée par : 
- Mario CALUS, Professeur, Wageningen University & Research (Pays-Bas), rapporteur
- Miguel PÉREZ ENCISO, Chercheur, ICREA (Espagne), rapporteur
- Christine DILLMANN, Professeure, Université Paris-Saclay, examinatrice
- Valérie MONBET, Professeure, Université de Rennes, examinatrice
- Yvonne WIENTJES, Chercheuse, Wageningen University & Research (Pays-Bas), examinatrice

Résumé
La sélection animale moderne repose largement sur la prédiction du mérite génétique des individus, c’est-à-dire leurs valeurs génétiques, afin de guider les décisions de sélection et d’accélérer le progrès génétique. En prédisant le mérite génétique à partir des informations de pedigree, génomiques, ou des deux, les programmes de sélection peuvent prendre des décisions plus précises que celles basées uniquement sur les performances phénotypiques. De plus, l’ère génomique a renforcé la précision des valeurs génétiques prédites, notamment chez les jeunes candidats à la sélection. En particulier chez les bovins laitiers, la sélection génomique a permis de réduire de manière significative l’intervalle entre les générations. La prédiction génomique, aujourd’hui largement utilisée dans l’industrie, repose principalement sur des méthodes statistiques. Bien que ces méthodes soient efficaces, elles supposent que les valeurs génétiques sont principalement additives, et que les effets non additifs suivent une relation linéaire. Cette hypothèse peut limiter leur capacité à capturer toute la complexité de l’architecture génétique des caractères. En réalité, l’expression des caractères est influencée à la fois par des effets additifs et non additifs, et par des relations linéaires et non linéaires, ce qui peut introduire des erreurs systématiques de prédiction et limite la précision.
L’apprentissage profond (deep learning, DL) est une approche de modélisation flexible, capable d’apprendre des motifs complexes à partir de données de grande dimension. Ces dernières années, il a suscité un intérêt croissant en génétique, notamment pour sa capacité à capturer des associations non linéaires entre les données génomiques et les phénotypes. Dans ses premières applications en génétique quantitative, le DL a été envisagé comme une alternative aux méthodes statistiques classiques pour la prédiction génomique, dans l’espoir d’améliorer la précision des prédictions. Cependant, de nombreuses études ont montré que le DL ne surpasse pas systématiquement les modèles statistiques.       Plutôt que de chercher à remplacer les méthodes statistiques par le DL, l’objectif de cette thèse a été d’intégrer le DL aux méthodes statistiques pour répondre à deux problématiques majeures des programmes de sélection :
(1) la possibilité de relations génétiques non linéaires entre caractères dans les modèles multi-caractères,
(2) la prédiction des valeurs génétiques chez les animaux croisés, où les effets non additifs – et potentiellement non linéaires – comme la dominance ou l’hétérosis, jouent un rôle important.
À travers des analyses sur données simulées et réelles, nous avons exploré l’application du DL pour ces deux objectifs. Nous montrons qu’il permet de capturer la complexité des relations génétiques entre caractères et au sein des populations croisées. Nos résultats suggèrent que l’intégration du DL aux méthodes statistiques peut égaler, voire dépasser, les performances des approches classiques, notamment lorsque l’architecture génétique sous-jacente est fortement non linéaire (cas des corrélations génétiques entre caractères) ou non additive (cas de la prédiction chez les animaux croisés). Les bénéfices du DL diminuent toutefois lorsque l’architecture génétique est principalement additive et linéaire.
Enfin, ce travail de thèse montre que la combinaison du DL avec les approches statistiques traditionnelles offre non seulement un gain potentiel en précision de prédiction de la valeur génétique, mais aussi un outil pour mieux comprendre l’architecture complexe des caractères.