Intégration d’annotations complexes dans des modèles de prédiction génomique bayésiens

Intégration d’annotations complexes dans des modèles de prédiction génomique bayésiens

Annotations multiples, complexes, chevauchantes… vous vous demandez comment les exploiter au mieux dans votre modèle de prédiction génomique ? Alors le logiciel ouvert BayesRCO est fait pour vous ! Dans le projet H2020 GENE-SWitCH, des chercheur·e·s de l’unité GABI ont proposé deux nouveaux modèles bayésiens d’EG (BayesRCπ et BayesRC+) pour mieux relier les génotypes aux phénotypes quantitatifs tout en gérant des annotations complexes.

La disponibilité généralisée et la baisse du coût des technologies de génotypage à haut débit ont accéléré la mise en œuvre d'évaluations génomiques (EG) pour de nombreuses espèces d’élevage. Les méthodes d'EG partagent un objectif commun : estimer avec précision une valeur d'élevage estimée à partir des effets d'un ensemble de SNPs (single nucleotide polymorphisms). Pour ce faire, les modèles de prédiction bayésiens ont rapidement été adoptés pour leur capacité à évaluer simultanément et de manière flexible les effets des SNPs et aussi parce qu’ils offrent la possibilité d’incorporer des informations biologiques a priori. En parallèle, plusieurs actions internationales travaillent sur la caractérisation, chez différentes espèces, des processus fonctionnels intermédiaires (expression de gènes, méthylation, accessibilité de la chromatine, …) dans une variété de tissus ou de stades de développement. Les annotations construites à partir de ces données fonctionnelles riches représentent des informations hétérogènes et partiellement chevauchantes, ne pouvant pas être intégrées dans les modèles bayésiens disponibles.

Dans le projet H2020 GENE-SWitCH, des chercheur·e·s de l’unité GABI ont proposé deux nouveaux modèles bayésiens d’EG (BayesRCπ et BayesRC+) pour mieux relier les génotypes aux phénotypes quantitatifs tout en gérant des annotations complexes. Ces modèles, publiés dans la revue BMC Bioinformatics et disponibles dans le logiciel libre et ouvert BayesRCO (BayesRC for Overlapping annotations; https://github.com/fmollandin/BayesRCO), reposent sur deux hypothèses de chevauchement des informations biologiques différentes (incertitude vs augmentation de confiance). Les modèles proposés se sont révélés prometteurs en termes de performance prédictive et d’interprétabilité sur données simulées et réelles chez le porc.
Contact :

  • Dr. Andrea Rau (andrea.rau@inrae.fr) ou Dr. Pascal Croiseau (pascal.croiseau@inrae.fr)

Voir aussi

Référence

Andrea Rau, Regina Manansala, Michael J Flister, Hallgeir Rui, Florence Jaffrézic, Denis Laloë, Paul L Auer, Individualized multi-omic pathway deviation scores using multiple factor analysis, Biostatistics, Volume 23, Issue 2, April 2022, Pages 362–379, https://doi.org/10.1093/biostatistics/kxaa029