La construction d'un pangénome bovin met en lumière de nouvelles insertions uniques pour mieux comprendre la diversité génétique des races

Le génome de référence bovin actuel sous-estime la diversité génétique de l’espèce. A partir de 16 assemblages de 9 races bovines françaises et d’un yack, nous avons construit un graphe de pangénome révélant ~101k variants structuraux, dont ~33k insertions uniques non-référence. L’analyse de ces insertions montre un enrichissement dans des régions du génome en lien avec des caractères laitiers et morphologiques.

Vache_HugoSorin
© licence CC-BY-NC-ND. (Auteur Hugo Sorin)

Contexte
Le génome de référence bovin actuel, issu d'une seule vache Hereford, ne capture qu’une fraction de la diversité génétique présente au sein de l'espèce. De plus, la détection des variants structuraux (SV ≥ 50 nucléotides) reste compliqué avec les approches classiques se basant sur le séquençage à lecture courte ou longue puis aligné sur ce génome de référence linéaire. Les progrès récents dans les technologies de séquençage à lecture longue permettent de produire des assemblages de novo de haute qualité pour chaque individu. Ces assemblages sont ensuite utilisés pour construire un graphe de pangénome, révélant des régions génomiques jusqu'alors non caractérisées et qui pourraient contribuer à des phénotypes agronomiques importants.

Résultats
Dans cette étude, nous avons construit un graphe de pangénome bovin à partir de 16 assemblages de haute qualité résolus par haplotype, provenant de neuf races françaises représentatives de la diversité des populations bovines, incluant le yack (Bos grunniens) comme espèce proche. En combinant une stratégie basée sur des trios, des technologies de séquençage complémentaires et à des méthodes bioinformatiques, nous avons identifié et caractérisé 101 219 variants structuraux. Parmi eux, 33 634, classés comme insertions uniques non-référence (NRUI), enrichissent le génome de référence Hereford actuel de plusieurs mégabases de nouvelles séquences génomiques.

L'analyse de la distribution de ces NRUI révèle un enrichissement significatif à l'échelle du génome dans des régions QTL associées à la production laitière et aux caractères morphologiques, suggérant leur contribution à la base génétique des phénotypes d’intérêt agronomique. De plus, leur annotation fonctionnelle a mis en évidence deux NRUI localisées dans les régions introniques des gènes ARMH3 et EPHA5, tous deux spécifiques de la race Normande et significativement associés à la production laitière et à des caractéristiques morphologiques, respectivement.

Conclusions
Nos résultats démontrent l'intérêt des approches pangénomiques pour mettre en évidence les variants structuraux avec un impact fonctionnel, en particulier les NRUI, qui sont absentes des génomes de référence. En associant ces variants à des caractères importants sur le plan économique, nos travaux soulignent la nécessité d'intégrer la diversité des races dans les futures analyses génomiques et les efforts de constitution d’un génome de référence chez les bovins.

Contact : Valentin Sorin, Mekki Boussaha

Référence :
Sorin, V., Besnard, F., Capitan, A. et al. Assembly of a pangenome uncovers novel non-reference unique insertion sequences in cattle highlighting their genetic diversity. J Animal Sci Biotechnol 17, 47 (2026). https://doi.org/10.1186/s40104-026-01373-