UMR1313 - GABI

Soutenance de thèse de Ekaterina Tomilina

02 décembre 2025

INRAE Jouy-en-Josas

Ekaterina Tomilina soutiendra sa thèse intitulée "Inférence de réseaux de régulation multi-omiques via la copula Gaussienne", le 2 décembre 2025 à 14h dans l'amphithéâtre du bâtiment 440 de l'INRAE (Domaine de Vilvert, 78350 Jouy-en-Josas).

La soutenance aura lieu en anglais et en visioconférence.

Composition du jury : 

  • Nathalie VIALANEIX, Directrice de recherche, INRAE Occitanie-Toulouse : Rapportrice & Examinatrice
  • Etienne BIRMELE, Professeur, Université de Strasbourg : Rapporteur & Examinateur
  • Marie-Laure MARTIN, Directrice de recherche, INRAE, Institut des Sciences des Plantes – Paris-Saclay : Examinatrice
  • Fanny VILLERS, Maîtresse de conférences, Sorbonne Université : Examinatrice

Résumé : 
L'étude des réseaux de régulation multi-omiques constitue un des challenges majeurs actuellement en biologie. Le terme "multi-omiques" désigne les différents niveaux  -omiques de l’organisme (protéomique, génomique, métabolomique...). Chacun de ces niveaux possède un rôle différent au niveau moléculaire, et leur action conjointe régit les réactions biologiques de l’organisme. La compréhension des mécanismes sous-jacents à ces réseaux permettrait par exemple de progresser dans la lutte contre les maladies telles que le cancer. Un premier obstacle majeur est l'hétérogénéité des données (continues, discrètes, mixtes...). En effet, les méthodes d'inférence de réseaux classiques sont souvent limitées à un seul type de données. Un deuxième obstacle majeur est la grande dimension, qui se traduit par un nombre de variables supérieur au nombre d'observations. Celle-ci soulève la question de la sélection de variables contribuant aux interactions du réseau biologique. Dans cette thèse, nous proposons l'utilisation d'un modèle à copule Gaussienne pour représenter les données multi-omiques. Celui-ci modélise les dépendances entre les variables observées via une structure Gaussienne latente, paramétrée par une matrice de corrélation qui encode naturellement un réseau. Les propriétés de ce modèle ainsi que de nombreuses méthodes d'inférence des coefficients de corrélation sont connues dans le cas de variables observées continues. Ainsi, nous nous concentrons majoritairement sur l'adaptation du modèle au cas où des variables discrètes sont également présentes. Dans le cas de variables continues, plusieurs méthodes d'estimation des coefficients de corrélation de la copule sont connues. Cette tâche est moins évidente en présence de variables discrètes, et requiert souvent des hypothèses sur la nature des distributions marginales. Nous proposons une méthode d'estimation basée sur le maximum de vraisemblance. Afin d'éviter un coût computationnel élevé, nous considérons une approche par paires. Enfin, nous nous affranchissons de toute hypothèse sur les marginales en nous plaçant dans un cadre semi-paramétrique. Nous étudions également les propriétés d'indépendance du modèle et montrons que les corrélations latentes encodent les dépendances entre les groupes de variables observées. De plus, nous fournissons une interprétation des valeurs extrêmes des coefficients de corrélation, connue précédent dans un cadre exclusivement continu, en présence de variables binaires. Dans un troisième temps, nous proposons d'étudier la structure de corrélations conditionnelles latentes, tout en réalisant une sélection de variables afin de pallier le problème de la grande dimension. Grâce à la structure Gaussienne, il suffit d'inverser la matrice de corrélation. Pour ce faire, nous appliquons une méthode connue d'inversion pénalisée à notre estimateur semi-paramétrique du maximum de vraisemblance par paires. Enfin, nous illustrons notre méthode sur un jeu de données multi-omiques INRAE concernant la fertilité des taureaux à l'aide de notre package R développé dans le cadre de cette thèse.

English version
Title: Multi-omics regulation network inference via the Gaussian copula
The study of multi-omic regulatory networks represents a key challenge in biology. The term multi-omic refers to the different -omic levels of an organism (proteomics, genomics, metabolomics, etc.). Each level holds a particular role in molecular biology processes, and their interaction is responsible for biological reactions in living organisms. Thus, a better understanding of the underlying mechanisms of these networks could, for instance, contribute to improved insights into diseases such as cancer. A first major obstacle is the heterogeneity of the data (continuous, discrete, mixed, etc.). Indeed, classical network inference methods are often limited to a single type of data. A second major obstacle is high dimension, which arises when the number of variables exceeds the number of observations. This raises the issue of variable selection in order to keep only the most important variables in the network. In this thesis, we propose the use of a Gaussian copula model to represent multi-omics data. This model captures the dependencies between observed variables through a latent Gaussian structure, parameterized by a correlation matrix that naturally encodes a network. The properties of this model, as well as many inference methods for correlation coefficients, are well established in the case of continuous observed variables. We therefore focus primarily on adapting the model to the case where discrete variables are also present.  For continuous variables, several methods exist for estimating the copula correlation coefficients. This task is less straightforward in the presence of discrete variables, as it often requires assumptions on the nature of the marginal distributions. We propose a maximum likelihood estimation method. To avoid high computational costs, we adopt a pairwise likelihood approach. Moreover, by adopting a semi-parametric framework, we remove the need for assumptions on the marginal distributions.  We also investigate the independence properties of the model and show that latent correlations encode dependencies between groups of observed variables. Furthermore, we provide an interpretation of the extreme values of correlation coefficients, so far known only in a fully continuous framework, in the presence of binary variables.  In a third step, we propose to study the structure of latent conditional correlations, while performing variable selection to address the high-dimensional setting. Thanks to the Gaussian structure, this task consists in inverting the correlation matrix. To achieve this, we apply a penalized inversion method to our pairwise semi-parametric maximum likelihood estimator.  Finally, we illustrate our methodology on a bull fertility multi-omic dataset from INRAE via our R package, developed as part of this thesis.