Modèles multi-couches et méthodes d’exploration de réseaux biologiques

auteurs

  • Baptista Anthony

mots-clés

  • Random walk
  • Multilayer networks
  • Data integration
  • Complex data
  • Biological network
  • Network embedding
  • Marche aléatoire
  • Réseaux multi-couches
  • Intégration de données
  • Données complexes
  • Réseaux biologiques
  • Embedding de réseaux

type de document

THESE

résumé

La quantité de données, ainsi que leur variété et leur hétérogénéité, augmentent, et ce, depuis de nombreuses années. Cette disponibilité des données à grande échelle représente une opportunité sans précédent pour mieux comprendre les systèmes complexes. Parmi les modes de représentation de données, les réseaux apparaissent comme particulièrement couronnés de succès. En effet, il existe une grande variété d’outils provenant de la théorie des graphes pour les explorer et en extraire des connaissances pertinentes. Cependant, l’exploration de grands jeux de données multi-dimensionnelles demeure un déf important dans de nombreux domaines. Par exemple, en bioinformatique, l’étude des systèmes biologiques nécessite parfois l’intégration de dizaines de jeux de données différents. Les réseaux multi-couches apparaissent dans ce contexte comme un outil prometteur pour la représentation et l’analyse de ces données biologiques. L’extension récente des méthodes d’exploration de réseaux permet de tirer profit de ces formalismes multi-couches, plus riches et plus complexes. Par exemple, les marches aléatoires ont été étendues aux réseaux multicouches et sont très utilisées pour explorer la topologie de réseaux à grande échelle. Les marches aléatoires avec restart sont un cas particulier de marches aléatoires. Elles permettent de mesurer une similarité entre un nœud donné et les autres nœuds du réseau. Cette stratégie de marches aléatoires avec restart offre des performances supérieures aux méthodes classiques basées sur des mesures locales, en particulier dans le cas de la prédiction d’associations entre gènes et maladies. Cependant, les méthodes actuelles sont limitées par le nombre et la variété de combinaisons de réseaux qu’elles peuvent explorer. Par conséquent, de nouvelles méthodes analytiques et numériques doivent être développées, afin de faire face à l’augmentation de la diversité et de la complexité des réseaux multi-couches. Dans le cadre de ma thèse, je propose un nouveau formalisme mathématique, associé à une librairie Python nommée MultiXrank, pour intégrer et explorer n’importe quelles combinaisons de réseaux. Le formalisme et l’algorithme sont généraux et conviennent aux réseaux hétérogènes et multiplexes, dirigés ou pondérés. J’ai également appliqué cette nouvelle approche à plusieurs questions biologiques, telles que la priorisation de gènes et de médicaments, candidats pour être impliqués dans différentes pathologies, la prédiction d’associations entre gènes et maladies, ainsi que l’intégration de données de conformation 3D de la chromatine avec des réseaux de gènes et de maladies. Cette dernière application offre de nouvelles pistes pour la détermination des relations de comorbidités. Au cours de ma thèse, je me suis également intéressé à l’extension d’autres méthodes d’analyse aux réseaux multi-couches. Je me suis notamment intéressé à la généralisation de la similarité de Katz aux réseaux multi-couches. J’ai aussi développé une nouvelle approche de détection de communautés. Cette méthode est basée sur les marches aléatoires avec restart et permet d’identifier des clusters de nœuds à partir de réseaux multi-couches. Enfin, je me suis intéressé à l’embedding de réseaux, en particulier au cas des méthodes du type shallow embedding. Dans ce cadre, j’ai réalisé une revue de littérature, littérature soumise à des évolutions constantes et rapides. J’ai aussi développé une méthode d’embedding basée sur MultiXrank qui ouvre la porte de l’embedding à des réseaux multi-couches plus complexes.

article PDF

plus d'information