Etude bioinformatique de l’épigénome au cours de la différenciation des lymphocytes T et des leucémies

auteurs

  • Belhocine Mohamed

mots-clés

  • LncRNAs
  • Hematopoiesis
  • Leukemia
  • H3K4me3
  • LncRNAs
  • Hématopoïèse
  • Leucémies
  • H3K4me3

type de document

THESE

résumé

Les analyses génomiques à grande échelle ont modifié notre compréhension de l’organisation du génome. En particulier, des études récentes ont mis en évidence qu’au moins 70% du génome humain est transcrit et produit une myriade d’ARN non codants. Parmi eux des classes d’ARN moins bien caractérisées, les longs ARN non codants (ou lncRNA). Bien que la fonction de la grande majorité des lncRNA reste largement inexplorée, il semble que ces transcrits jouent un rôle important dans plusieurs processus physiologiques, telles que la régulation épigénétique de l’expression génique ou la maturation des ARN messagers. De plus, plusieurs travaux récents indiquent qu’ils seraient impliqués dans le développement de pathologies humaines. Cependant, il est difficile de distinguer entre un rôle fonctionnel ou le fait qu'ils soient le reflet d'une séquence régulatrice. En effet, très souvent ils sont produits à partir des séquences régulatrices des gènes codants. Néanmoins, au début de ma thèse j’ai utilisé des données de RNA-Seq sens-spécifique pour identifier les transcrits divergents dans les tissus primaires de souris. J’ai utilisé aussi des données ChIP-Seq afin d’analyser leurs caractéristiques épigénétiques. Nous avons trouvé que la transcription divergente est associée de manière significative à des gènes liés à la régulation de la transcription et le développement. Ces promoteurs présentent des caractéristiques génétiques et épigénétiques uniques. Ces résultats suggèrent fortement un lien fonctionnel entre la transcription divergente et la régulation des gènes codant pour des facteurs de transcription et de développement et ainsi pourraient illustrer un mécanisme supplémentaire pour affiner l'expression des gènes. Cette étude a donné lieu à une publication dont je suis cosignataire en premier auteur. (Lepoivre, Belhocine et al. BMC Genomics 2013) Dans un deuxième temps, je me suis intéressé à l'identification et la caractérisation des lncRNA au cours du développement des lymphocytes T humains et dans les leucémies aigues lymphoblastiques T (LAL-T). Tout d’abord, j’ai identifié des nouveaux lncRNA non annotés dans les bases de données disponibles et défini leurs structures génomiques. Ensuite, et après avoir complété les bases d'annotation avec ses nouveaux lncRNA, j’ai appliqué des approches statistiques pour quantifier leur expression et identifier ceux qui sont (dé)régulés dans un contexte normal ou leucémique en utilisant des données de séquençage à haut débit directionnelles publiques ou produites dans le laboratoire. Dans un troisième temps, je me suis interrogé sur les approches les mieux adaptées permettant de prioritiser les lncRNA ayant un rôle fonctionnelle. En effet, les approches actuelles qui consistent à attribuer un rôle aux lncRNA en fonction des gènes voisins ou co-régulés (culpabilité par association) ne sont pas satisfaisantes. Ainsi j’ai émis l’hypothèse que les données épigénomiques, en particulier les informations qualitatives, pourraient permettre d'identifier les lncRNA les plus relevant dans un contexte biologique normal ou pathologique. Cette hypothèse est basée sur des observations réalisées par le laboratoire et développées au cours de ma thèse. En effet, nous avons relevés un lien direct entre un profil épigénomique particulier (profils H3K4me2/3 élargis) et la fonction des gènes. Ce concept a été récemment repris et validé expérimentalement par d’autres laboratoires. Au cours de ma thèse, je me suis attaché à étudier le mécanisme moléculaire à l'origine de ce marquage épigénomique ainsi qu'à développer un pipeline bioinformatique permettant d'identifier les gènes (codant ou non codant) associés à des profils H3K4me2/3 étendus. Ainsi, j’ai mis en évidences que ces profils étendus étaient directement dépendants d'un processus transcriptionnel impliquant des nouveaux mécanismes de régulation. Cette étude a donné aussi lieu à une publication dont je suis cosignataire en premier auteur. (Zacarias, Belhocine et al. Journal of Immunology 2015). En conséquence, durant la dernière partie de ma thèse, j’ai combiné les données d'expression (RNA-seq) et épigénomique (ChIP-seq) au cours du développement des lymphocytes T humains et dans les LAL-T afin d'identifier les lncRNA dérégulés et associés à un profil H3K4me2/3 étendu et ainsi prioritiser les lncRNA qui auraient la plus forte probabilité de jouer un rôle dans le développement T et/ou dans la leucémogenèse. Ces analyses bioinformatiques nous ont permis de sélectionner certains candidats très prometteurs qui font actuellement l’objet d’une validation expérimentale. Ces résultats font l’objet d’un manuscrit en préparation. Cette nouvelle approche devrait s'avérer très utile dans d'autres modèles développementaux et/ou pathologiques et pourrait être utilisée comme outil de prioritisation des candidats les plus relevant dans des approches plus globales.

article PDF

plus d'information