Projet COPAS : Couplage de données transcriptomiques, protéomique et métabolomiques par une approche systémique
L'objectif principal de ce projet, intitulé COPAS (Couplage Omique Par une Approche Systémique), est de développer une suite d’outils permettant d’explorer de manière systématique les voies du réactome dans différents organismes à partir de données biologiques d’intérêt. Plus précisément, nous visons à identifier si certaines voies biologiques sont significativement enrichies par rapport à des conditions aléatoires, en appliquant des analyses de graphes pour établir des relations entre les gènes d’intérêt. Notre hypothèse principale repose sur le fait que les gènes différentiellement exprimés entre les conditions étudiées seront associés à des voies biologiques spécifiques, dont les enrichissements seront révélateurs de perturbations potentielles des processus biologiques sous la condition étudiée. Les produits finaux du projet comprennent un catalogue de voies enrichies, des représentations graphiques des interactions biologiques, et des outils statistiques permettant d’explorer les relations complexes entre les gènes et les processus biologiques clés. Les résultats attendus incluent l’identification de voies et de processus biologiques majeurs, ainsi que le potentiel de découverte de biomarqueurs ou de cibles thérapeutiques pour des applications futures. Ce projet permettra également d’améliorer les outils bio-informatiques dédiés à l’étude des relations biologiques complexes, contribuant ainsi à enrichir les ressources disponibles pour des recherches futures, en particulier dans le cadre de projets ANR.
pip install igraph
pip install networkx
Le projet repose sur l’analyse et la visualisation du graphe biologique Reactome77, représentant les interactions biologiques humaines sous forme de voies métaboliques. Ce graphe, issu de la base de données Reactome, modélise les relations entre molécules, enzymes et protéines. L’objectif principal est de déterminer les plus courts chemins entre des couples de molécules, d’identifier les molécules clés (hubs) et de réduire les biais introduits par les molécules ubiquitaires. Pour atteindre ces objectifs, le programme est structuré en plusieurs parties, chacun décomposé en tâches spécifiques détaillant les objectifs, les livrables, les contributions des membres de l’équipe, les méthodes employées, ainsi que les risques et solutions de repli.
1- Acquisition des données
Objectifs : Acquérir les jeux de données nécessaires pour les analyses ultérieures et permettre une prise en main progressive des outils.
Programme des travaux : Recherche et utilisation d’un petit jeu de données d’entraînement pour se familiariser avec les outils et les méthodes d’analyse. Acquisition d’un dataset complet et représentatif fourni par Emmanuel Becker dès que possible. Récupération des données transcriptomiques réelles une fois les premières analyses du graphe réalisés.
2- Prise en main des données et exploration des graphes
Objectifs : Analyser et manipuler les graphes issus des datasets en utilisant des bibliothèques comme NetworkX (Python) et des approches algorithmiques variées.
Programme des travaux :
- Exploration des graphes à l’aide de marches aléatoires, de parcours en profondeur et en largeur.
- Prétraitement des données du graphe Reactome77 : Vérification et standardisation des attributs des nœuds et des arêtes.
- Optimisation pour garantir la manipulation efficace de ce réseau complexe.
Livrables : Scripts fonctionnels pour la manipulation et l’exploration des graphes. Graphes normalisés et prêts pour l’analyse détaillée.
3- Analyse des plus courts chemins et extraction des données significatives
Objectifs : Identifier les chemins biologiques critiques et extraire des informations clés sur les molécules centrales du graphe.
Programme des travaux : Calcul des plus courts chemins dans le graphe. Analyse des nœuds les plus visités pour identifier les hubs biologiques. Application d’une méthode de blacklist pour éliminer les molécules ubiquitaires susceptibles de biaiser les résultats. Intégration des données transcriptomiques pour une analyse croisée.
Livrables : Résultats des analyses des plus courts chemins. Histogrammes et graphiques illustrant les fréquences de passage par les nœuds. Jeu de données normalisé et prêt pour l’interprétation biologique.
Ce projet a été déposé sur ce dépôt Git, incluant tous les scripts fonctionnels et documentés ainsi que les jeux de données normalisés.
- Beust, C., Becker, E., Théret, N., & Dameron, O. (2024). BioPAX in 2024: Where we are and where we are heading. Computational and Structural Biotechnology Journal, 23, 3999–4010. https://doi.org/10.1016/j.csbj.2024.10.045
- Demir, E., Cary, M. P., Paley, S., Fukuda, K., Lemer, C., Vastrik, I., Wu, G., D’Eustachio, P., Schaefer, C., Luciano, J., Schacherer, F., Martinez-Flores, I., Hu, Z., Jimenez-Jacinto, V., Joshi-Tope, G., Kandasamy, K., Lopez-Fuentes, A. C., Mi, H., Pichler, E., … Bader, G. D. (2010). The BioPAX community standard for pathway data sharing. Nature Biotechnology, 28(9), 935–942. https://doi.org/10.1038/nbt.1666
- Jassal, B., Matthews, L., Viteri, G., Gong, C., Lorente, P., Fabregat, A., Sidiropoulos, K., Cook, J., Gillespie, M., Haw, R., Loney, F., May, B., Milacic, M., Rothfels, K., Sevilla, C., Shamovsky, V., Shorser, S., Varusai, T., Weiser, J., … D’Eustachio, P. (2020). The reactome pathway knowledgebase. Nucleic Acids Research, 48(D1), D498–D503. https://doi.org/10.1093/nar/gkz1031
- Yue, Z. (2017). PAGER 2.0: An update to the pathway, annotated-list and gene-signature electronic repository for Human Network Biology. Nucleic Acids Research. https://www.academia.edu/86249455/PAGER_2_0_an_update_to_the_pathway_annotated_list_and_gene_signature_electronic_repository_for_Human_Network_Biology
- Csardi, G., & Nepusz, T. (2006). The igraph software package for complex network research. InterJournal, Complex Systems, 1695.
Ce projet COPAS a été réalisé par les étudiants du Master 2 Bioinformatique dans le cadre de l'UE NET : Axel Bonasteve, Valentin Goupille, Flavie Morvan, Fabien Romano, Mareme Sarr et Sirine Oueida. Avec une collaboration avec Emmanuelle Becker et Olivier Dameron du laboratoire INRIA-IRISA, ainsi que Florence Gondret du laboratoire INRAE-PEGASE. Ce projet a été présenté le 22 décembre 2024, avec Emmanuelle Becker en tant que membre du jury.