Transipedia : projet pour l’exploration de séquences à grande échelle et application pour le cancer
RNA-seq,
Transcriptomique,
Bioinformatique,
Cancer.
ARNs non-codants.
Chloé Bessière Therese Commes, Daniel Gautheret – Equipe R’nBlood – Biologie des ARN dans les Tumeurs Hématologiques
L’objectif principal de Transipedia est de rendre accessible des milliers de jeux de données RNA-seq et d’obtenir rapidement le profil d’expression de n’importe quelle séquence dans ces jeux de données : variant d’épissage, fusion, mutation, ARN non-codant, etc. Les données de RNA-seq étant très volumineuses, ce n’est pas si facile qu’il n’y paraît. A titre d’exemple, si on prend 1000 fichiers de RNA-seq, cela représente ~10 fois la taille de Genbank. Les outils tels que Blast sont donc hors course et c’est là que les index de k-mers comme Reindeer entrent en jeu. Ces index sont 15-40 fois plus petits que les fichiers d’origine (fastq.gz) et ils permettent la requête de 10aines de séquences/seconde. Le cas d’étude principal de notre projet est l’expression d’ARNs non-référencés dans les annotations et nous avons montré sur le jeu de données CCLE (@DepMapSanger) que nous pouvions quantifier précisément des mutations et fusions à partir de «sondes» spécifiques.our la CDA (microscopie électronique).
Transipedia devrait permettre aux cliniciens et biologistes d’explorer des données RNA-seq de patients rapidement et de quantifier des événements transcriptionnels ciblés tels que l’expression d’un biomarqueur, questions qui ne pouvaient être adressées que par des pipelines complexes.
Les perspectives principales de ce travail sont (i) une mise à disposition, auprès de la communauté scientifique, d’un nombre croissant de jeux de données publics de RNA-seq et (ii) la création d’une encyclopédie de séquences requêtes («sondes») des altérations principales dans de nombreux cancers (panel de mutations / fusions).
Vous pouvez jouer avec Transipedia et vos séquences ici : https://transipedia.org et vous inspirer de nos exemples :
https://github.com/Transipedia/Reindeer-use-cases
Découvrir l’article publié
Genome Biol. 2024 Oct 10;25(1):266.doi: 10.1186/s13059-024-03413-5.PMID: 39390592 PMCID: PMC11468207 DOI: 10.1186/s13059-024-03413-5
Chloé Bessière, Haoliang Xue, Benoit Guibert, Anthony Boureux, Florence Rufflé, Julien Viot, Rayan Chikhi, Mikaël Salson, Camille Marchet, Thérèse Commes, Daniel Gautheret
Transipedia.org: k-mer-based exploration of large RNA sequencing datasets and application to cancer data
Collaborations et partenariats
Collaborations principales :
équipe Bio2m – Pr. T COMMES (IRMB, Montpellier), Dr. D GAUTHERET (I2BC, Paris-Saclay), Dr. C MARCHET (CRIStAL, Université de Lille), Dr. R CHIKHI (Pasteur, Paris)
Financeurs :
- Agence Nationale de la Recherche (ANR-18-CE45-0020, ANR-22-CE45-0007, ANR-19-CE45-0008, PIA/ANR16-CONV-0005, ANR-19-P3IA-0001)
- Immun4Cure IHU “Institute for innovative immunotherapies in autoimmune diseases”
- European Union’s Horizon 2020 research and innovation program, Marie Skłodowska-Curie grant
- Fondation de France
Centre de Recherches contre le Cancer de Toulouse (Oncopole)
Toulouse - FR
Nous contacter
+33 5 82 74 15 75
Nous rejoindre ?