Aller au contenu

Transcriptomique

Un article de Wikipédia, l'encyclopédie libre.

La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Le contenu informatif d'un organisme est enregistré dans l'ADN de son génome et exprimé par la transcription. L'ARNm sert de molécule intermédiaire transitoire dans le réseau d'information, tandis que les ARN non codants remplissent d'autres fonctions diverses. Un transcriptome capture un instantané dans le temps de l'ensemble des transcrits présents dans une cellule. La transcriptomique permet de savoir quels processus cellulaires sont actifs et lesquels sont dormants. L'un des principaux défis de la biologie moléculaire est de comprendre comment un génome unique donne naissance à une variété de cellules. Un autre défi est de savoir comment l'expression des gènes est régulée.

Les premières tentatives d'étude des transcriptomes entiers ont commencé au début des années 1990. Les avancées technologiques qui ont suivi depuis la fin des années 1990 ont transformé le domaine à plusieurs reprises et ont fait de la transcriptomique une discipline très répandue dans les sciences biologiques. Il existe deux techniques contemporaines clés dans ce domaine : les puces à ADN, qui quantifient un ensemble de séquences prédéterminées, et le séquençage de l'ARN, qui utilise le séquençage à haut débit pour enregistrer tous les transcrits. Au fur et à mesure que la technologie s'est améliorée, le volume de données produites par chaque expérience sur le transcriptome a augmenté. En conséquence, les méthodes d'analyse des données ont été régulièrement adaptées pour analyser de manière plus précise et plus efficace des volumes de données de plus en plus importants. Les bases de données transcriptomiques se sont donc enrichies et sont devenues de plus en plus utiles au fur et à mesure que les chercheurs continuaient à collecter et à partager des transcriptomes. Il serait presque impossible d'interpréter les informations contenues dans un transcriptome sans la connaissance des expériences précédentes.

La mesure de l'expression des gènes d'un organisme dans différents tissus ou conditions, ou à différents moments, fournit des informations sur la manière dont les gènes sont régulés et révèle des détails de la biologie d'un organisme. Elle peut également être utilisée pour déduire les fonctions de gènes qui n'avaient pas été annotés (en) auparavant. L'analyse du transcriptome a permis d'étudier la façon dont l'expression des gènes change dans différents organismes et a joué un rôle déterminant dans la compréhension des maladies humaines. L'analyse de l'expression des gènes dans son intégralité permet de détecter des tendances générales coordonnées qui ne peuvent être discernées par des tests plus ciblés.

Articles publiés faisant référence à l'ARN-seq (noir), au puces à ADN (rouge), à l'affichage différentiel numérique (vert), à l'étiquette de séquence exprimée (bleu) et à l'analyse sérielle/cap de l'expression des gènes (jaune) de 1990 à 2017[1].

La transcriptomique a été marquée par une évolution technologique rapide, avec l'émergence de nouvelles techniques tous les dix ans environ, repoussant sans cesse les limites du possible et rendant obsolètes les technologies précédentes. La première tentative de saisie d'un transcriptome humain partiel a été publiée en 1991 et faisait état de 609 séquences d'ARNm provenant du cerveau humain[2]. En 2008, deux transcriptomes humains, composés de millions de séquences dérivées de transcriptions couvrant 16 000 gènes, ont été publiés[3],[4] et en 2015, des transcriptomes avaient été publiés pour des centaines d'individus[5],[6]. Des transcriptomes de différents états pathologiques, de tissus ou même de cellules uniques sont désormais régulièrement générés[6],[7],[8]. Cette explosion de la transcriptomique est due au développement rapide de nouvelles technologies plus sensibles et plus économiques[9],[10],[11],[12].

Avant la transcriptomique

[modifier | modifier le code]

Des études de transcrits (en) individuels étaient réalisées plusieurs décennies avant l'apparition des approches transcriptomiques. À la fin des années 1970, des banques (en) de transcrits d'ARNm de ver à soie ont été collectées et converties en ADN complémentaire (ADNc) pour être stockées par transcriptase inverse[13]. Dans les années 1980, le séquençage à bas débit par la méthode de Sanger (en) a permis de séquencer des transcrits aléatoires, produisant ainsi des marqueurs de séquence exprimée (MSE)[2],[14],[15],[16]. La méthode de Sanger a été prédominante jusqu'à l'avènement des méthodes à haut débit telles que le séquençage par synthèse (en) (Solexa/Illumina). Les MSE ont pris de l'importance dans les années 1990, car elles constituaient une méthode efficace pour déterminer le contenu génétique d'un organisme sans séquencer l'intégralité du génome[16]. Les quantités de transcriptions individuelles ont été quantifiées à l'aide de méthodes de transfert d'acide ribonucléique, et plus tard, de réaction en chaîne par polymérase quantitative à transcriptase inverse (RT-qPCR)[17],[18], mais ces méthodes sont laborieuses et ne peuvent capturer qu'une infime sous-section d'un transcriptome[12]. Par conséquent, la manière dont un transcriptome dans son ensemble est exprimé et régulé est restée inconnue jusqu'à ce que des techniques à plus haut débit soient développées.

Premières tentatives

[modifier | modifier le code]

Le mot « transcriptome » a été utilisé pour la première fois dans les années 1990[19]. En 1995, l'une des premières méthodes transcriptomiques basées sur le séquençage a été mise au point, l'analyse en série de l'expression des gènes (SAGE), qui repose sur le séquençage Sanger de fragments de transcription aléatoires concaténés[20],[21]. Les transcrits sont quantifiés en faisant correspondre les fragments à des gènes connus. Une variante de SAGE utilisant des techniques de séquençage à haut débit, appelée analyse numérique de l'expression génique, a également été brièvement utilisée[22]. Toutefois, ces méthodes ont été largement dépassées par le séquençage à haut débit de transcrits entiers, qui a fourni des informations supplémentaires sur la structure des transcrits, telles que les variantes d'épissage[9].

Développement de techniques contemporaines

[modifier | modifier le code]
Comparaison des méthodes contemporaines[23],[24],[10]
ARN-Seq Puce à ADN
Throughput 1 jour à 1 semaine par expérience[10] 1 à 2 jours par expérience[10]
Quantité d'ARN initiale (en) Faible ~ 1 ng d'ARN total[25] Élevé ~ 1 μg d'ARNm[26]
Intensité du travail Élevé (préparation des échantillons et analyse des données)[23],[27] Faible[23],[27]
Connaissances préalables Aucune n'est requise, bien qu'une séquence de génome/transcriptome de référence soit utile[23] Le génome/transcriptome de référence est requis pour la conception des sondes[23]
Précision de la quantification ~90 % (limité par la couverture de la séquence)[28] > 90 % (limité par la précision de détection de fluorescence)[28]
Résolution de séquence L'ARN-Seq peut détecter les SNP et les variantes d'épissage (limité par la précision du séquençage d'environ 99 %)[28] Des matrices spécialisées peuvent détecter les variantes d'épissage de l'ARNm (limitées par la conception de la sonde et l'hybridation croisée)[28]
Sensibilité 1 transcription par million (approximatif, limité par la couverture de la séquence)[28] 1 transcription pour mille (approximatif, limité par la détection de fluorescence)[28]
Plage dynamique 100,000:1 (limité par la couverture de la séquence)[29] 1,000:1 (limité par la saturation de fluorescence)[29]
Reproductibilité technique >99%[30],[31] >99%[32],[33]

Les techniques contemporaines dominantes, les puces à ADN et le séquençage de l'ARN, ont été développées au milieu des années 1990 et 2000[9],[34]. Les puces à ADN, qui mesurent l'abondance d'un ensemble défini de transcrits par hybridation (en) à un réseau de sondes (en) complémentaires, ont été publiées pour la première fois en 1995[35],[36]. La technologie des puces à ADN a permis de tester simultanément des milliers de transcrits, à un coût par gène et en main-d'œuvre considérablement réduits[37]. Les puces à ADN à points et les puces à haute densité Affymetrix ont été les méthodes de choix pour le profilage transcriptionnel jusqu'à la fin des années 2000[12],[34]. Durant cette période, une gamme de puces à ADN a été produite pour couvrir des gènes connus dans des organismes modèles ou d'importance économique. Les progrès dans la conception et la fabrication des puces ont amélioré la spécificité des sondes et ont permis de tester davantage de gènes sur une seule puce. Les progrès dans la détection par fluorescence ont augmenté la sensibilité et la précision des mesures pour les transcrits de faible abondance[36],[38].

Le séquençage de l'ARN est réalisé par transcription inverse de l'ARN in vitro et séquençage des ADNc obtenus[10]. L'abondance des transcrits est déduite du nombre de comptes de chaque transcrit. Cette technique a donc été fortement influencée par le développement des technologies de séquençage à haut débit[9],[11]. Le séquençage de signatures massivement parallèles (en) (SSMP) en est un exemple précoce, basé sur la génération de séquences de 16 à 20 paire de bases via une série complexe d'hybridations[39], et a été utilisé en 2004 pour valider l'expression de dix mille gènes chez Arabidopsis thaliana[40]. Les premiers travaux sur le séquençage de l'ARN ont été publiés en 2006, avec cent mille transcrits séquencés grâce à la technologie 454[41]. Cette couverture était suffisante pour quantifier l'abondance relative des transcrits. Le séquençage de l'ARN a commencé à gagner en popularité après 2008, lorsque les nouvelles technologies Solexa/Illumina ont permis d'enregistrer un milliard de séquences de transcrits[4],[10],[42],[43]. Ce rendement permet désormais la quantification et la comparaison des transcriptomes humains[4].

Collecte de données

[modifier | modifier le code]

La génération de données sur les transcrits d'ARN peut être réalisée selon deux principes principaux : le séquençage de transcrits individuels (EST ou ARN-Seq) ou l'hybridation de transcrits à un réseau ordonné de sondes nucléotidiques (microarrays)[44].

Isolement de l'ARN

[modifier | modifier le code]

Toutes les méthodes transcriptomiques nécessitent l'isolement préalable de l'ARN de l'organisme expérimental avant l'enregistrement des transcrits. Bien que les systèmes biologiques soient extrêmement diversifiés, les techniques d'extraction de l'ARN (en) sont globalement similaires et impliquent la rupture mécanique des cellules (en) ou des tissus[36], la rupture de la ribonucléase par des sels chaotropiques[45], la rupture des macromolécules et des complexes nucléotidiques, la séparation de l'ARN des biomolécules indésirables, dont l'ADN, et la concentration de l'ARN par précipitation en solution ou élution à partir d'une matrice solide[45],[46]. L'ARN isolé peut également être traité par la désoxyribonucléase pour digérer toute trace d'ADN[47]. Il est nécessaire d'enrichir l'ARN messager, car les extraits d'ARN total sont généralement composés à 98 % d'acide ribonucléique ribosomique[48]. L'enrichissement des transcrits peut être réalisé par des méthodes d'affinité poly-A ou par déplétion de l'ARN ribosomique à l'aide de sondes spécifiques de séquence[36]. L'ARN dégradé peut affecter les résultats en aval ; Par exemple, l'enrichissement en ARNm à partir d'échantillons dégradés entraînera l'épuisement des extrémités 5' de l'ARNm et un signal irrégulier sur toute la longueur du transcrit. La congélation rapide des tissus avant l'isolement de l'ARN est courante, et une attention particulière est portée à la réduction de l'exposition aux enzymes RNase une fois l'isolement terminé[45].

Marqueur de séquence exprimée

[modifier | modifier le code]

Un marqueur de séquence exprimée (MSE) est une courte séquence nucléotidique générée à partir d'un seul transcrit d'ARN. L'ARN est d'abord copié sous forme d'ADN complémentaire (ADNc) par une enzyme transcriptase inverse avant que l'ADNc résultant ne soit séquencé[16]. Les MSE pouvant être collectées sans connaissance préalable de l'organisme dont elles proviennent, elles peuvent être fabriquées à partir de mélanges d'organismes ou d'échantillons environnementaux[16]. Bien que des méthodes à haut débit soient désormais utilisées, les bibliothèques de MSE fournissaient couramment des informations de séquence pour les premières conceptions de puces à ADN ; par exemple, une puce à ADN d'orge a été conçue à partir de 350 000 MSE précédemment séquencés[49].

Analyse en série de l'expression des gènes

[modifier | modifier le code]
Résumé de SAGE. Dans les organismes, les gènes sont transcrits et épissés (chez les eucaryotes) pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme et la transcriptase inverse est utilisée pour le copier en ADNc double brin stable (ADNc double brin ; bleu). Dans SAGE, l'ADNc double brin est digéré par des enzymes de restriction (aux emplacements « X » et « X +11 ») pour produire des fragments « tags » de 11 nucléotides. Ces tags sont concaténées et séquencées par séquençage Sanger à lecture longue (les différentes nuances de bleu indiquent les étiquettes de différents gènes). Les séquences sont déconvoluées pour déterminer la fréquence de chaque étiquette. Cette fréquence permet d'évaluer la transcription du gène dont elle provient[50].

L'analyse sériée de l'expression génique (SAGE) est une évolution de la méthodologie MSE visant à accroître le débit des marqueurs générés et à quantifier l'abondance des transcrits[21]. L'ADNc est généré à partir de l'ARN, puis digéré en fragments « marqueurs » de 11 paire de bases à l'aide d'enzymes de restriction qui coupent l'ADN au niveau d'une séquence spécifique et de 11 paire de bases à partir de cette séquence. Ces marqueurs d'ADNc sont ensuite assemblés tête-bêche en longs brins (> 500 paire de bases) et séquencés à l'aide de méthodes à faible débit, mais à lecture longue, comme le séquençage de Sanger. Les séquences sont ensuite redécoupées en leurs marqueurs d'origine de 11 paire de base à l'aide d'un logiciel, selon un processus appelé déconvolution[21]. Si un génome de référence (en) de haute qualité est disponible, ces marqueurs peuvent être appariés au gène correspondant dans le génome. En l'absence de génome de référence, les marqueurs peuvent être utilisés directement comme marqueurs de diagnostics s'ils présentent une expression différentielle (en) dans une maladie[21].

La méthode d'analyse de l'expression génique par cap-analyse (en) (CAGE) est une variante de la méthode SAGE qui séquence les marqueurs uniquement à partir de l'extrémité 5' d'un transcrit d'ARNm[51]. Par conséquent, le site d'initiation de la transcription des gènes peut être identifié lorsque les marqueurs sont alignés sur un génome de référence. L'identification des sites d'initiation des gènes est utile pour l'analyse des promoteurs et le clonage (en) d'ADNc complets.

Les méthodes SAGE et CAGE produisent des informations sur davantage de gènes que le séquençage de MSE uniques, mais la préparation des échantillons et l'analyse des données sont généralement plus laborieuses[51].

Puce à ADN

[modifier | modifier le code]
Résumé des puces à ADN. Chez les organismes, les gènes sont transcrits et épissés (chez les eucaryotes) pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme et la transcriptase inverse est utilisée pour le copier en ADNc double brin stable (bleu). Dans les puces à ADN, l'ADNc double brin est fragmenté et marqué par fluorescence (orange). Les fragments marqués se lient à un réseau ordonné d'oligonucléotides complémentaires, et la mesure de l'intensité de la fluorescence sur le réseau indique l'abondance d'un ensemble prédéterminé de séquences. Ces séquences sont généralement choisies spécifiquement pour identifier les gènes d'intérêt au sein du génome de l'organisme[50].

Principes et avancées

[modifier | modifier le code]

Les puces à ADN sont généralement constituées d'une grille de courts oligonucléotides, appelés « sondes », généralement disposés sur une lame de verre. L'abondance des transcrits est déterminée par l'hybridation de transcrits marqués par fluorescence à ces sondes. L'intensité de fluorescence à chaque emplacement de sonde sur la puce indique l'abondance des transcrits pour cette séquence[52]. Les groupes de sondes conçus pour mesurer le même transcrit (c'est-à-dire l'hybridation d'un transcrit spécifique à différentes positions) sont généralement appelés « ensembles de sondes »[53].

Les puces à ADN nécessitent des connaissances génomiques sur l'organisme d'intérêt, par exemple sous la forme d'une séquence génomique annotée ou d'une bibliothèque de MSE pouvant être utilisée pour générer les sondes pour la puce[53].

Les puces à ADN utilisées en transcriptomique se répartissent généralement en deux grandes catégories : les puces à ADN spottées à faible densité et les puces à ADN courte à haute densité. L’abondance des transcrits est déduite de l’intensité de la fluorescence des transcrits marqués par un fluorophore qui se lient à la puce[37].

Les puces à ADN spottées à faible densité contiennent généralement des gouttes de l’ordre du picolitre d’ADNc purifiés est disposés sur la surface d’une lame de verre[53]. Ces sondes sont plus longues que celles des puces à ADN haute densité et ne permettent pas d’identifier les épissages alternatifs. Les puces à ADN spottées utilisent deux fluorophores différents pour marquer les échantillons test et témoin, et le rapport de fluorescence est utilisé pour calculer une mesure relative de l’abondance[53]. Les puces à ADN haute densité utilisent un seul marqueur fluorescent, et chaque échantillon est hybridé et détecté individuellement[54]. Les puces à haute densité ont été popularisées par la puce Affymetrix GeneChip, où chaque transcrit est quantifié par plusieurs sondes courtes de 25-mères qui, ensemble, analysent un gène[55].

Les puces NimbleGen étaient des puces à haute densité produites par une méthode de photochimie sans masque, ce qui permettait une fabrication flexible de puces en petites ou grandes quantités. Ces puces comportaient des centaines de milliers de sondes de 45 à 85-mères et étaient hybridées avec un échantillon marqué d'une seule couleur pour l'analyse de l'expression[53]. Certaines conceptions incorporaient jusqu'à 12 puces indépendantes par lame.

Résumé du séquençage ARNseq. Chez les organismes, les gènes sont transcrits et épissés (chez les eucaryotes) pour produire des transcrits d'ARNm matures (rouge). L'ARNm est extrait de l'organisme, fragmenté et copié en ADNc double brin stable (bleu). L'ADNc double brin est séquencé par des méthodes de séquençage à haut débit et à lecture courte. Ces séquences peuvent ensuite être alignées sur une séquence génomique de référence afin de reconstituer les régions génomiques en cours de transcription. Ces données peuvent être utilisées pour annoter l'emplacement des gènes exprimés, leurs niveaux d'expression relatifs et toute variante d'épissage alternative[50].

Principes et avancés

[modifier | modifier le code]

Le séquençage de l'ARN (ARN-Seq) combine une méthodologie de séquençage à haut débit avec des méthodes informatiques pour capturer et quantifier les transcrits présents dans un extrait d'ARN[10]. Les séquences nucléotidiques générées mesurent généralement environ 100 pb, mais peuvent varier de 30 pb à plus de 10 000 pb selon la méthode de séquençage utilisée. Le séquençage de l'ARN s'appuie sur un échantillonnage approfondi du transcriptome, composé de nombreux fragments courts, pour permettre la reconstruction informatique du transcrit d'ARN original en alignant les lectures sur un génome de référence ou entre elles (assemblage de novo)[36],[9]. Les ARN, qu'ils soient peu ou très abondants, peuvent être quantifiés lors d'une expérience de séquençage de l'ARN (plage dynamique de 5 ordres de grandeur), ce qui constitue un avantage majeur par rapport aux transcriptomes sur puces à ADN. De plus, les quantités d'ARN d'entrée sont bien plus faibles pour l'ARN-Seq (quantité de l'ordre du nanogramme) que pour les puces à ADN (quantité de l'ordre du microgramme), ce qui permet l'examen du transcriptome même à une résolution unicellulaire lorsqu'il est combiné à l'amplification d'ADNc[56],[57]. Théoriquement, il n'existe pas de limite supérieure de quantification pour le RNA-Seq, et le bruit de fond est très faible pour les lectures de 100 pb dans les régions non répétitives[10].

Le RNA-Seq peut être utilisé pour identifier les gènes d'un génome, ou identifier les gènes actifs à un instant T, et le nombre de lectures peut servir à modéliser avec précision le niveau relatif d'expression des gènes. La méthodologie du RNA-Seq a constamment progressé, principalement grâce au développement des technologies de séquençage de l'ADN pour augmenter le débit, la précision et la longueur des lectures[58]. Depuis les premières descriptions en 2006 et 2008[41], le séquençage de l'ARN a été rapidement adopté et a supplanté les puces à ADN comme technique transcriptomique dominante en 2015[36].

La quête de données transcriptomiques à l'échelle des cellules individuelles a permis des avancées dans les méthodes de préparation de banques de séquençage de l'ARN, entraînant des avancées spectaculaires en termes de sensibilité. Les transcriptomes unicellulaires sont désormais bien décrits et ont même été étendus au séquençage de l'ARN in situ, où les transcriptomes de cellules individuelles sont directement intégrés dans des tissus fixés[59].

Le séquençage de l'ARN a été développé parallèlement au développement rapide de diverses technologies de séquençage de l'ADN à haut débit[60]. Cependant, avant le séquençage des transcrits d'ARN extraits, plusieurs étapes clés de traitement sont réalisées. Les méthodes diffèrent quant à l'utilisation de l'enrichissement, de la fragmentation, de l'amplification, du séquençage simple ou apparié des transcrits, et quant à la préservation ou non des informations sur les brins[60].

La sensibilité d'une expérience de séquençage de l'ARN peut être accrue en enrichissant les classes d'ARN d'intérêt et en épuisant les ARN connus comme abondants. Les molécules d'ARNm peuvent être séparées à l'aide de sondes oligonucléotidiques qui lient leurs queues poly-A. Alternativement, la ribodéplétion peut être utilisée pour éliminer spécifiquement les ARN ribosomiques (ARNr) abondants mais non informatifs par hybridation avec des sondes adaptées aux séquences d'ARNr spécifiques du taxon (par exemple, ARNr de mammifère, ARNr de plante). Cependant, la ribodéplétion peut également introduire un biais via une déplétion non spécifique de transcrits hors cible[61]. Les petits ARN, tels que les micro-ARN, peuvent être purifiés en fonction de leur taille par électrophorèse sur gel et extraction.

Les ARNm étant plus longs que les longueurs de lecture des méthodes classiques de séquençage à haut débit, les transcrits sont généralement fragmentés avant le séquençage[62]. La fragmentation est un aspect clé de la construction d'une bibliothèque de séquençage. La fragmentation peut être réalisée par hydrolyse chimique, nébulisation, sonication ou transcription inverse avec des nucléotides de terminaison de chaîne[62]. Alternativement, la fragmentation et le marquage de l'ADNc peuvent être réalisés simultanément à l'aide d'enzymes transposases[63].

Lors de la préparation au séquençage, les copies d'ADNc des transcrits peuvent être amplifiées par PCR afin d'enrichir les fragments contenant les séquences adaptatrices 5' et 3' attendues[64]. L'amplification est également utilisée pour le séquençage de très faibles quantités d'ARN, jusqu'à 50 pg dans les applications extrêmes[65]. Des contrôles d'ARN connus peuvent être utilisés pour le contrôle qualité afin de vérifier la préparation et le séquençage de la bibliothèque, en termes de teneur en GC, de longueur des fragments, ainsi que de biais dû à leur position dans un transcrit[66]. Les identifiants moléculaires uniques (IMU) sont de courtes séquences aléatoires utilisées pour marquer individuellement les fragments de séquence lors de la préparation de la bibliothèque, afin que chaque fragment marqué soit unique[67]. Les IMU fournissent une échelle absolue pour la quantification, la possibilité de corriger les biais d'amplification ultérieurs introduits lors de la construction de la bibliothèque et d'estimer avec précision la taille initiale de l'échantillon. Les UMI sont particulièrement adaptés à la transcriptomique du séquençage d'ARN unicellulaire, où la quantité d'ARN d'entrée est limitée et où une amplification étendue de l'échantillon est nécessaire[68],[69],[70].

Une fois les molécules de transcription préparées, elles peuvent être séquencées dans une seule direction (single-end) ou dans les deux directions (paired-end). Une séquence simple est généralement plus rapide à produire, moins coûteuse que le séquençage paired-end et suffisante pour quantifier l'expression génique. Le séquençage paired-end produit des alignements/assemblages plus robustes, ce qui est bénéfique pour l'annotation des gènes et la découverte des isoformes de transcription[10]. Les méthodes d'ARN-Seq spécifiques à un brin préservent les informations sur le brin d'une transcription séquencée[71]. Sans ces informations, les lectures peuvent être alignées sur un locus génétique, mais n'indiquent pas dans quelle direction le gène est transcrit. Le séquençage d'ARN-Seq brined est utile pour déchiffrer la transcription de gènes qui se chevauchent dans différentes directions et pour établir des prédictions génétiques plus robustes chez des organismes non modèles[71].

Plateformes technologiques de séquençage couramment utilisées pour l'ARN-Seq[72],[73]
Plate-forme Sortie commerciale Longueur de lecture typique Débit maximal par exécution Précision de lecture unique Séquences d'ARN-Seq déposées auprès du NCBI SRA (octobre 2016)[74]
454 Life Sciences 2005 700 pb 0.7 Gpb 99.9% 3548
Illumina 2006 50–300 pb 900 Gpb 99.9% 362903
SOLiD 2008 50 pb 320 Gpb 99.9% 7032
Ion Torrent 2010 400 pb 30 Gpb 98% 1953
PacBio 2011 10,000 pb 2 Gpb 87% 160

Légende : NCBI SRA – Archives de lecture de séquences d'informations du Centre national d'information sur la biotechnologie.

Actuellement, le séquençage de l'ARN repose sur la copie des molécules d'ARN dans des molécules d'ADNc avant le séquençage ; les plateformes ultérieures sont donc les mêmes pour les données transcriptomiques et génomiques. Par conséquent, le développement des technologies de séquençage de l'ADN a été une caractéristique déterminante du séquençage de l'ARN[73],[75],[76]. Le séquençage direct de l'ARN par nanopores représente une technique de pointe en matière de séquençage de l'ARN[77],[78]. Le séquençage de l'ARN par nanopores permet de détecter des bases modifiées qui seraient autrement masquées lors du séquençage de l'ADNc et élimine également les étapes d'amplification susceptibles d'introduire des biais[79],[11].

La sensibilité et la précision d'une expérience de séquençage de l'ARN dépendent du nombre de lectures obtenues à partir de chaque échantillon[80],[81]. Un grand nombre de lectures est nécessaire pour assurer une couverture suffisante du transcriptome, permettant la détection de transcrits peu abondants. La conception expérimentale est encore compliquée par les technologies de séquençage à portée de sortie limitée, l'efficacité variable de la création de séquences et leur qualité. À cela s'ajoute le fait que chaque espèce possède un nombre de gènes différent et nécessite donc un rendement de séquence adapté pour un transcriptome efficace. Les premières études ont déterminé empiriquement des seuils appropriés, mais à mesure que la technologie a mûri, une couverture adéquate a été prédite informatiquement par la saturation du transcriptome. De manière quelque peu contre-intuitive, le moyen le plus efficace d'améliorer la détection de l'expression différentielle dans les gènes à faible expression est d'ajouter davantage de réplicats biologiques plutôt que davantage de lectures[82]. Les critères de référence actuels recommandés par le projet ENCODE (Encyclopedia of DNA Elements) sont une couverture exomique de 70 fois pour le séquençage d'ARN standard et jusqu'à 500 fois pour la détection de transcrits et d'isoformes rares[83],[84],[85].

Analyse des données

[modifier | modifier le code]

Les méthodes transcriptomiques sont hautement parallèles et nécessitent des calculs importants pour produire des données pertinentes, tant pour les expériences de microarray que de séquençage d'ARN[86],[87],[88],[89],[90]. Les données de microarray sont enregistrées sous forme d'images haute résolution, nécessitant une détection de caractéristiques et une analyse spectrale[91]. Les fichiers d'images brutes de microarray font environ 750 Mo chacun, tandis que les intensités traitées sont d'environ 60 Mo. Plusieurs sondes courtes correspondant à un même transcrit peuvent révéler des détails sur la structure intron-exon, ce qui nécessite des modèles statistiques pour déterminer l'authenticité du signal obtenu. Les études de séquençage d'ARN produisent des milliards de courtes séquences d'ADN, qui doivent être alignées sur des génomes de référence composés de millions, voire de milliards de paires de bases. L'assemblage de novo des lectures au sein d'un ensemble de données nécessite la construction de graphes de séquences très complexes[92]. Les opérations de séquençage d'ARN sont très répétitives et bénéficient d'un calcul parallélisé. Cependant, grâce aux algorithmes modernes, le matériel informatique grand public est suffisant pour des expériences de transcriptomique simples qui ne nécessitent pas d'assemblage de novo de lectures[93]. Un transcriptome humain pourrait être capturé avec précision grâce au séquençage d'ARN avec 30 millions de séquences de 100 pb par échantillon[80],[81]. Cet exemple nécessiterait environ 1,8 gigaoctet d'espace disque par échantillon s'il était stocké au format FASTQ compressé. Les données de comptage traitées pour chaque gène seraient beaucoup plus petites, équivalentes aux intensités traitées des puces à ADN. Les données de séquence peuvent être stockées dans des référentiels publics, tels que Sequence Read Archive (SRA)[94]. Les ensembles de données de séquençage d'ARN peuvent être téléchargés via Gene Expression Omnibus (GEO)[95].

Traitement d'image

[modifier | modifier le code]
Puce à ADN et cellule de séquençage à flux. Les puce à ADN et le séquençage d'ARN reposent sur l'analyse d'images de différentes manières. Dans une puce à ADN, chaque spot est une sonde oligonucléotidique définie, et l'intensité de fluorescence détecte directement l'abondance d'une séquence spécifique (Affymetrix). Dans une cellule de séquençage à flux à haut débit, les spots sont séquencés nucléotide par nucléotide, la couleur à chaque tour indiquant le nucléotide suivant dans la séquence (Illumina Hiseq). D'autres variantes de ces techniques utilisent plus ou moins de canaux de couleur[50],[96].

Le traitement des images de puce d'ADN doit permettre d'identifier correctement la grille régulière de spots dans une image et de quantifier indépendamment l'intensité de fluorescence pour chaque spot. Les artéfacts d'image doivent également être identifiés et éliminés de l'analyse globale. Les intensités de fluorescence indiquent directement l'abondance de chaque séquence, puisque la séquence de chaque sonde sur le réseau est déjà connue[97].

Les premières étapes de l'ARN-seq comprennent également un traitement d'image similaire ; toutefois, la conversion des images en données de séquence est généralement gérée automatiquement par le logiciel de l'instrument. La méthode de séquençage par synthèse d'Illumina produit un réseau de grappes réparties sur la surface d'une Flow Cell[98], qui est imagée jusqu'à quatre fois au cours de chaque cycle de séquençage, avec des dizaines ou des centaines de cycles au total. Les grappes de cellules de flux sont analogues aux taches des microréseaux et doivent être correctement identifiées au cours des premières étapes du processus de séquençage. Dans la méthode de pyroséquençage de Roche, l'intensité de la lumière émise détermine le nombre de nucléotides consécutifs dans une répétition homopolymère. Il existe de nombreuses variantes de ces méthodes, chacune ayant un profil d'erreur différent pour les données obtenues[99].

Analyse des données de séquençage d'ARN

[modifier | modifier le code]

Les expériences de séquençage d'ARN génèrent un volume important de lectures de séquences brutes qui doivent être traitées pour produire des informations utiles. L'analyse des données nécessite généralement une combinaison d'outils bioinformatiques qui varient selon le protocole expérimental et les objectifs. Le processus peut être décomposé en quatre étapes : contrôle qualité, alignement, quantification et expression différentielle[100]. Les programmes de séquençage d'ARN les plus courants s'exécutent depuis une interface en ligne de commande, soit dans un environnement Unix, soit dans l'environnement statistique R/Bioconductor[89].

Contrôle qualité

[modifier | modifier le code]

Les lectures de séquences ne sont pas parfaites ; la précision de chaque base de la séquence doit donc être estimée pour les analyses en aval. Les données brutes sont examinées afin de garantir : des scores de qualité élevés pour les appels de bases, une conformité du contenu en GC à la distribution attendue, une absence de surreprésentation des motifs de séquence courts (k-mers) et un taux de duplication de lecture suffisamment bas[81]. Plusieurs logiciels existent pour l'analyse de la qualité des séquences, notamment FastQC et FaQCs[101],[102]. Les anomalies peuvent être supprimées (trimming) ou marquées pour un traitement spécifique lors des processus ultérieurs.

Afin de lier l'abondance des lectures de séquences à l'expression d'un gène particulier, les séquences de transcrits sont alignées sur un génome de référence ou alignées de novo les unes sur les autres si aucune référence n'est disponible[36]. Les principaux défis des logiciels d'alignement incluent une vitesse suffisante pour aligner des milliards de séquences courtes dans un délai raisonnable, une flexibilité pour reconnaître et gérer l'épissage des introns de l'ARNm eucaryote, et une affectation correcte des lectures qui se localisent à plusieurs endroits. Les avancées logicielles ont largement résolu ces problèmes, et l'augmentation de la longueur des lectures de séquençage réduit le risque d'alignements ambigus. L'EBI tient à jour une liste des aligneurs de séquences à haut débit actuellement disponibles[103],[36].

L'alignement des séquences primaires d'ARNm de transcrits d'eucaryotes sur un génome de référence nécessite une manipulation spécialisée des séquences d'introns, absentes de l'ARNm mature[104]. Les aligneurs de lectures courtes effectuent une série d'alignements supplémentaires spécifiquement conçus pour identifier les jonctions d'épissage, informés par les séquences canoniques des sites d'épissage et les informations connues sur les sites d'épissage des introns. L'identification des jonctions d'épissage des introns évite que les lectures soient mal alignées entre les jonctions d'épissage ou rejetées par erreur, ce qui permet d'aligner davantage de lectures sur le génome de référence et d'améliorer la précision des estimations de l'expression génique. La régulation génique pouvant se produire au niveau des isoformes d'ARNm, les alignements sensibles à l'épissage permettent également de détecter les variations d'abondance des isoformes qui seraient autrement perdues lors d'une analyse groupée[105].

L'assemblage de novo peut être utilisé pour aligner les lectures les unes sur les autres afin de construire des séquences de transcription complètes sans utiliser de génome de référence[106]. Les défis spécifiques à l'assemblage de novo incluent des exigences de calcul plus importantes par rapport à un transcriptome de référence, une validation supplémentaire des variants ou fragments de gènes, et une annotation supplémentaire des transcriptions assemblées. Les premières mesures utilisées pour décrire les assemblages transcriptomiques, comme N50, se sont révélées trompeuses[107] et des méthodes d'évaluation améliorées sont désormais disponibles[108],[109]. Les mesures basées sur l'annotation permettent de mieux évaluer l'exhaustivité des assemblages, comme le nombre de meilleurs résultats réciproques des contigs. Une fois assemblé de novo, l'assemblage peut servir de référence pour les méthodes ultérieures d'alignement de séquences et d'analyse quantitative de l'expression génétique.

Quantification

[modifier | modifier le code]
Identification par carte thermique des profils de coexpression génique dans différents échantillons. Chaque colonne contient les mesures de variation de l'expression génique pour un échantillon donné. L'expression génique relative est indiquée par couleur : expression élevée (rouge), expression médiane (blanc) et faible expression (bleu). Les gènes et les échantillons présentant des profils d'expression similaires peuvent être automatiquement regroupés (arbres de gauche et du haut). Les échantillons peuvent provenir d'individus, de tissus, d'environnements ou de pathologies différents. Dans cet exemple, l'expression du groupe de gènes 1 est élevée et celle du groupe de gènes 2 est faible dans les échantillons 1, 2 et 3[50],[110].

La quantification des alignements de séquences peut être effectuée au niveau du gène, de l'exon ou du transcrit[86],[82]. Les résultats typiques incluent un tableau des nombres de lectures pour chaque caractéristique fournie au logiciel ; par exemple, pour les gènes d'un fichier au format General feature format (GFF). Le nombre de lectures des gènes et des exons peut être calculé assez facilement à l'aide de HTSeq, par exemple[111]. La quantification au niveau du transcrit est plus complexe et nécessite des méthodes probabilistes pour estimer l'abondance des isoformes du transcrit à partir d'informations de lecture courtes ; par exemple, à l'aide du logiciel Cufflinks[105]. Les lectures qui s'alignent également bien sur plusieurs emplacements doivent être identifiées et soit supprimées, soit alignées sur l'un des emplacements possibles, soit alignées sur l'emplacement le plus probable[111].

Certaines méthodes de quantification permettent de se passer d'un alignement exact d'une lecture sur une séquence de référence. La méthode du logiciel Kallisto combine pseudo-alignement et quantification en une seule étape, deux fois plus rapide que les méthodes contemporaines telles que celles utilisées par le logiciel Tophat/Cufflinks, avec une charge de calcul moindre[112].

Expression différentielle

[modifier | modifier le code]

Une fois les comptages quantitatifs de chaque transcrit disponibles, l'expression différentielle des gènes est mesurée par normalisation, modélisation et analyse statistique des données[113]. La plupart des outils lisent un tableau de gènes et leurs comptages en entrée, mais certains programmes, comme cuffdiff, acceptent les alignements de lecture au format Binary Alignment Map (BAM) en entrée. Les résultats finaux de ces analyses sont des listes de gènes accompagnées de tests par paires pour l'expression différentielle entre les traitements et les estimations de probabilité de ces différences[111].

Logiciel d'expression différentielle des gènes ARN-Seq
Logiciel Environnement Spécialisation
Cuffdiff2[113] Basé sur Unix Analyse de transcription qui suit l'épissage alternatif de l'ARNm
EdgeR[88] R/Bioconductor Toutes les données génomiques basées sur le comptage
DEseq2[114] R/Bioconductor Types de données flexibles, faible réplication
Limma/Voom[87] R/Bioconductor Données de puce à ADN ou de séquençage d'ARN, conception d'expériences flexible
Ballgown[115] R/Bioconductor Découverte de transcriptions efficace et sensible, flexible.

Légende : ARNm - ARN messager.

Les analyses transcriptomiques peuvent être validées à l'aide d'une technique indépendante, par exemple la PCR quantitative (qPCR), reconnaissable et statistiquement évaluable[116]. L'expression génique est mesurée par rapport à des normes définies, tant pour le gène d'intérêt que pour les gènes témoins. La mesure par qPCR est similaire à celle obtenue par RNA-Seq, qui permet de calculer la concentration d'une région cible dans un échantillon donné. La qPCR est toutefois limitée aux amplicons inférieurs à 300 pb, généralement situés vers l'extrémité 3' de la région codante, évitant ainsi la région 3'UTR[117]. Si la validation des isoformes de transcription est requise, une inspection des alignements de lecture RNA-Seq devrait indiquer où placer les amorces de qPCR pour une discrimination maximale. La mesure de plusieurs gènes témoins, en même temps que les gènes d'intérêt, produit une référence stable dans un contexte biologique[118]. La validation par qPCR des données de séquençage de l'ARN a généralement montré une forte corrélation entre les différentes méthodes de séquençage de l'ARN[119],[120],[121].

La validation fonctionnelle des gènes clés est un élément important de la planification post-transcriptomique. Les profils d'expression génique observés peuvent être fonctionnellement liés à un phénotype par une étude indépendante de Gene knockdown (en)/sauvetage dans l'organisme d'intérêt[122].

Applications

[modifier | modifier le code]

Diagnostic et profilage des maladies

[modifier | modifier le code]

Les stratégies transcriptomiques ont connu de nombreuses applications dans divers domaines de la recherche biomédicale, notamment le diagnostic et le profilage des maladies[11],[123]. Les approches de séquençage de l'ARN ont permis l'identification à grande échelle de sites d'initiation de la transcription, la découverte d'utilisations alternatives de promoteurs et de nouvelles altérations de l'épissage. Ces éléments régulateurs sont importants dans les maladies humaines et, par conséquent, la définition de ces variants est cruciale pour l'interprétation des études d'association aux maladies[124]. Le séquençage de l'ARN permet également d'identifier les polymorphismes nucléotidiques simples (SNP) associés aux maladies, l'expression spécifique des allèles et les fusions de gènes, contribuant ainsi à la compréhension des variants causaux des maladies[125].

Les rétrotransposons sont des éléments transposables qui prolifèrent au sein des génomes eucaryotes par un processus impliquant la transcription inverse. Le séquençage de l'ARN peut fournir des informations sur la transcription des rétrotransposons endogènes susceptibles d'influencer la transcription des gènes voisins par divers mécanismes épigénétiques responsables de la maladie[126]. De même, le potentiel d’utilisation de l’ARN-Seq pour comprendre les maladies liées au système immunitaire se développe rapidement en raison de la capacité à disséquer les populations de cellules immunitaires et à séquencer les répertoires de récepteur des lymphocytes T et des récepteur des lymphocytes B des patients[127],[128].

Transcriptomes humains et pathogènes

[modifier | modifier le code]

Le séquençage de l'ARN des pathogènes humains est devenu une méthode reconnue pour quantifier les changements d'expression génétique, identifier de nouveaux facteurs de virulence, prédire la résistance aux antibiotiques et mettre en évidence les interactions immunitaires hôte-pathogène[129],[130]. L'un des principaux objectifs de cette technologie est de développer des mesures optimisées de contrôle des infections et des traitements individualisés ciblés[128].

L'analyse transcriptomique s'est principalement concentrée sur l'hôte ou le pathogène. Le double séquençage de l'ARN a été appliqué pour profiler simultanément l'expression de l'ARN chez le pathogène et chez l'hôte tout au long du processus d'infection. Cette technique permet d'étudier la réponse dynamique et les réseaux de régulation génétique interspécifiques chez les deux partenaires d'interaction, du contact initial à l'invasion et à la persistance finale du pathogène ou à son élimination par le système immunitaire de l'hôte[131],[132].

Réponses à l'environnement

[modifier | modifier le code]

La transcriptomique permet d'identifier les gènes et les voies qui répondent aux stress environnementaux biotiques et abiotiques et les neutralisent[133],[122]. La nature non ciblée de la transcriptomique permet l'identification de nouveaux réseaux transcriptionnels dans des systèmes complexes. Par exemple, l'analyse comparative de diverses lignées de pois chiche à différents stades de développement a permis d'identifier des profils transcriptionnels distincts associés aux stress de sécheresse et de salinité, notamment le rôle des isoformes de transcription d'AP2-EREBP[133]. L'étude de l'expression génique lors de la formation du biofilm par le champignon pathogène Candida albicans a révélé un ensemble de gènes corégulés essentiels à l'établissement et au maintien du biofilm[134].

Le profilage transcriptomique fournit également des informations cruciales sur les mécanismes de résistance aux médicaments. L'analyse de plus de 1 000 isolats de Plasmodium falciparum, un parasite virulent responsable du paludisme chez l'homme[135], a révélé que la régulation positive de la réponse protéique dépliée et le ralentissement de la progression aux premiers stades du cycle de développement intraérythrocytaire asexué étaient associés à la résistance à l'artémisinine chez les isolats d'Asie du Sud-Est[136].

L'utilisation de la transcriptomique est également importante pour étudier les réponses en milieu marin[137]. En écologie marine, le stress et l'adaptation figurent parmi les sujets de recherche les plus courants, notamment en lien avec les stress anthropiques, tels que le changement climatique et à la pollution[137]. La plupart des études dans ce domaine ont été réalisées sur des animaux, bien que les invertébrés aient été sous-représentés[137]. Un problème persiste : le manque d'études de génétique fonctionnelle, ce qui entrave l'annotation des gènes, en particulier pour les espèces non modèles, et peut conduire à des conclusions vagues sur les effets des réponses étudiées[137].

Annotation des fonctions des gènes

[modifier | modifier le code]

Toutes les techniques transcriptomiques se sont révélées particulièrement utiles pour identifier les fonctions des gènes et les responsables de phénotypes particuliers. La transcriptomique des écotypes d'Arabidopsis hyperaccumulateurs de métaux a permis de corréler les gènes impliqués dans l'absorption, la tolérance et l'homéostasie des métaux avec le phénotype[138]. L'intégration de jeux de données ARN-Seq de différents tissus a été utilisée pour améliorer l'annotation des fonctions des gènes chez des organismes d'importance commerciale (par exemple, le concombre[139]) ou des espèces menacées (par exemple, le koala[140]).

L'assemblage des lectures ARN-Seq ne dépend pas d'un génome de référence[122] et est donc idéal pour les études d'expression génique d'organismes non modèles dont les ressources génomiques sont inexistantes ou peu développées. Par exemple, une base de données de SNP utilisée dans les programmes de sélection du sapin Douglas a été créée par analyse transcriptomique de novo en l'absence de génome séquencé[141]. De même, les gènes qui fonctionnent dans le développement des tissus cardiaques, musculaires et nerveux chez les homards ont été identifiés en comparant les transcriptomes des différents types de tissus sans utiliser de séquence génomique[142]. L'ARN-Seq peut également être utilisé pour identifier des régions codantes de protéines jusqu'alors inconnues dans des génomes séquencés existants.

ARN non codant

[modifier | modifier le code]

La transcriptomique est le plus souvent appliquée au contenu en ARNm de la cellule. Cependant, les mêmes techniques s'appliquent également aux ARN non codants (ARNnc) qui ne sont pas traduits en protéines, mais qui ont des fonctions directes (par exemple, des rôles dans la traduction des protéines, la réplication de l'ADN, l'épissage de l'ARN et la régulation transcriptionnelle)[143],[144],[145],[146]. Nombre de ces ARNnc influencent des pathologies, notamment le cancer, les maladies cardiovasculaires et neurologiques[147].

Bases de données transcriptomiques

[modifier | modifier le code]

Les études transcriptomiques génèrent de grandes quantités de données dont les applications potentielles vont bien au-delà des objectifs initiaux d'une expérience. Ainsi, les données brutes ou traitées peuvent être déposées dans des bases de données publiques afin de garantir leur utilité pour la communauté scientifique au sens large. Par exemple, en 2018, le Gene Expression Omnibus contenait des millions d'expériences[148].

Bases de données transcriptomiques[111]
Nom Hôte Données Description
Gene Expression Omnibus NCBI Puce à ADN ARN-Seq Première base de données transcriptomique acceptant des données de toutes sources. Introduction des normes communautaires MIAME et MINSEQE, qui définissent les métadonnées expérimentales nécessaires pour garantir une interprétation et une répétabilité efficaces.
ArrayExpress ENA Puce à ADN Importe des ensembles de données depuis Gene Expression Omnibus et accepte les soumissions directes. Les données traitées et les métadonnées des expériences sont stockées dans ArrayExpress, tandis que les lectures de séquences brutes sont conservées à l'ENA. Conforme aux normes MIAME et MINSEQE[149],[150].
Expression Atlas EBI Puce à ADN ARN-Seq Base de données d'expression génétique spécifique aux tissus, pour les animaux et les plantes. Affiche des analyses et des visualisations secondaires, telles que l'enrichissement fonctionnel des termes de Gene Ontology, des domaines InterPro ou des voies. Liens vers les données d'abondance des protéines, le cas échéant.
Genevestigator[151] Sélectionné en privé Puce à ADN ARN-Seq Contient des sélections manuelles d'ensembles de données transcriptomiques publiques, axées sur les données médicales et de biologie végétale. Les expériences individuelles sont normalisées dans l'ensemble de la base de données afin de permettre la comparaison de l'expression génétique entre diverses expériences. L'accès à toutes les fonctionnalités nécessite l'achat d'une licence, avec un accès gratuit à certaines fonctionnalités.
RefEx[152] DDBJ Tout Transcriptomes humains, murins et rats de 40 organes différents. Expression génétique visualisée sous forme de cartes thermiques projetées sur des représentations 3D de structures anatomiques.
NONCODE noncode.org ARN-Seq ARN non codants (ARNnc) à l'exclusion de l'ARNt et de l'ARNr.

Légende : NCBI – National Center for Biotechnology Information; EBI – European Bioinformatics Institute; DDBJ – DNA Data Bank of Japan; ENA – European Nucleotide Archive; MIAME – Minimum Information About a Microarray Experiment; MINSEQE – Minimum Information about a high-throughput nucleotide SEQuencing Experiment.

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]

  • Notice dans un dictionnaire ou une encyclopédie généralisteVoir et modifier les données sur Wikidata :

Notes et références

[modifier | modifier le code]
  1. « Medline trend: automated yearly statistics of PubMed results for any query », sur dan.corlan.net (consulté le )
  2. a et b Mark D. Adams, Jenny M. Kelley, Jeannine D. Gocayne et Mark Dubnick, « Complementary DNA Sequencing: Expressed Sequence Tags and Human Genome Project », Science, vol. 252, no 5013,‎ , p. 1651–1656 (DOI 10.1126/science.2047873, lire en ligne, consulté le )
  3. (en) Qun Pan, Ofer Shai, Leo J. Lee et Brendan J. Frey, « Deep surveying of alternative splicing complexity in the human transcriptome by high-throughput sequencing », Nature Genetics, vol. 40, no 12,‎ , p. 1413–1415 (ISSN 1546-1718, DOI 10.1038/ng.259, lire en ligne, consulté le )
  4. a b et c Marc Sultan, Marcel H. Schulz, Hugues Richard et Alon Magen, « A Global View of Gene Activity and Alternative Splicing by Deep Sequencing of the Human Transcriptome », Science, vol. 321, no 5891,‎ , p. 956–960 (DOI 10.1126/science.1160342, lire en ligne, consulté le )
  5. (en) Tuuli Lappalainen, Michael Sammeth, Marc R. Friedländer et Peter A. C. ‘t Hoen, « Transcriptome and genome sequencing uncovers functional variation in humans », Nature, vol. 501, no 7468,‎ , p. 506–511 (ISSN 1476-4687, PMID 24037378, PMCID 3918453, DOI 10.1038/nature12531, lire en ligne, consulté le )
  6. a et b Marta Melé, Pedro G. Ferreira, Ferran Reverter et David S. DeLuca, « The human transcriptome across tissues and individuals », Science, vol. 348, no 6235,‎ , p. 660–665 (PMID 25954002, PMCID 4547472, DOI 10.1126/science.aaa0355, lire en ligne, consulté le )
  7. (en) Rickard Sandberg, « Entering the era of single-cell transcriptomics in biology and medicine », Nature Methods, vol. 11, no 1,‎ , p. 22–24 (ISSN 1548-7105, DOI 10.1038/nmeth.2764, lire en ligne, consulté le )
  8. (en) Aleksandra A. Kolodziejczyk, Jong Kyoung Kim, Valentine Svensson et John C. Marioni, « The Technology and Biology of Single-Cell RNA Sequencing », Molecular Cell, vol. 58, no 4,‎ , p. 610–620 (ISSN 1097-2765, PMID 26000846, DOI 10.1016/j.molcel.2015.04.005, lire en ligne, consulté le )
  9. a b c d et e Paul A McGettigan, « Transcriptomics in the RNA-seq era », Current Opinion in Chemical Biology, omics, vol. 17, no 1,‎ , p. 4–11 (ISSN 1367-5931, DOI 10.1016/j.cbpa.2012.12.008, lire en ligne, consulté le )
  10. a b c d e f g h et i (en) Zhong Wang, Mark Gerstein et Michael Snyder, « RNA-Seq: a revolutionary tool for transcriptomics », Nature Reviews Genetics, vol. 10, no 1,‎ , p. 57–63 (ISSN 1471-0064, PMID 19015660, PMCID 2949280, DOI 10.1038/nrg2484, lire en ligne, consulté le )
  11. a b c et d (en) Fatih Ozsolak et Patrice M. Milos, « RNA sequencing: advances, challenges and opportunities », Nature Reviews Genetics, vol. 12, no 2,‎ , p. 87–98 (ISSN 1471-0064, PMID 21191423, PMCID 3031867, DOI 10.1038/nrg2934, lire en ligne, consulté le )
  12. a b et c Olena Morozova, Martin Hirst et Marco A. Marra, « Applications of New Sequencing Technologies for Transcriptome Analysis », Annual Review of Genomics and Human Genetics, vol. 10, no Volume 10, 2009,‎ , p. 135–151 (ISSN 1527-8204 et 1545-293X, DOI 10.1146/annurev-genom-082908-145957, lire en ligne, consulté le )
  13. G. K. Sim, F. C. Kafatos, C. W. Jones et M. D. Koehler, « Use of a cDNA library for studies on evolution and developmental expression of the chorion multigene families », Cell, vol. 18, no 4,‎ , p. 1303–1316 (ISSN 0092-8674, PMID 519770, DOI 10.1016/0092-8674(79)90241-1, lire en ligne, consulté le )
  14. J. G. Sutcliffe, R. J. Milner, F. E. Bloom et R. A. Lerner, « Common 82-nucleotide sequence unique to brain RNA », Proceedings of the National Academy of Sciences of the United States of America, vol. 79, no 16,‎ , p. 4942–4946 (ISSN 0027-8424, PMID 6956902, PMCID 346801, DOI 10.1073/pnas.79.16.4942, lire en ligne, consulté le )
  15. S. D. Putney, W. C. Herlihy et P. Schimmel, « A new troponin T and cDNA clones for 13 different muscle proteins, found by shotgun sequencing », Nature, vol. 302, no 5910,‎ , p. 718–721 (ISSN 0028-0836, PMID 6687628, DOI 10.1038/302718a0, lire en ligne, consulté le )
  16. a b c et d (en) Marco A. Marra, Ladeana Hillier et Robert H. Waterston, « Expressed sequence tags — ESTablishing bridges between genomes », Trends in Genetics, vol. 14, no 1,‎ , p. 4–7 (ISSN 0168-9525, PMID 9448457, DOI 10.1016/S0168-9525(97)01355-3, lire en ligne, consulté le )
  17. J C Alwine, D J Kemp et G R Stark, « Method for detection of specific RNAs in agarose gels by transfer to diazobenzyloxymethyl-paper and hybridization with DNA probes. », Proceedings of the National Academy of Sciences, vol. 74, no 12,‎ , p. 5350–5354 (PMID 414220, PMCID 431715, DOI 10.1073/pnas.74.12.5350, lire en ligne, consulté le )
  18. Michael Becker-André et Klaus Hahlbrock, « Absolute mRNA quantification using the polymerase chain reaction (PCR). A novel approach by a PCR aided transcipt titration assay (PATTY) », Nucleic Acids Research, vol. 17, no 22,‎ , p. 9437–9446 (ISSN 0305-1048, PMID 2479917, PMCID 335144, DOI 10.1093/nar/17.22.9437, lire en ligne, consulté le )
  19. B. Daignan-Fornier et M. Aigle, « Du génome au "transcriptome" : un saut de puce ! », M/S. Médecine sciences [revue papier, ISSN 0767-0974], 1998, Vol. 14, N° 2; p.225-6,‎ (ISSN 1958-5381, DOI 10.4267/10608/1016, lire en ligne, consulté le )
  20. « Methode SAGE serial analysis gene expression MPSS CAGE RNAseq genomique fonctionnelle vegetale Enseignement et recherche Biochimie - Universite Angers Emmanuel Jaspard biochimej », sur biochimej.univ-angers.fr (consulté le )
  21. a b c et d Victor E. Velculescu, Lin Zhang, Bert Vogelstein et Kenneth W. Kinzler, « Serial Analysis of Gene Expression », Science, vol. 270, no 5235,‎ , p. 484–487 (DOI 10.1126/science.270.5235.484, lire en ligne, consulté le )
  22. (en) Stéphane Audic et Jean-Michel Claverie, « The Significance of Digital Gene Expression Profiles », Genome Research, vol. 7, no 10,‎ , p. 986–995 (ISSN 1088-9051 et 1549-5469, PMID 9331369, DOI 10.1101/gr.7.10.986, lire en ligne, consulté le )
  23. a b c d et e (en) Kirk J. Mantione, Richard M. Kream, Hana Kuzelova et Radek Ptacek, « Comparing Bioinformatic Gene Expression Profiling Methods: Microarray and RNA-Seq », Medical Science Monitor Basic Research, vol. 20,‎ , p. 138–141 (ISSN 2325-4394 et 2325-4416, PMID 25149683, PMCID 4152252, DOI 10.12659/MSMBR.892101, lire en ligne, consulté le )
  24. (en) Shanrong Zhao, Wai-Ping Fung-Leung, Anton Bittner et Karen Ngo, « Comparison of RNA-Seq and Microarray in Transcriptome Profiling of Activated T Cells », PLOS ONE, vol. 9, no 1,‎ , e78644 (ISSN 1932-6203, PMID 24454679, PMCID 3894192, DOI 10.1371/journal.pone.0078644, lire en ligne, consulté le )
  25. (en) Tamar Hashimshony, Florian Wagner, Noa Sher et Itai Yanai, « CEL-Seq: Single-Cell RNA-Seq by Multiplexed Linear Amplification », Cell Reports, vol. 2, no 3,‎ , p. 666–673 (ISSN 2211-1247, PMID 22939981, DOI 10.1016/j.celrep.2012.08.003, lire en ligne, consulté le )
  26. Robin L. Stears, Robert C. Getts et Steven R. Gullans, « A novel, sensitive detection system for high-density microarrays using dendrimer technology », Physiological Genomics, vol. 3, no 2,‎ , p. 93–99 (ISSN 1094-8341, DOI 10.1152/physiolgenomics.2000.3.2.93, lire en ligne, consulté le )
  27. a et b Mantione KJ, Kream RM, Kuzelova H, Ptacek R, Raboch J, Samuel JM, Stefano GB, « Comparing bioinformatic gene expression profiling methods: microarray and RNA-Seq », Medical Science Monitor Basic Research, vol. 20,‎ , p. 138–42 (PMID 25149683, PMCID 4152252, DOI 10.12659/MSMBR.892101)
  28. a b c d e et f Illumina, « RNA-Seq Data Comparison with Gene Expression Microarrays », European Pharmaceutical Review,
  29. a et b Michael B. Black, Bethany B. Parks, Linda Pluta et Tzu-Ming Chu, « Comparison of Microarrays and RNA-Seq for Gene Expression Analyses of Dose-Response Experiments », Toxicological Sciences, vol. 137, no 2,‎ , p. 385–403 (ISSN 1096-6080, DOI 10.1093/toxsci/kft249, lire en ligne, consulté le )
  30. (en) John C. Marioni, Christopher E. Mason, Shrikant M. Mane et Matthew Stephens, « RNA-seq: An assessment of technical reproducibility and comparison with gene expression arrays », Genome Research, vol. 18, no 9,‎ , p. 1509–1517 (ISSN 1088-9051 et 1549-5469, PMID 18550803, PMCID 2527709, DOI 10.1101/gr.079558.108, lire en ligne, consulté le )
  31. (en) Zhenqiang Su, Paweł P Łabaj, Sheng Li et Jean Thierry-Mieg, « A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium », Nature Biotechnology, vol. 32, no 9,‎ , p. 903–914 (ISSN 1546-1696, PMID 25150838, PMCID 4321899, DOI 10.1038/nbt.2957, lire en ligne, consulté le )
  32. James J. Chen, Huey-Miin Hsueh, Robert R. Delongchamp et Chien-Ju Lin, « Reproducibility of microarray data: a further analysis of microarray quality control (MAQC) data », BMC Bioinformatics, vol. 8, no 1,‎ , p. 412 (ISSN 1471-2105, PMID 17961233, PMCID 2204045, DOI 10.1186/1471-2105-8-412, lire en ligne, consulté le )
  33. (en) Jennie E. Larkin, Bryan C. Frank, Haralambos Gavras et Razvan Sultana, « Independence and reproducibility across microarray platforms », Nature Methods, vol. 2, no 5,‎ , p. 337–344 (ISSN 1548-7105, DOI 10.1038/nmeth757, lire en ligne, consulté le )
  34. a et b Nancy J. Nelson, « Microarrays Have Arrived: Gene Expression Tool Matures », JNCI: Journal of the National Cancer Institute, vol. 93, no 7,‎ , p. 492–494 (ISSN 0027-8874, DOI 10.1093/jnci/93.7.492, lire en ligne, consulté le )
  35. Mark Schena, Dari Shalon, Ronald W. Davis et Patrick O. Brown, « Quantitative Monitoring of Gene Expression Patterns with a Complementary DNA Microarray », Science, vol. 270, no 5235,‎ , p. 467–470 (DOI 10.1126/science.270.5235.467, lire en ligne, consulté le )
  36. a b c d e f g et h Jérôme Audoux, « A l’assaut du puzzle transcriptomique : optimisations, applications et nouvelles méthodes d’analyse pour le RNA-Seq », theses.fr, Montpellier,‎ (lire en ligne, consulté le )
  37. a et b Michael J. Heller, « DNA Microarray Technology: Devices, Systems, and Applications », Annual Review of Biomedical Engineering, vol. 4, no Volume 4, 2002,‎ , p. 129–153 (ISSN 1523-9829 et 1545-4274, DOI 10.1146/annurev.bioeng.4.020702.153438, lire en ligne, consulté le )
  38. Geoffrey J. McLachlan, Christophe Ambroise et Kim-Anh Do, Analyzing microarray gene expression data, Wiley-Interscience, (ISBN 978-0-471-72612-8 et 978-0-471-72842-9)
  39. (en) Sydney Brenner, Maria Johnson, John Bridgham et George Golda, « Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays », Nature Biotechnology, vol. 18, no 6,‎ , p. 630–634 (ISSN 1546-1696, DOI 10.1038/76469, lire en ligne, consulté le )
  40. (en) Blake C. Meyers, Tam H. Vu, Shivakundan Singh Tej et Hassan Ghazal, « Analysis of the transcriptional complexity of Arabidopsis thaliana by massively parallel signature sequencing », Nature Biotechnology, vol. 22, no 8,‎ , p. 1006–1011 (ISSN 1546-1696, DOI 10.1038/nbt992, lire en ligne, consulté le )
  41. a et b Matthew N. Bainbridge, René L. Warren, Martin Hirst et Tammy Romanuik, « Analysis of the prostate cancer cell line LNCaP transcriptome using a sequencing-by-synthesis approach », BMC Genomics, vol. 7, no 1,‎ , p. 246 (ISSN 1471-2164, PMID 17010196, PMCID 1592491, DOI 10.1186/1471-2164-7-246, lire en ligne, consulté le )
  42. (en) Ali Mortazavi, Brian A. Williams, Kenneth McCue et Lorian Schaeffer, « Mapping and quantifying mammalian transcriptomes by RNA-Seq », Nature Methods, vol. 5, no 7,‎ , p. 621–628 (ISSN 1548-7105, DOI 10.1038/nmeth.1226, lire en ligne, consulté le )
  43. (en) Brian T. Wilhelm, Samuel Marguerat, Stephen Watt et Falk Schubert, « Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution », Nature, vol. 453, no 7199,‎ , p. 1239–1243 (ISSN 1476-4687, DOI 10.1038/nature07002, lire en ligne, consulté le )
  44. (en) Kirk J. Mantione, Richard M. Kream, Hana Kuzelova et Radek Ptacek, « Comparing Bioinformatic Gene Expression Profiling Methods: Microarray and RNA-Seq », Medical Science Monitor Basic Research, vol. 20,‎ , p. 138–141 (ISSN 2325-4394 et 2325-4416, PMID 25149683, PMCID 4152252, DOI 10.12659/MSMBR.892101, lire en ligne, consulté le )
  45. a b et c Piotr Chomczynski et Nicoletta Sacchi, « Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extraction », Analytical Biochemistry, vol. 162, no 1,‎ , p. 156–159 (ISSN 0003-2697, DOI 10.1016/0003-2697(87)90021-2, lire en ligne, consulté le )
  46. (en) Piotr Chomczynski et Nicoletta Sacchi, « The single-step method of RNA isolation by acid guanidinium thiocyanate–phenol–chloroform extraction: twenty-something years on », Nature Protocols, vol. 1, no 2,‎ , p. 581–585 (ISSN 1750-2799, DOI 10.1038/nprot.2006.83, lire en ligne, consulté le )
  47. M. Grillo et F. L. Margolis, « Use of reverse transcriptase polymerase chain reaction to monitor expression of intronless genes », BioTechniques, vol. 9, no 3,‎ , p. 262, 264, 266–268 (ISSN 0736-6205, PMID 1699561, lire en ligne, consulté le )
  48. (en) Sian Bryant et David L. Manning, « Isolation of Messenger RNA », dans RNA Isolation and Characterization Protocols, Humana Press, , 61–64 p. (ISBN 978-1-59259-570-9, DOI 10.1385/0-89603-494-1:61, lire en ligne)
  49. Timothy J. Close, Steve I. Wanamaker, Rico A. Caldo et Stacy M. Turner, « A New Resource for Cereal Genomics: 22K Barley GeneChip Comes of Age », Plant Physiology, vol. 134, no 3,‎ , p. 960–968 (ISSN 0032-0889, PMID 15020760, PMCID 389919, DOI 10.1104/pp.103.034462, lire en ligne, consulté le )
  50. a b c d et e (en) Rohan Lowe, Neil Shirley, Mark Bleackley et Stephen Dolan, « Transcriptomics technologies », PLOS Computational Biology, vol. 13, no 5,‎ , e1005457 (ISSN 1553-7358, PMID 28545146, PMCID 5436640, DOI 10.1371/journal.pcbi.1005457, lire en ligne, consulté le )
  51. a et b Toshiyuki Shiraki, Shinji Kondo, Shintaro Katayama et Kazunori Waki, « Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage », Proceedings of the National Academy of Sciences, vol. 100, no 26,‎ , p. 15776–15781 (PMID 14663149, PMCID 307644, DOI 10.1073/pnas.2136655100, lire en ligne, consulté le )
  52. Irena Barbulovic-Nad, Michael Lucente, Yu Sun et Mingjun Zhang, « Bio-Microarray Fabrication Techniques—A Review », Critical Reviews in Biotechnology, vol. 26, no 4,‎ , p. 237–259 (ISSN 0738-8551, PMID 17095434, DOI 10.1080/07388550600978358, lire en ligne, consulté le )
  53. a b c d et e D. Baron, M. Raharijaona et R. Houlgatte, « Puces à ADN », IRBM, nUMERO SPECIAL BIOPUCES, vol. 28, no 5,‎ , p. 210–215 (ISSN 1959-0318, DOI 10.1016/j.rbmret.2007.11.010, lire en ligne, consulté le )
  54. (en) David J. Lockhart, Helin Dong, Michael C. Byrne et Maximillian T. Follettie, « Expression monitoring by hybridization to high-density oligonucleotide arrays », Nature Biotechnology, vol. 14, no 13,‎ , p. 1675–1680 (ISSN 1546-1696, DOI 10.1038/nbt1296-1675, lire en ligne, consulté le )
  55. Rafael A. Irizarry, Benjamin M. Bolstad, Francois Collin et Leslie M. Cope, « Summaries of Affymetrix GeneChip probe level data », Nucleic Acids Research, vol. 31, no 4,‎ , e15 (ISSN 0305-1048, PMID 12582260, PMCID 150247, DOI 10.1093/nar/gng015, lire en ligne, consulté le )
  56. (en) Tamar Hashimshony, Florian Wagner, Noa Sher et Itai Yanai, « CEL-Seq: Single-Cell RNA-Seq by Multiplexed Linear Amplification », Cell Reports, vol. 2, no 3,‎ , p. 666–673 (ISSN 2211-1247, PMID 22939981, DOI 10.1016/j.celrep.2012.08.003, lire en ligne, consulté le )
  57. (en) Valentine Svensson, Roser Vento-Tormo et Sarah A. Teichmann, « Exponential scaling of single-cell RNA-seq in the past decade », Nature Protocols, vol. 13, no 4,‎ , p. 599–604 (ISSN 1750-2799, DOI 10.1038/nprot.2017.149, lire en ligne, consulté le )
  58. Chris Tachibana, « Transcriptomics today: Microarrays, RNA-seq, and more », Science,‎ (ISSN 0036-8075 et 1095-9203, DOI 10.1126/science.opms.p1500095, lire en ligne, consulté le )
  59. Je Hyuk Lee, Evan R. Daugharthy, Jonathan Scheiman et Reza Kalhor, « Highly Multiplexed Subcellular RNA Sequencing in Situ », Science, vol. 343, no 6177,‎ , p. 1360–1363 (PMID 24578530, PMCID 4140943, DOI 10.1126/science.1250212, lire en ligne, consulté le )
  60. a et b (en) Jay Shendure et Hanlee Ji, « Next-generation DNA sequencing », Nature Biotechnology, vol. 26, no 10,‎ , p. 1135–1145 (ISSN 1546-1696, DOI 10.1038/nbt1486, lire en ligne, consulté le )
  61. Nicholas F. Lahens, Ibrahim Halil Kavakli, Ray Zhang et Katharina Hayer, « IVT-seq reveals extreme bias in RNA sequencing », Genome Biology, vol. 15, no 6,‎ , R86 (ISSN 1474-760X, PMID 24981968, PMCID 4197826, DOI 10.1186/gb-2014-15-6-r86, lire en ligne, consulté le )
  62. a et b (en) Ellen Knierim, Barbara Lucke, Jana Marie Schwarz et Markus Schuelke, « Systematic Comparison of Three Methods for Fragmentation of Long-Range PCR Products for Next Generation Sequencing », PLOS ONE, vol. 6, no 11,‎ , e28240 (ISSN 1932-6203, PMID 22140562, PMCID 3227650, DOI 10.1371/journal.pone.0028240, lire en ligne, consulté le )
  63. Andrew Routh, Steven R. Head, Phillip Ordoukhanian et John E. Johnson, « ClickSeq: Fragmentation-Free Next-Generation Sequencing via Click Ligation of Adaptors to Stochastically Terminated 3′-Azido cDNAs », Journal of Molecular Biology, vol. 427, no 16,‎ , p. 2610–2616 (ISSN 0022-2836, PMID 26116762, PMCID 4523409, DOI 10.1016/j.jmb.2015.06.011, lire en ligne, consulté le )
  64. (en) Swati Parekh, Christoph Ziegenhain, Beate Vieth et Wolfgang Enard, « The impact of amplification on differential expression analyses by RNA-seq », Scientific Reports, vol. 6, no 1,‎ , p. 25533 (ISSN 2045-2322, PMID 27156886, PMCID 4860583, DOI 10.1038/srep25533, lire en ligne, consulté le )
  65. Savita Shanker, Ariel Paulson, Howard J. Edenberg et Allison Peak, « Evaluation of Commercially Available RNA Amplification Kits for RNA Sequencing Using Very Low Input Amounts of Total RNA », Journal of Biomolecular Techniques : JBT, vol. 26, no 1,‎ , p. 4–18 (ISSN 1524-0215 et 1943-4731, PMID 25649271, PMCID 4310221, DOI 10.7171/jbt.15-2601-001, lire en ligne, consulté le )
  66. (en) Lichun Jiang, Felix Schlesinger, Carrie A. Davis et Yu Zhang, « Synthetic spike-in standards for RNA-seq experiments », Genome Research, vol. 21, no 9,‎ , p. 1543–1551 (ISSN 1088-9051 et 1549-5469, PMID 21816910, PMCID 3166838, DOI 10.1101/gr.121095.111, lire en ligne, consulté le )
  67. (en) Teemu Kivioja, Anna Vähärautio, Kasper Karlsson et Martin Bonke, « Counting absolute numbers of molecules using unique molecular identifiers », Nature Methods, vol. 9, no 1,‎ , p. 72–74 (ISSN 1548-7105, DOI 10.1038/nmeth.1778, lire en ligne, consulté le )
  68. (en) Fuchou Tang, Catalin Barbacioru, Yangzhou Wang et Ellen Nordman, « mRNA-Seq whole-transcriptome analysis of a single cell », Nature Methods, vol. 6, no 5,‎ , p. 377–382 (ISSN 1548-7105, DOI 10.1038/nmeth.1315, lire en ligne, consulté le )
  69. (en) Saiful Islam, Amit Zeisel, Simon Joost et Gioele La Manno, « Quantitative single-cell RNA-seq with unique molecular identifiers », Nature Methods, vol. 11, no 2,‎ , p. 163–166 (ISSN 1548-7105, DOI 10.1038/nmeth.2772, lire en ligne, consulté le )
  70. Diego Adhemar Jaitin, Ephraim Kenigsberg, Hadas Keren-Shaul et Naama Elefant, « Massively Parallel Single-Cell RNA-Seq for Marker-Free Decomposition of Tissues into Cell Types », Science, vol. 343, no 6172,‎ , p. 776–779 (PMID 24531970, PMCID 4412462, DOI 10.1126/science.1247651, lire en ligne, consulté le )
  71. a et b (en) Joshua Z. Levin, Moran Yassour, Xian Adiconis et Chad Nusbaum, « Comprehensive comparative analysis of strand-specific RNA sequencing methods », Nature Methods, vol. 7, no 9,‎ , p. 709–715 (ISSN 1548-7105, PMID 20711195, PMCID 3005310, DOI 10.1038/nmeth.1491, lire en ligne, consulté le )
  72. Michael A. Quail, Miriam Smith, Paul Coupland et Thomas D. Otto, « A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers », BMC Genomics, vol. 13, no 1,‎ , p. 341 (ISSN 1471-2164, PMID 22827831, PMCID 3431227, DOI 10.1186/1471-2164-13-341, lire en ligne, consulté le )
  73. a et b (en) Lin Liu, Yinhu Li, Siliang Li et Ni Hu, « Comparison of Next-Generation Sequencing Systems », BioMed Research International, vol. 2012, no 1,‎ , p. 251364 (ISSN 2314-6141, PMID 22829749, PMCID 3398667, DOI 10.1155/2012/251364, lire en ligne, consulté le )
  74. « Home - SRA - NCBI », sur www.ncbi.nlm.nih.gov (consulté le )
  75. (en) Nicholas J. Loman, Raju V. Misra, Timothy J. Dallman et Chrystala Constantinidou, « Performance comparison of benchtop high-throughput sequencing platforms », Nature Biotechnology, vol. 30, no 5,‎ , p. 434–439 (ISSN 1546-1696, DOI 10.1038/nbt.2198, lire en ligne, consulté le )
  76. (en) Sara Goodwin, John D. McPherson et W. Richard McCombie, « Coming of age: ten years of next-generation sequencing technologies », Nature Reviews Genetics, vol. 17, no 6,‎ , p. 333–351 (ISSN 1471-0064, PMID 27184599, PMCID 10373632, DOI 10.1038/nrg.2016.49, lire en ligne, consulté le )
  77. (en) Daniel R. Garalde, Elizabeth A. Snell, Daniel Jachimowicz et Botond Sipos, « Highly parallel direct RNA sequencing on an array of nanopores », Nature Methods, vol. 15, no 3,‎ , p. 201–206 (ISSN 1548-7105, DOI 10.1038/nmeth.4577, lire en ligne, consulté le )
  78. (en) Nicholas J. Loman, Joshua Quick et Jared T. Simpson, « A complete bacterial genome assembled de novo using only nanopore sequencing data », Nature Methods, vol. 12, no 8,‎ , p. 733–735 (ISSN 1548-7105, DOI 10.1038/nmeth.3444, lire en ligne, consulté le )
  79. (en) Fatih Ozsolak, Adam R. Platt, Dan R. Jones et Jeffrey G. Reifenberger, « Direct RNA sequencing », Nature, vol. 461, no 7265,‎ , p. 814–818 (ISSN 1476-4687, DOI 10.1038/nature08390, lire en ligne, consulté le )
  80. a et b Steven N. Hart, Terry M. Therneau, Yuji Zhang et Gregory A. Poland, « Calculating Sample Size Estimates for RNA Sequencing Data », Journal of Computational Biology, vol. 20, no 12,‎ , p. 970–978 (PMID 23961961, PMCID 3842884, DOI 10.1089/cmb.2012.0283, lire en ligne, consulté le )
  81. a b et c Ana Conesa, Pedro Madrigal, Sonia Tarazona et David Gomez-Cabrero, « A survey of best practices for RNA-seq data analysis », Genome Biology, vol. 17, no 1,‎ , p. 13 (ISSN 1474-760X, PMID 26813401, PMCID 4728800, DOI 10.1186/s13059-016-0881-8, lire en ligne, consulté le )
  82. a et b Franck Rapaport, Raya Khanin, Yupu Liang et Mono Pirun, « Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data », Genome Biology, vol. 14, no 9,‎ , p. 3158 (ISSN 1474-760X, PMID 24020486, PMCID 4054597, DOI 10.1186/gb-2013-14-9-r95, lire en ligne, consulté le )
  83. (en) Ian Dunham, Anshul Kundaje, Shelley F. Aldred et Patrick J. Collins, « An integrated encyclopedia of DNA elements in the human genome », Nature, vol. 489, no 7414,‎ , p. 57–74 (ISSN 1476-4687, PMID 22955616, PMCID 3439153, DOI 10.1038/nature11247, lire en ligne, consulté le )
  84. Cricket A. Sloan, Esther T. Chan, Jean M. Davidson et Venkat S. Malladi, « ENCODE data at the ENCODE portal », Nucleic Acids Research, vol. 44, no D1,‎ , D726–D732 (ISSN 0305-1048, PMID 26527727, PMCID 4702836, DOI 10.1093/nar/gkv1160, lire en ligne, consulté le )
  85. « ENCODE », sur www.encodeproject.org (consulté le )
  86. a et b Amarinder Singh Thind, Isha Monga, Prasoon Kumar Thakur et Pallawi Kumari, « Demystifying emerging bulk RNA-Seq applications: the application and utility of bioinformatic methodology », Briefings in Bioinformatics, vol. 22, no 6,‎ , bbab259 (ISSN 1477-4054, DOI 10.1093/bib/bbab259, lire en ligne, consulté le )
  87. a et b Matthew E. Ritchie, Belinda Phipson, Di Wu et Yifang Hu, « limma powers differential expression analyses for RNA-sequencing and microarray studies », Nucleic Acids Research, vol. 43, no 7,‎ , e47 (ISSN 0305-1048, PMID 25605792, PMCID 4402510, DOI 10.1093/nar/gkv007, lire en ligne, consulté le )
  88. a et b Mark D. Robinson, Davis J. McCarthy et Gordon K. Smyth, « edgeR: a Bioconductor package for differential expression analysis of digital gene expression data », Bioinformatics, vol. 26, no 1,‎ , p. 139–140 (ISSN 1367-4803, PMID 19910308, PMCID 2796818, DOI 10.1093/bioinformatics/btp616, lire en ligne, consulté le )
  89. a et b (en) Wolfgang Huber, Vincent J. Carey, Robert Gentleman et Simon Anders, « Orchestrating high-throughput genomic analysis with Bioconductor », Nature Methods, vol. 12, no 2,‎ , p. 115–121 (ISSN 1548-7105, PMID 25633503, PMCID 4509590, DOI 10.1038/nmeth.3252, lire en ligne, consulté le )
  90. (en) G. K. Smyth, « limma: Linear Models for Microarray Data », dans Bioinformatics and Computational Biology Solutions Using R and Bioconductor, Springer, , 397–420 p. (ISBN 978-0-387-29362-2, DOI 10.1007/0-387-29362-0_23, lire en ligne)
  91. Lisa Ann Meadows et Roslin R. Russell, Microarray technology in practice, Elsevier/Academic Press, (ISBN 978-0-08-091976-8)
  92. (en) Brian J. Haas, Alexie Papanicolaou, Moran Yassour et Manfred Grabherr, « De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis », Nature Protocols, vol. 8, no 8,‎ , p. 1494–1512 (ISSN 1750-2799, PMID 23845962, PMCID 3875132, DOI 10.1038/nprot.2013.084, lire en ligne, consulté le )
  93. (en) Mihaela Pertea, Geo M. Pertea, Corina M. Antonescu et Tsung-Cheng Chang, « StringTie enables improved reconstruction of a transcriptome from RNA-seq reads », Nature Biotechnology, vol. 33, no 3,‎ , p. 290–295 (ISSN 1546-1696, PMID 25690850, PMCID 4643835, DOI 10.1038/nbt.3122, lire en ligne, consulté le )
  94. Yuichi Kodama, Martin Shumway, Rasko Leinonen et on behalf of the International Nucleotide Sequence Database Collaboration, « The sequence read archive: explosive growth of sequencing data », Nucleic Acids Research, vol. 40, no D1,‎ , D54–D56 (ISSN 0305-1048, PMID 22009675, PMCID 3245110, DOI 10.1093/nar/gkr854, lire en ligne, consulté le )
  95. Ron Edgar, Michael Domrachev et Alex E. Lash, « Gene Expression Omnibus: NCBI gene expression and hybridization array data repository », Nucleic Acids Research, vol. 30, no 1,‎ , p. 207–210 (ISSN 0305-1048, PMID 11752295, PMCID 99122, DOI 10.1093/nar/30.1.207, lire en ligne, consulté le )
  96. (en) Anton Petrov et Soheil Shams, « Microarray Image Processing and Quality Control », Journal of VLSI signal processing systems for signal, image and video technology, vol. 38, no 3,‎ , p. 211–226 (ISSN 0922-5773, DOI 10.1023/B:VLSI.0000042488.08307.ad, lire en ligne, consulté le )
  97. (en) Anton Petrov et Soheil Shams, « Microarray Image Processing and Quality Control », Journal of VLSI signal processing systems for signal, image and video technology, vol. 38, no 3,‎ , p. 211–226 (ISSN 0922-5773, DOI 10.1023/B:VLSI.0000042488.08307.ad, lire en ligne, consulté le )
  98. (en) « High-Throughput Next Generation Sequencing », Methods in Molecular Biology,‎ (ISSN 1064-3745 et 1940-6029, DOI 10.1007/978-1-61779-089-8, lire en ligne, consulté le )
  99. Kensuke Nakamura, Taku Oshima, Takuya Morimoto et Shun Ikeda, « Sequence-specific error profile of Illumina sequencers », Nucleic Acids Research, vol. 39, no 13,‎ , e90 (ISSN 0305-1048, PMID 21576222, PMCID 3141275, DOI 10.1093/nar/gkr344, lire en ligne, consulté le )
  100. (en) Marcel C. Van Verk, Richard Hickman, Corné M. J. Pieterse et Saskia C. M. Van Wees, « RNA-Seq: revelation of the messengers », Trends in Plant Science, vol. 18, no 4,‎ , p. 175–179 (ISSN 1360-1385, DOI 10.1016/j.tplants.2013.02.001, lire en ligne, consulté le )
  101. « Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data », sur www.bioinformatics.babraham.ac.uk (consulté le )
  102. Chien-Chi Lo et Patrick S. G. Chain, « Rapid evaluation and quality control of next generation sequencing data with FaQCs », BMC Bioinformatics, vol. 15, no 1,‎ , p. 366 (ISSN 1471-2105, PMID 25408143, PMCID 4246454, DOI 10.1186/s12859-014-0366-2, lire en ligne, consulté le )
  103. (en) Nuno A Fonseca, http://cracs.fc.up.pt/~nf/, « HTS mappers » [archive du ], sur www.ebi.ac.uk (consulté le )
  104. Cole Trapnell, Lior Pachter et Steven L. Salzberg, « TopHat: discovering splice junctions with RNA-Seq », Bioinformatics, vol. 25, no 9,‎ , p. 1105–1111 (ISSN 1367-4803, PMID 19289445, PMCID 2672628, DOI 10.1093/bioinformatics/btp120, lire en ligne, consulté le )
  105. a et b (en) Cole Trapnell, Brian A. Williams, Geo Pertea et Ali Mortazavi, « Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation », Nature Biotechnology, vol. 28, no 5,‎ , p. 511–515 (ISSN 1546-1696, PMID 20436464, PMCID 3146043, DOI 10.1038/nbt.1621, lire en ligne, consulté le )
  106. Jason R. Miller, Sergey Koren et Granger Sutton, « Assembly algorithms for next-generation sequencing data », Genomics, vol. 95, no 6,‎ , p. 315–327 (ISSN 0888-7543, PMID 20211242, PMCID 2874646, DOI 10.1016/j.ygeno.2010.03.001, lire en ligne, consulté le )
  107. Shawn T. O’Neil et Scott J. Emrich, « Assessing De Novo transcriptome assembly metrics for consistency and utility », BMC Genomics, vol. 14, no 1,‎ , p. 465 (ISSN 1471-2164, PMID 23837739, PMCID 3733778, DOI 10.1186/1471-2164-14-465, lire en ligne, consulté le )
  108. (en) Richard Smith-Unna, Chris Boursnell, Rob Patro et Julian M. Hibberd, « TransRate: reference-free quality assessment of de novo transcriptome assemblies », Genome Research, vol. 26, no 8,‎ , p. 1134–1144 (ISSN 1088-9051 et 1549-5469, PMID 27252236, PMCID 4971766, DOI 10.1101/gr.196469.115, lire en ligne, consulté le )
  109. Bo Li, Nathanael Fillmore, Yongsheng Bai et Mike Collins, « Evaluation of de novo transcriptome assemblies from RNA-Seq data », Genome Biology, vol. 15, no 12,‎ , p. 553 (ISSN 1474-760X, PMID 25608678, PMCID 4298084, DOI 10.1186/s13059-014-0553-5, lire en ligne, consulté le )
  110. (en) Nils Gehlenborg, Seán I. O'Donoghue, Nitin S. Baliga et Alexander Goesmann, « Visualization of omics data for systems biology », Nature Methods, vol. 7, no 3,‎ , S56–S68 (ISSN 1548-7105, DOI 10.1038/nmeth.1436, lire en ligne, consulté le )
  111. a b c et d Gilbert Deléage et Manolo Emmanuel Gouy, Bioinformatique: cours et applications, Dunod, coll. « Sciences sup », (ISBN 978-2-10-072752-0)
  112. (en) Nicolas L. Bray, Harold Pimentel, Páll Melsted et Lior Pachter, « Near-optimal probabilistic RNA-seq quantification », Nature Biotechnology, vol. 34, no 5,‎ , p. 525–527 (ISSN 1546-1696, DOI 10.1038/nbt.3519, lire en ligne, consulté le )
  113. a et b (en) Cole Trapnell, David G. Hendrickson, Martin Sauvageau et Loyal Goff, « Differential analysis of gene regulation at transcript resolution with RNA-seq », Nature Biotechnology, vol. 31, no 1,‎ , p. 46–53 (ISSN 1546-1696, PMID 23222703, PMCID 3869392, DOI 10.1038/nbt.2450, lire en ligne, consulté le )
  114. Michael I. Love, Wolfgang Huber et Simon Anders, « Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2 », Genome Biology, vol. 15, no 12,‎ , p. 550 (ISSN 1474-760X, PMID 25516281, PMCID 4302049, DOI 10.1186/s13059-014-0550-8, lire en ligne, consulté le )
  115. (en) Alyssa C. Frazee, Geo Pertea, Andrew E. Jaffe et Ben Langmead, « Ballgown bridges the gap between transcriptome assembly and expression analysis », Nature Biotechnology, vol. 33, no 3,‎ , p. 243–246 (ISSN 1546-1696, PMID 25748911, PMCID 4792117, DOI 10.1038/nbt.3172, lire en ligne, consulté le )
  116. Zhide Fang et Xiangqin Cui, « Design and validation issues in RNA-seq experiments », Briefings in Bioinformatics, vol. 12, no 3,‎ , p. 280–287 (ISSN 1467-5463, DOI 10.1093/bib/bbr004, lire en ligne, consulté le )
  117. (en) Daniel Ramsköld, Eric T. Wang, Christopher B. Burge et Rickard Sandberg, « An Abundance of Ubiquitously Expressed Genes Revealed by Tissue Transcriptome Sequence Data », PLOS Computational Biology, vol. 5, no 12,‎ , e1000598 (ISSN 1553-7358, PMID 20011106, PMCID 2781110, DOI 10.1371/journal.pcbi.1000598, lire en ligne, consulté le )
  118. Jo Vandesompele, Katleen De Preter, Filip Pattyn et Bruce Poppe, « Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes », Genome Biology, vol. 3, no 7,‎ , research0034.1 (ISSN 1474-760X, PMID 12184808, PMCID 126239, DOI 10.1186/gb-2002-3-7-research0034, lire en ligne, consulté le )
  119. Leighton J. Core, Joshua J. Waterfall et John T. Lis, « Nascent RNA Sequencing Reveals Widespread Pausing and Divergent Initiation at Human Promoters », Science, vol. 322, no 5909,‎ , p. 1845–1848 (PMID 19056941, PMCID 2833333, DOI 10.1126/science.1162228, lire en ligne, consulté le )
  120. (en) Laura Camarena, Vincent Bruno, Ghia Euskirchen et Sebastian Poggio, « Molecular Mechanisms of Ethanol-Induced Pathogenesis Revealed by RNA-Sequencing », PLOS Pathogens, vol. 6, no 4,‎ , e1000834 (ISSN 1553-7374, PMID 20368969, PMCID 2848557, DOI 10.1371/journal.ppat.1000834, lire en ligne, consulté le )
  121. Ugrappa Nagalakshmi, Zhong Wang, Karl Waern et Chong Shou, « The Transcriptional Landscape of the Yeast Genome Defined by RNA Sequencing », Science, vol. 320, no 5881,‎ , p. 1344–1349 (PMID 18451266, PMCID 2951732, DOI 10.1126/science.1158441, lire en ligne, consulté le )
  122. a et b (en) Geetha Govind, Harshavardhan Vokkaliga ThammeGowda, Patricia Jayaker Kalaiarasi et Dhanalakshmi Ramchandra Iyer, « Identification and functional validation of a unique set of drought induced genes preferentially expressed in response to gradual water stress in peanut », Molecular Genetics and Genomics, vol. 281, no 6,‎ , p. 591–605 (ISSN 1617-4623, PMID 19224247, PMCID 2757612, DOI 10.1007/s00438-009-0432-z, lire en ligne, consulté le )
  123. Iman Tavassoly, Joseph Goldfarb et Ravi Iyengar, « Systems biology primer: the basic methods and approaches », Essays in Biochemistry, vol. 62, no 4,‎ , p. 487–500 (ISSN 0071-1365, DOI 10.1042/EBC20180003, lire en ligne, consulté le )
  124. (en) Valerio Costa, Marianna Aprile, Roberta Esposito et Alfredo Ciccodicola, « RNA-Seq and human complex diseases: recent accomplishments and future perspectives », European Journal of Human Genetics, vol. 21, no 2,‎ , p. 134–142 (ISSN 1476-5438, PMID 22739340, PMCID 3548270, DOI 10.1038/ejhg.2012.129, lire en ligne, consulté le )
  125. (en) Ekta Khurana, Yao Fu, Dimple Chakravarty et Francesca Demichelis, « Role of non-coding sequence variants in cancer », Nature Reviews Genetics, vol. 17, no 2,‎ , p. 93–108 (ISSN 1471-0064, DOI 10.1038/nrg.2015.17, lire en ligne, consulté le )
  126. (en) R. Keith Slotkin et Robert Martienssen, « Transposable elements and the epigenetic regulation of the genome », Nature Reviews Genetics, vol. 8, no 4,‎ , p. 272–285 (ISSN 1471-0064, DOI 10.1038/nrg2072, lire en ligne, consulté le )
  127. (en) Valentina Proserpio et Bidesh Mahata, « Single-cell technologies to study the immune system », Immunology, vol. 147, no 2,‎ , p. 133–140 (ISSN 1365-2567, PMID 26551575, PMCID 4717243, DOI 10.1111/imm.12553, lire en ligne, consulté le )
  128. a et b (en) Sara A. Byron, Kendall R. Van Keuren-Jensen, David M. Engelthaler et John D. Carpten, « Translating RNA sequencing into clinical diagnostics: opportunities and challenges », Nature Reviews Genetics, vol. 17, no 5,‎ , p. 257–271 (ISSN 1471-0064, PMID 26996076, PMCID 7097555, DOI 10.1038/nrg.2016.10, lire en ligne, consulté le )
  129. Hsing-Ju Wu, Andrew H-J Wang et Michael P Jennings, « Discovery of virulence factors of pathogenic bacteria », Current Opinion in Chemical Biology, vol. 12, no 1,‎ , p. 93–101 (ISSN 1367-5931, DOI 10.1016/j.cbpa.2008.01.023, lire en ligne, consulté le )
  130. (en) Shingo Suzuki, Takaaki Horinouchi et Chikara Furusawa, « Prediction of antibiotic resistance by gene expression profiles », Nature Communications, vol. 5, no 1,‎ , p. 5792 (ISSN 2041-1723, PMID 25517437, PMCID 4351646, DOI 10.1038/ncomms6792, lire en ligne, consulté le )
  131. (en) Alexander J. Westermann, Stanislaw A. Gorski et Jörg Vogel, « Dual RNA-seq of pathogen and host », Nature Reviews Microbiology, vol. 10, no 9,‎ , p. 618–630 (ISSN 1740-1534, DOI 10.1038/nrmicro2852, lire en ligne, consulté le )
  132. (en) Saliha Durmuş, Tunahan Çakır, Arzucan Özgür et Reinhard Guthke, « A review on computational systems biology of pathogen–host interactions », Frontiers in Microbiology, vol. 6,‎ (ISSN 1664-302X, PMID 25914674, PMCID 4391036, DOI 10.3389/fmicb.2015.00235, lire en ligne, consulté le )
  133. a et b (en) Rohini Garg, Rama Shankar, Bijal Thakkar et Himabindu Kudapa, « Transcriptome analyses reveal genotype- and developmental stage-specific molecular responses to drought and salinity stresses in chickpea », Scientific Reports, vol. 6, no 1,‎ , p. 19228 (ISSN 2045-2322, PMID 26759178, PMCID 4725360, DOI 10.1038/srep19228, lire en ligne, consulté le )
  134. Susana García-Sánchez, Sylvie Aubert, Ismaïl Iraqui et Guilhem Janbon, « Candida albicans Biofilms: a Developmental State Associated With Specific and Stable Gene Expression Patterns », Eukaryotic Cell, vol. 3, no 2,‎ , p. 536–545 (PMID 15075282, PMCID 387656, DOI 10.1128/ec.3.2.536-545.2004, lire en ligne, consulté le )
  135. Stephen M. Rich, Fabian H. Leendertz, Guang Xu et Matthew LeBreton, « The origin of malignant malaria », Proceedings of the National Academy of Sciences, vol. 106, no 35,‎ , p. 14902–14907 (PMID 19666593, PMCID 2720412, DOI 10.1073/pnas.0907740106, lire en ligne, consulté le )
  136. Sachel Mok, Elizabeth A. Ashley, Pedro E. Ferreira et Lei Zhu, « Population transcriptomics of human malaria parasites reveals the mechanism of artemisinin resistance », Science, vol. 347, no 6220,‎ , p. 431–435 (PMID 25502316, PMCID 5642863, DOI 10.1126/science.1260403, lire en ligne, consulté le )
  137. a b c et d (en) Tessa M. Page et Jonathan W. Lawley, « The Next Generation Is Here: A Review of Transcriptomic Approaches in Marine Ecology », Frontiers in Marine Science, vol. 9,‎ (ISSN 2296-7745, DOI 10.3389/fmars.2022.757921, lire en ligne, consulté le )
  138. (en) Nathalie Verbruggen, Christian Hermans et Henk Schat, « Molecular mechanisms of metal hyperaccumulation in plants », New Phytologist, vol. 181, no 4,‎ , p. 759–776 (ISSN 1469-8137, DOI 10.1111/j.1469-8137.2008.02748.x, lire en ligne, consulté le )
  139. Zhen Li, Zhonghua Zhang, Pengcheng Yan et Sanwen Huang, « RNA-Seq improves annotation of protein-coding genes in the cucumber genome », BMC Genomics, vol. 12, no 1,‎ , p. 540 (ISSN 1471-2164, PMID 22047402, PMCID 3219749, DOI 10.1186/1471-2164-12-540, lire en ligne, consulté le )
  140. Matthew Hobbs, Ana Pavasovic, Andrew G. King et Peter J. Prentis, « A transcriptome resource for the koala (Phascolarctos cinereus): insights into koala retrovirus transcription and sequence diversity », BMC Genomics, vol. 15, no 1,‎ , p. 786 (ISSN 1471-2164, PMID 25214207, PMCID 4247155, DOI 10.1186/1471-2164-15-786, lire en ligne, consulté le )
  141. Glenn T. Howe, Jianbin Yu, Brian Knaus et Richard Cronn, « A SNP resource for Douglas-fir: de novotranscriptome assembly and SNP detection and validation », BMC Genomics, vol. 14, no 1,‎ , p. 137 (ISSN 1471-2164, PMID 23445355, PMCID 3673906, DOI 10.1186/1471-2164-14-137, lire en ligne, consulté le )
  142. Lara Lewis McGrath, Steven V. Vollmer, Stefan T. Kaluziak et Joseph Ayers, « De novo transcriptome assembly for the lobster Homarus americanus and characterization of differential gene expression across nervous system tissues », BMC Genomics, vol. 17, no 1,‎ , p. 63 (ISSN 1471-2164, PMID 26772543, PMCID 4715275, DOI 10.1186/s12864-016-2373-3, lire en ligne, consulté le )
  143. Harry F. Noller, « RIBOSOMAL RNA AND TRANSLATION », Annual Review of Biochemistry, vol. 60, no Volume 60, 1991,‎ , p. 191–227 (ISSN 0066-4154 et 1545-4509, DOI 10.1146/annurev.bi.60.070191.001203, lire en ligne, consulté le )
  144. Christo P. Christov, « Functional Requirement of Noncoding Y RNAs for Human Chromosomal DNA Replication », Molecular and Cellular Biology, vol. 26, no 18,‎ , p. 6993–7004 (PMID 16943439, PMCID 1592862, DOI 10.1128/MCB.01060-06, lire en ligne, consulté le )
  145. Shivendra Kishore et Stefan Stamm, « The snoRNA HBII-52 Regulates Alternative Splicing of the Serotonin Receptor 2C », Science, vol. 311, no 5758,‎ , p. 230–232 (DOI 10.1126/science.1118265, lire en ligne, consulté le )
  146. (en) Alexander Hüttenhofer, Peter Schattner et Norbert Polacek, « Non-coding RNAs: hope or hype? », Trends in Genetics, vol. 21, no 5,‎ , p. 289–297 (ISSN 0168-9525, DOI 10.1016/j.tig.2005.03.007, lire en ligne, consulté le )
  147. (en) Manel Esteller, « Non-coding RNAs in human disease », Nature Reviews Genetics, vol. 12, no 12,‎ , p. 861–874 (ISSN 1471-0064, DOI 10.1038/nrg3074, lire en ligne, consulté le )
  148. « Home - GEO - NCBI », sur www.ncbi.nlm.nih.gov (consulté le )
  149. (en) Alvis Brazma, Pascal Hingamp, John Quackenbush et Gavin Sherlock, « Minimum information about a microarray experiment (MIAME)—toward standards for microarray data », Nature Genetics, vol. 29, no 4,‎ , p. 365–371 (ISSN 1546-1718, DOI 10.1038/ng1201-365, lire en ligne, consulté le ).
  150. (en) Alvis Brazma, « Minimum Information About a Microarray Experiment (MIAME) – Successes, Failures, Challenges », The Scientific World Journal, vol. 9, no 1,‎ , p. 625419 (ISSN 1537-744X, PMID 19484163, PMCID 5823224, DOI 10.1100/tsw.2009.57, lire en ligne, consulté le ).
  151. (en) Tomas Hruz, Oliver Laule, Gabor Szabo et Frans Wessendorp, « Genevestigator V3: A Reference Expression Database for the Meta-Analysis of Transcriptomes », Advances in Bioinformatics, vol. 2008, no 1,‎ , p. 420747 (ISSN 1687-8035, PMID 19956698, PMCID 2777001, DOI 10.1155/2008/420747, lire en ligne, consulté le )
  152. Nobutaka Mitsuhashi, Kaori Fujieda, Takuro Tamura et Shoko Kawamoto, « BodyParts3D: 3D structure database for anatomical concepts », Nucleic Acids Research, vol. 37, no suppl_1,‎ , D782–D785 (ISSN 0305-1048, PMID 18835852, PMCID 2686534, DOI 10.1093/nar/gkn613, lire en ligne, consulté le )