Статья
Биоинформатический подход к обработке данных высокопроизводительного секвенирования молекул малых РНК
Высокопроизводительное секвенирование молекул малых РНК (рибонуклеиновых кислот) широко применяют для поиска маркеров, характерных для различных заболеваний, а также при изучении регуляции экспрессии генов. Протокол обработки данных состоит из множества этапов, включающих стадии анализа качества исходных данных и результатов секвенирования, картирования и исследования экспрессионного профиля детектируемых молекул малых РНК. Для реализации каждого шага исследования уже разработан целый арсенал программ и специфических пакетов. Инструментальная композиция итогового биоинформатического протокола критически важна для корректной обработки данных и возможности воспроизвести исследование. В настоящем обзоре описан наиболее универсальный протокол обработки результатов высокопроизводительного секвенирования молекул малых РНК, включающий все основные этапы и наиболее широко используемые программы.
1. Shi J, Zhou T, Chen Q. Exploring the expanding universe of small RNAs. Nat Cell Biol. 2022;24:415-23. doi:10.1038/s41556-022-00880-5.
2. Kopp F, Mendell JT. Functional classification and experimental dissection of long noncoding RNAs. Cell. 2018;172:393-407. doi:10.1016/j.cell.2018.01.011.
3. Frankish A, Carbonell-Sala S, Diekhans M, et al. GENCODE: reference annotation for the human and mouse genomes in 2023. Nucleic Acids Res. 2023;51:D942-9. doi:10.1093/nar/gkac1071.
4. Fazmin IT, Achercouk Z, Edling CE, et al. Circulating microRNA as a biomarker for coronary artery disease. Biomolecules. 2020;10: 1354. doi:10.3390/biom10101354.
5. Cui M, Wang H, Yao X, et al. Circulating MicroRNAs in cancer: Potential and challenge. Front Genet. 2019;10:626. doi:10.3389/fgene.2019.00626.
6. Grasso M, Piscopo P, Confaloni A, et al. Circulating miRNAs as biomarkers for neurodegenerative disorders. Molecules. 2014; 19:6891-910. doi:10.3390/molecules19056891.
7. Zharikova AA, Mironov AA. piRNAs: Biology and Bioinformatics. Mol Biol (Mosk). 2016;50:80-8. doi:10.7868/S0026898416010225.
8. Choudhuri S. Small noncoding RNAs: biogenesis, function, and emerging significance in toxicology. J Biochem Mol Toxicol. 2010;24:195-216. doi:10.1002/jbt.20325.
9. Lee RC, Feinbaum RL, Ambros V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 1993;75:843-54. doi:10.1016/0092-8674(93)90529-y.
10. Bartel DP. MicroRNAs: genomics, biogenesis, mechanism, and function. Cell. 2004;116:281-97. doi:10.1016/s0092-8674(04)00045-5.
11. McAlexander MA, Phillips MJ, Witwer KW. Comparison of methods for miRNA extraction from plasma and quantitative recovery of RNA from cerebrospinal fluid. Front Genet. 2013;4:83. doi:10.3389/fgene.2013.00083.
12. Page K, Guttery DS, Zahra N, et al. Influence of plasma processing on recovery and analysis of circulating nucleic acids. PLoS One. 2013;8:e77963. doi:10.1371/journal.pone.0077963.
13. Wong RKY, MacMahon M, Woodside JV, et al. A comparison of RNA extraction and sequencing protocols for detection of small RNAs in plasma. BMC Genomics. 2019;20:446. doi:10.1186/s12864-019-5826-7.
14. Sorefan K, Pais H, Hall AE, et al. Reducing ligation bias of small RNAs in libraries for next generation sequencing. Silence. 2012;3:4. doi:10.1186/1758-907X-3-4.
15. Hu T, Chitnis N, Monos D, Dinh A. Next-generation sequencing technologies: An overview. Hum Immunol. 2021;82:801-11. doi:10.1016/j.humimm.2021.02.012.
16. Ewing B, Hillier L, Wendl MC, et al. Base-calling of automated sequencer traces using phred. I. Accuracy assessment. Genome Res. 1998;8:175-85. doi:10.1101/gr.8.3.175.
17. Smith T, Heger A, Sudbery I. UMI-tools: modeling sequencing errors in Unique Molecular Identifiers to improve quantification accuracy. Genome Res. 2017;27:491-9. doi:10.1101/gr.209601.116.
18. Bolger AM, Lohse M, Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 2014;30:2114-20. doi:10.1093/bioinformatics/btu170.
19. Miga KH, Newton Y, Jain M, et al. Centromere reference models for human chromosomes X and Y satellite arrays. Genome Res. 2014;24:697-707. doi:10.1101/gr.159624.113.
20. Aganezov S, Yan SM, Soto DC, et al. A complete reference genome improves analysis of human genetic variation. Science. 2022;376:eabl3533. doi:10.1126/science.abl3533.
21. Luu P-L, Ong P-T, Dinh T-P, et al. Benchmark study comparing liftover tools for genome conversion of epigenome sequencing data. NAR Genom Bioinform. 2020;2:lqaa054. doi:10.1093/nargab/lqaa054.
22. Conesa A, Madrigal P, Tarazona S, et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 2016;17:13. doi:10.1186/s13059-016-0881-8.
23. Harrison PW, Amode MR, Austine-Orimoloye O, et al. Ensembl 2024. Nucleic Acids Res. 2024;52:D891-9. doi:10.1093/nar/gkad1049.
24. Zhang H. Overview of sequence data formats. Methods Mol Biol. 2016;1418:3-17. doi:10.1007/978-1-4939-3578-9_1.
25. Dobin A, Davis CA, Schlesinger F, et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 2013;29:15-21. doi:10.1093/bioinformatics/bts635.
26. Kim D, Paggi JM, Park C, et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol. 2019;37:907-15. doi:10.1038/s41587-019-0201-4.
27. Bezuglov V, Stupnikov A, Skakov I, et al. Approaches for sRNA analysis of human RNA-seq data: Comparison, benchmarking. Int J Mol Sci. 2023;24:4195. doi:10.3390/ijms24044195.
28. Ziemann M, Kaspi A, El-Osta A. Evaluation of microRNA alignment techniques. RNA. 2016;22:1120-38. doi:10.1261/rna.055509.115.
29. Danecek P, Bonfield JK, Liddle J, et al. Twelve years of SAMtools and BCFtools. Gigascience. 2021;10. doi:10.1093/gigascience/giab008.
30. Sai Lakshmi S, Agrawal S. piRNABank: a web resource on classified and clustered Piwi-interacting RNAs. Nucleic Acids Res. 2008;36:D173-7. doi:10.1093/nar/gkm696.
31. Chen X, Han P, Zhou T, et al. circRNADb: A comprehensive data-base for human circular RNAs with protein-coding annotations. Sci Rep. 2016;6. doi:10.1038/srep34985.
32. Friedländer MR, Mackowiak SD, Li N, et al. miRDeep2 accurately identifies known and hundreds of novel microRNA genes in seven animal clades. Nucleic Acids Res. 2012;40:37-52. doi:10.1093/nar/gkr688.
33. Tav C, Tempel S, Poligny L, et al. miRNAFold: a web server for fast miRNA precursor prediction in genomes. Nucleic Acids Res. 2016;44:W181-4. doi:10.1093/nar/gkw459.
34. Vitsios DM, Kentepozidou E, Quintais L, et al. Mirnovo: genomefree prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Res. 2017;45:e177. doi:10.1093/nar/gkx836.
35. Agnelli L, Bortoluzzi S, Pruneri G. Bioinformatic pipelines to analyze lncRNAs RNAseq data. Methods Mol Biol. 2021;2348:55-69. doi:10.1007/978-1-0716-1581-2_4.
36. Chatterjee A, Ahn A, Rodger EJ, et al. A guide for designing and analyzing RNA-Seq data. Methods Mol Biol. 2018;1783:35-80. doi:10.1007/978-1-4939-7834-2_3.
37. Hans FP, Moser M, Bode C, et al. MicroRNA regulation of angiogenesis and arteriogenesis. Trends Cardiovasc Med. 2010;20:253-62. doi:10.1016/j.tcm.2011.12.001.
38. Khan J, Lieberman JA, Lockwood CM. Variability in, variability out: best practice recommendations to standardize pre-analytical variables in the detection of circulating and tissue microRNAs. Clin Chem Lab Med. 2017;55:608-21. doi:10.1515/cclm-2016-0471.
39. Enright A, John B, Gaul U, et al. MicroRNA Targets in Drosophila. Genome Biol. 2003;4:P8. doi:10.1186/gb-2003-4-11-p8.
40. Agarwal V, Bell GW, Nam J-W, et al. Predicting effective microRNA target sites in mammalian mRNAs. Elife. 2015;4. doi:10.7554/eLife.05005.
41. Cihan M, Andrade-Navarro MA. Detection of features predictive of microRNA targets by integration of network data. PLoS One. 2022;17:e0269731. doi:10.1371/journal.pone.0269731.
42. Geistlinger L, Csaba G, Santarelli M, et al. Toward a gold standard for benchmarking gene set enrichment analysis. Brief Bioinform. 2021;22:545-56. doi:10.1093/bib/bbz158.