FASTQ格式

FASTQ格式是一种保存生物序列（通常为核酸序列）及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。

该格式最初由维尔康姆基金会桑格研究所开发，旨在将FASTA格式序列及其质量数据整合在一起。而目前，FASTQ格式已经成为了保存高通量测序结果的事实标准。[1]

格式

FASTQ文件中，一个序列通常由四行组成：

以下为一个包含单个序列的FASTQ文件示例：

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的：

 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

字符与对应的ASCII码如下：

最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式，因为第一、第三行开头的@与+符号同样也可能出现在质量信息中，可能会造成信息提取的困难。

Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. . Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217 . PMID 20015970. doi:10.1093/nar/gkp1137.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.