FASTQ格式
FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
该格式最初由维尔康姆基金会桑格研究所开发,旨在将FASTA格式序列及其质量数据整合在一起。而目前,FASTQ格式已经成为了保存高通量测序结果的事实标准。[1]
格式
    
FASTQ文件中,一个序列通常由四行组成:
- 第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
- 第二行为序列信息
- 第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
- 第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同
以下为一个包含单个序列的FASTQ文件示例:
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
其中!为最低质量、~则为最高质量。以下字符从左到右代表从低到高的质量得分的:
 !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
字符与对应的ASCII码如下:
| 十进制 | 图形 | 
|---|---|
| 33 | ! | 
| 34 | " | 
| 35 | # | 
| 36 | $ | 
| 37 | % | 
| 38 | & | 
| 39 | ' | 
| 40 | ( | 
| 41 | ) | 
| 42 | * | 
| 43 | + | 
| 44 | , | 
| 45 | - | 
| 46 | . | 
| 47 | / | 
| 48 | 0 | 
| 十进制 | 图形 | 
|---|---|
| 49 | 1 | 
| 50 | 2 | 
| 51 | 3 | 
| 52 | 4 | 
| 53 | 5 | 
| 54 | 6 | 
| 55 | 7 | 
| 56 | 8 | 
| 57 | 9 | 
| 58 | : | 
| 59 | ; | 
| 60 | < | 
| 61 | = | 
| 62 | > | 
| 63 | ? | 
| 64 | @ | 
| 十进制 | 图形 | 
|---|---|
| 65 | A | 
| 66 | B | 
| 67 | C | 
| 68 | D | 
| 69 | E | 
| 70 | F | 
| 71 | G | 
| 72 | H | 
| 73 | I | 
| 74 | J | 
| 75 | K | 
| 76 | L | 
| 77 | M | 
| 78 | N | 
| 79 | O | 
| 80 | P | 
| 十进制 | 图形 | 
|---|---|
| 81 | Q | 
| 82 | R | 
| 83 | S | 
| 84 | T | 
| 85 | U | 
| 86 | V | 
| 87 | W | 
| 88 | X | 
| 89 | Y | 
| 90 | Z | 
| 91 | [ | 
| 92 | \ | 
| 93 | ] | 
| 94 | ^ | 
| 95 | _ | 
| 96 | ` | 
| 十进制 | 图形 | 
|---|---|
| 97 | a | 
| 98 | b | 
| 99 | c | 
| 100 | d | 
| 101 | e | 
| 102 | f | 
| 103 | g | 
| 104 | h | 
| 105 | i | 
| 106 | j | 
| 107 | k | 
| 108 | l | 
| 109 | m | 
| 110 | n | 
| 111 | o | 
| 112 | p | 
| 十进制 | 图形 | 
|---|---|
| 113 | q | 
| 114 | r | 
| 115 | s | 
| 116 | t | 
| 117 | u | 
| 118 | v | 
| 119 | w | 
| 120 | x | 
| 121 | y | 
| 122 | z | 
| 123 | { | 
| 124 | | | 
| 125 | } | 
| 126 | ~ | 
最初桑格研究所的FASTQ格式允许序列与质量信息分成多行保存。但一般不推荐采用这种方式,因为第一、第三行开头的@与+符号同样也可能出现在质量信息中,可能会造成信息提取的困难。
参见
    
    
参考文献
    
-  Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. . Nucleic Acids Research. 2009, 38 (6): 1767–1771. PMC 2847217  . PMID 20015970. doi:10.1093/nar/gkp1137. . PMID 20015970. doi:10.1093/nar/gkp1137.
    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.