BED (文件格式)

BED(,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现[1]。BED文件是目前基因组学事实上的标准格式之一。

BED文件
.bed
text/x-bed
格式类型文本文件
网站https://samtools.github.io/hts-specs/BEDv1.pdf

格式

引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器中的描述文件[2]。2021年,全球基因组学与健康联盟(GA4GH)发布了首份BED文件格式的规范文件[3][4]

BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值\t)隔开,且每一行的列数必须相同[5]

下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。

BED文件的列
序号 原文名称 定义
1 chrom 染色体序号。有时也可以是测序脚手架的序号。
2 chromStart 区域起始位置的编号(染色体起始点设为0)
3 chromEnd 区域终止位置的编号
4 name 该行表示区域的名称
5 score 该区域的分数,如Peak calling(寻峰)的分数,应该在0-100之间
6 strand 该区域所在的DNA链,一般应取“+”(正链)、“-”(反义链),或“.”(不适用正反义链时)
7 thickStart 在基因组浏览器中应加粗表示区域的起始点(例如基因的起始密码子
8 thickEnd 在基因组浏览器中应加粗表示区域的终止点(例如基因的终止密码子
9 itemRgb 该区域在基因组浏览器中用什么颜色表示,应使用三原色光模式(RGB)系统的颜色代码
10 blockCount 该行表示的区域含多少个区块(例如外显子
11 blockSizes 该行表示的区域各个区块的长度。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同
12 blockStarts 该行表示的区域各个区块的开始点。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同

头行文件

一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息

  • "browser":与UCSC基因组浏览器设置相关的参数
  • "track": 与基因组浏览器中可视化参数设置相关
  • "#":注释内容,内容任意

文件扩展名

BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等[6]

例子

以下为一个含有最基本3列信息的BED文件范例:

chr7    127471196    127472363
chr7    127472363    127473530
chr7    127473530    127474697

以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。

browser position chr7:127471196-127495720
browser hide all
track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On"
chr7    127471196    127472363    Pos1    0    +    127471196    127472363    255,0,0
chr7    127472363    127473530    Pos2    0    +    127472363    127473530    255,0,0
chr7    127473530    127474697    Pos3    0    +    127473530    127474697    255,0,0
chr7    127474697    127475864    Pos4    0    +    127474697    127475864    255,0,0
chr7    127475864    127477031    Neg1    0    -    127475864    127477031    0,0,255
chr7    127477031    127478198    Neg2    0    -    127477031    127478198    0,0,255
chr7    127478198    127479365    Neg3    0    -    127478198    127479365    0,0,255
chr7    127479365    127480532    Pos5    0    +    127479365    127480532    255,0,0
chr7    127480532    127481699    Neg4    0    -    127480532    127481699    0,0,255

.genome格式

genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。

 chrom   size                                                                         
 chr1    248956422
 chr2    242193529
 chr3    198295559
 chr4    190214555
 chr5    181538259
 chr6    170805979
 chr7    159345973
 ...

参见

参考资料

  1. Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. . Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604可免费查阅. PMID 12045153. doi:10.1101/gr.229102可免费查阅.
  2. . UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始内容存档于2021-05-09).
  3. . www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始内容存档于2022-03-31).
  4. (PDF). samtools.github.io. [2022-05-07]. (原始内容 (PDF)存档于2022-01-21).
  5. Quinlan, AR; Hall, IM. (PDF). 21 September 2010 [3 October 2019]. (原始内容 (PDF)存档于2022-02-26).
  6. . Galaxy Community Hub. [3 October 2019]. (原始内容存档于2021-12-09).
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.