人类基因组计划

人类基因组计划英語:縮寫HGP)是一项规模高,跨国跨学科的科学探索巨型工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的六十亿对组成的核苷酸序列,从而繪製人类基因组圖譜,並且辨識其载有的基因及其序列,达到破译人类遗传信息的最终目的。基因组计划是人类为了探索自身的奥秘所迈出的重要一步。截至2005年,人类基因组计划的测序工作已经基本完成(92%)。其中,2001年人类基因组工作草图的发表(由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因組公司各自独立完成,并分别公开发表)被认为是人类基因组计划成功的里程碑。大多数政府资助的测序是在美国,英国,日本,法国,德国和中国的20所大学和研究中心进行[1]

徽标,取自达芬奇的维特鲁威人
美国能源部人类基因组计划徽标

国际人类基因组计划

国际人类基因组计划的启动的重要原因是美国能源部的推动。1984年,在美国犹他州的Alta,由美国政府资助的旨在讨论日益发展的DNA重组技术的会议上,科学家们第一次讨论了人类基因组测序的价值。[2]而首次对于人类基因组测序的可行性进行认真的探讨是在1986年由罗伯特·辛舍梅(Robert Sinsheimer)主持的会议上。[3]与会者的发言:“这计划(人类基因组启动计划)的最终目标是了解人类基因组”,“就像了解人类身体构造对于目前医学发展的贡献,对人类基因组的了解将对医学和其他健康科学研究提供必不可少的支持”。随后,美国健康与环境研究项目主任查尔斯·德利斯决定对人类基因组启动计划进行资助,用于发展关键性技术与资源。[4][5][6]

1988年,人类基因组计划再次得到显著的推动,DNA双螺旋结构的发现者和诺贝尔生理学或医学奖的获得者詹姆斯·沃森领导着美国国家卫生研究院中新成立的研究中心,加入了这个计划。对于人类基因组计划,沃森的评价是:“不尽快将它(人类基因组计划)完成将是非常不道德”,[7]“能让我的科学生涯从双螺旋(指的是组成人类染色体的单倍体中的核苷酸序列组成)跨越到人类基因组是我的榮幸”。[8]但1992年沃森于该计划的領導角色被弗朗西斯·柯林斯取代。

1990年,人类基因组计划由美国能源部和国家卫生研究院投資,预期在15年内完成。随后,该计划扩展为国际合作的计划,英国日本法国德国中国先后加入,形成了国际基因组测序联盟。为了协调各国人类基因组研究,1988年在维克多·马克库斯克等科学家的倡导下,国际人类基因组组织(HUGO)宣告成立。[4]

塞雷拉人类基因组计划

在国际人类基因组计划(以下简称“国际计划”)启动八年后的1998年,美国科学家克莱格·凡特创办了一家名为塞雷拉基因組(Celera Genomics)的私立公司,邀聘具基因定序之父的陳奕雄博士擔任首席科學家,开展独立的人类基因组计划。与国际人类基因组计划相比,该公司希望能以更快的速度和更少的投资(3亿美元,仅为国际计划的十分之一)来完成此项工程。塞雷拉基因組的另起计划被认为对人类基因组计划是一件好事,因为塞雷拉基因組的竞争促使国际人类基因组计划不得不改进其策略,进一步加速其工作进程,使得人类基因组计划得以提前完成。

特点

基於對基因結構的了解及對電子機具的認識,陳奕雄博士的團隊采用了更快速同时更具风险的技术全基因组霰弹枪测序法,進而創造出全世界第一台全自動定序儀ABI3600。霰弹枪测序法的思想是将基因组打断为数百万个DNA片段,然後用一定的算法将片段的序列信息重新整合在一起,从而得到整个基因组序列。为了提高这一方法的效率,1990年代,测序和片段信息整合达到了自动化。这一方法虽然已被用于序列长达6百万个碱基对的细菌基因组测序,但对于人类基因组中30亿碱基对的序列测定,这一技术能否成功在当时还未有定论。

基因的知识产权之争

塞雷拉基因組一开始宣称只寻求对200至300个基因的专利权保护,但随后又修改为寻求对“完全鉴定的重要结构”的总共100至300个靶基因进行知识产权保护。1999年,塞雷拉申请对6500个完整的或部分的人类基因进行初步专利保护;批评者认为这一举动将阻碍遗传学研究。[9]此外,塞雷拉建立之初,同意与国际计划分享数据,但这一协定很快就因为塞雷拉拒绝将自己的测序数据存入可以自由访问的公共数据库GenBank而破裂。虽然塞雷拉承诺根据1996年百慕大协定每季度发表他们的最新进展(国际计划则为每天),但不同于国际计划的是,他们不允许他人自由发布或无偿使用他们的数据。

2000年,經美国國家衛生研究院院長科林斯與賽雷拉公司集團協調後,由美國总统克林顿牽著兩個團隊領導人的手,宣布人類基因體計划完成,其所有人类基因组数据為人類共同財富,不允许专利保护,且必须对所有研究者公开,[10]塞雷拉最後决定将数据公开。但这一事件也导致塞雷拉的股票价格一路下挫,并使倚重生物技术股的纳斯达克指数受到重挫。

目標

人类基因组计划的分阶段目标如下[6]

  • 遗传图谱的绘制。遗传图谱主要是用遗传标签来确定基因在染色体上的排列。1994年9月,完成了包含3000个(原计划为600-1500)标签分辨率为1-cM(即1%重组率)的遗传图谱的绘制。
  • 物理图谱的绘制。物理图谱是通过序列标签位点对构成基因组的DNA分子进行测定,從而對某基因所相對之遺傳訊息及其在染色體上的相對位置做一線性排列。1998年10月,完成了包含52,000个(原计划为30,000)序列标签位点的物理图谱的绘制。
  • 序列测定。通过测序得到基因组的序列,是一般意义上的人类基因组计划。2003年4月,包含基因序列中的98%(原預計为95%)获得了测定,精确度为99.99%。
  • 辨别序列中的个体差异。每一个人都有唯一的基因序列,因此,人类基因组计划发布的数据不可能精确的反映单独个体的基因序列。它只是很少量匿名捐赠人基因组的组合。人类基因组计划只是为未来鉴定不同个体间基因组差异做一些基础的框架性工作。当前主要工作在于鉴定不同个体间包含的单核苷酸多态性。至2003年2月,已有约3,700,000个单核苷酸多态性位点得到测定。
  • 基因鉴定。以获得全长的人类cDNA文库为目标。至2003年3月,已获得15,000个全长的人类cDNA文库。人类基因组计划最开始的目标是不但以最小的错误率检测出人类基因的所有30亿个碱基对,还要从如此海量的数据中确认出所有的基因及其序列。這一部分计划正在进行中,尽管目前的数据显示在人类基因组中只有大约20,000至25,000个基因,远远低于大多数科学家先前的估计。
  • 基因的功能性分析。今天,人类DNA序列已经存储在数据库中,任何人都可以通过互联网下载。美国国家生物技术信息中心和位于欧洲和日本的姊妹组织储存着整个基因序列,其中包含已知序列,假设基因和蛋白质。其他组织像加州大学圣塔克鲁斯分校和ENSEMBL提供附加数据,注释和观察和检索数据的有力工具。用已开发的计算机程序来分析数据,因为未经过译码的数据基本上没有用处。而这一过程将要耗费大量的时间。对未加工的DNA数据,其中已知基因的位置的标注被称为注释序列(annotation),对注释序列进行分析工作属于生物信息学的范畴。如果只由有经验的生物学家对海量的数据进行标注,经常是非常缓慢的,所以一些特定的对DNA序列进行判别的计算机程序正被越来越多地应用在基因排序工程中。当前,分析注释序列的最佳技术是利用DNA序列和人类语言之间并行性的统计模型,采用类似于计算机科学中形式文法的概念。但是,使用自动标注的注释的准确度仍然不够理想。而且计算机程序的自动判定会复制已有注释中的错误,从而使错误越来越多。对于这些错误的纠正是一个非常巨大的工程。这一阶段的另一个目标是研发出更快更有效的方法来进行DNA测序和序列分析,并把这一技术加以产业化。已获得开发的技术包括高通量寡聚核苷酸的合成(1994年)、DNA微阵列(1996年)、标准化和消减化cDNA文库(1996年)、真核(酵母)全基因组敲除技术(1999年)、大型化双杂交定位(2002年)。

完成方式

资金来源

国际计划的资金主要来源于美国国家卫生研究院和英国慈善机构威康信托基金会,后者资助了位于英国的桑格研究中心和其他一些国家的研究机构。

基因组捐献者

国际人类基因组测序联盟的所用于测序的基因组取样于一大批捐献者的血液精子。只有少量的样品被用做DNA测序,又由于捐献者的身份是保密的,因此无论是捐献者或是科学家都不知道用于测序的DNA是来自哪些人。来自不同文库的DNA被克隆后用于整个计划,大多数文库由彼得·杨(Pieter J. de Jong)博士完成。科学家使用来自于两名男性和两名女性(捐献者中随机选出)的血液中的白血球,从中取得分离的DNA文库。由于质量较高,文库之一的RP11被较多地使用。有非正式的报道(在基因组计划的团体内部也盛行的说法)指出用于国际基因组计划的大部分DNA来自于住在纽约州布法罗的一名男性捐献者(编号为RP11)。[11]

塞雷拉基因組计划使用的DNA样品来源于五名捐献者。塞雷拉基因組的首席科学家克莱格·凡特在一篇写给《科学》杂志的公开信中承认他本人是捐献者之一。[12]

测序手段

在国际计划中,基因组被分割成多个片断(长度接近150,000个碱基对)。由于这些片断能被插入细菌中,并利用细菌的DNA复制机器进行复制,因此被称为细菌人工染色体。通过对每一个这样的片断分别应用“霰弹枪测序法”,最终将这些片断通过配对末端法(pair-end)以及其他许多定位数据重新组装在一起从而获得完整的基因组。[13]这一手段是先将基因组分成相对较大的片断,并且在对片断进行测序前将其定位到每条染色体对应位置,所以被称为“分级霰弹枪测序法”。

塞雷拉基因组尝试用全基因组霰弹枪测序法并且没有使用附加的定位拼接。[14]但他们由于利用了少量的公共数据来完成计划而招致他人诟病。[15]

人类基因组测序“完成”了吗?

关于如何界定人类基因组测序完成,有多种定义。根据不同的定义,人类基因组的测序是否完成有不同的看法。曾有多个大众媒体报道人类基因组计划“完成”,而且由国际人类基因组计划所采用的定义,基因组的测序已经完成。有统计数据显示,[16]截至2003年底,绝大部分的人类基因组已获得测定;但基因组中仍有许多的区域未获得测序。这其中的首要原因是在每条染色体的中心区域(称为着丝粒)含有大量重复DNA序列,用目前的技术进行测序的难度较大。着丝粒含有数百万(可能接近千万)的碱基对,其中的大多数完全没有得到测序。第二个原因是在染色体末端区域(称为端粒)同样含有高度重复的DNA序列。而且在46条染色体中,其末端大都不完整,因此无法精确地知道在端粒前还有多少序列;与着丝粒的情况类似,目前的技术很难测定这些序列。第三个原因是在每个人的基因组中都含有多个包含多基因家族成员的位点,这些位点的测序问题用霰弹枪测序法难以解决,而包含于这些位点中的多基因家族成员往往编码具有重要免疫功能的蛋白质。对于前两个原因,可以通过发展新的技术来解决测序问题。除了以上区域,还有一些间隙散布于基因组中,部分间隙较大,但有希望在数年内解决。总而言之,对于全基因组的大小的估计显示了92%的基因组已经获得测定,余下的高度重复的DNA序列不大可能含有基因,但在完成所有的测序之前,没有什么是确定无误的。

該項目無法對所有人類細胞中發現的DNA進行測序。它只對基因組的真染色質區域進行測序,這些區域佔人類基因組的92.1%。其他的區域稱為異染色質,發現於着絲粒端粒中,而該計畫並未對此測序[17]。人類基因組計劃(HGP)於2003年4月宣布完成。人類基因組的初步草圖於2000年6月問世,到2001年2月完成並發表了工作草案,隨後在2003年4月14日完成了人類基因組的最終測序。雖然有報導稱,該方法覆蓋了99%的全色人類基因組,準確率為99.99%,但2004年5月27日發表的一份對人類基因組序列的主要質量評估顯示,超過92%的樣本的準確率超過了99.99%,達到了預期目標[18]。關於HGP的進一步分析和論文不斷出現[19]。2009年3月,基因組參考聯盟(GRC)發布了一個更精確的人類基因組版本,但仍有300多個漏洞。截至2019年6月,GRC仍指出89個“未解決”的漏洞,其中大多數被標註為“暂停”或“正在調查/審查中”[20]

重大事件与进展

  • 2000年6月26日,美国总统克林顿与英国首相布莱尔共同宣布人类基因组计划工作草图完成;[21]次年2月,工作草图的具体序列信息、测序所采用的方法以及序列的分析结果被国际人类基因组测序联盟和塞雷拉基因組的科学家分别公开发表于《自然》与《科学》杂志。[13][14]这一工作草图覆盖了基因组序列的83%,包括常染色质区域的90%(带有150,000个空缺,且许多片断的顺序和方位并没有得到确定)。
  • 1999年至2006年,完成了全部24条染色体的测序工作,具体如下:
    • 1999年12月,22号染色体测序完成;[22]
    • 2000年5月,21号染色体测序完成;[23]
    • 2001年12月,20号染色体测序完成;[24]
    • 2003年2月,14号染色体测序完成;[25]
    • 2003年6月,男性特有的Y染色体测序完成;[26]
    • 2003年5月和7月,7号染色体测序完成;[27][28]
    • 2003年10月,6号染色体测序完成;[29]
    • 2004年4月,13号和19号染色体测序完成;[30][31]
    • 2004年5月,9号和10号染色体测序完成;[32][33]
    • 2004年9月,5号染色体测序完成;[34]
    • 2004年12月,16号染色体测序完成;[35]
    • 2005年3月,X染色体测序完成;[36]
    • 2005年4月,2号和4号染色体测序完成;[37]
    • 2005年9月,18号染色体测序完成;[38]
    • 2006年1月,8号染色体测序完成;[39]
    • 2006年3月,11号,12号和15号染色体测序完成;[40][41][42]
    • 2006年4月,17号和3号染色体测序完成;Human Genome Project Information 页面存档备份,存于
    • 2006年5月,1号染色体测序完成;Human Genome Project Information 页面存档备份,存于
  • 2004年,国际人类基因组测序联盟的研究者宣布,人类基因组中所含基因的预计数目从先前的30,000至40,000(在计划初期的预计数目则高达2,000,000)调整为20,000至25,000。预期还需要多年的时间来确定人类基因组中所含基因的精确数目。

意义

破译人类遗传信息,将对生物学,医学,乃至整个生命科学产生无法估量的深远影响。目前基因组信息的注释工作仍然处于初级阶段。随着将来对基因组的理解更加深入,新的知识会使医学生物技术领域发展更为迅速。基于DNA载有的信息在细胞生命活动中的指导作用,在分子生物学水平上深入了解疾病的产生过程将大力推动新的疗法和新药的开发研究。对于癌症老年痴呆症等疾病的病因研究也将会受益于基因组遗传信息的破解。事实上,在人类基因组计划完成之前,它的潜在使用价值就已经表现出来。大量的企业,例如巨数遗传公司开始提供价格合宜,而且容易使用的基因檢測,其声称可以预测包括乳腺癌凝血纤维性囊腫肝脏疾病在内的很多种疾病。[43]

此外,人类基因组计划将促成医学界的“个人化制药”的发展。对病人的整个基因序列的了解有助于医疗人员相应地提供最适合有效的帮助。的确,发展DNA科技将使得复制病人的基因组成本降低,相应的检查费用也会大大减少。

人类基因组计划对许多生物学研究领域有切实的帮助。例如,当科研人员研究一种癌症时,通过人类基因组计划所提供的信息,可能会找到某个,或些相关基因。如果在互联网上访问由人类基因组信息而建立的各种数据库,可以查询到其他科学家相关的文章,包括基因的DNAcDNA碱基顺序,蛋白质立體结构、功能,多态性,以及和人类其他基因之间的关系。也可找到和小鼠、酵母、果蝇等对应基因的进化关系,可能存在的突变及相关的信号传导机制。人类基因组计划对与肿瘤相关的癌基因,肿瘤抑制基因的研究工作,起到了重要的推动作用。

分析不同物种的DNA序列的相似性会给生物进化和演变的研究提供更广阔的路径。事实上,人类基因组计划提供的数据揭示了许多重要的生物进化史上的里程碑事件。如核糖体的出现,器官的产生,胚胎的发育,脊柱免疫系统等都和DNA载有的遗传信息有密切关系。

人类遗传信息也为考古学,犯罪学以及社会执法提供了极大的帮助。例如,分子人类学家通过母系遗传的线粒体DNA以及父系遗传的染色体Y确定了非洲确实是人类起源的摇篮。DNA证明了早在6万年前人类始祖便从非洲大陆迁徙到其他大洲的事实;大陆之间数列的异同也使得分子系统学家了解家族及个人的家谱关系。此外,通过收录已知犯人的DNA序列,有关政府加速了判别及震慑罪犯的措施。此执法方式被证明十分有成效但也常因迅速误判无辜嫌疑人而饱受争议。

延伸计划

  • 模式生物(包括小鼠、果蝇、线虫斑马鱼、酵母等)的基因组计划。
  • 人类元基因组计划:对人体内所用共生菌群的基因组进行序列测定,并研究与人体发育和健康相关基因的功能。
  • 国际人类基因组单体型图计划(简称HapMap计划):目标是构建人类DNA序列中多态位点的常见模式。由于每个个体(除了孪生子和克隆动物)的基因组都有独特之处,因此有必要对个体之间的差异在基因组上进行定位。其完成将为研究人员确定对人类健康和疾病以及对药物和环境反应有影响的相关基因提供关键信息。
  • 人类基因组多样性研究计划:对不同人种、民族、人群的基因组进行研究和比较。这一计划将为疾病监测、人类的进化研究和人类学研究提供重要信息。

后基因组时代

  • 功能基因组学
  • 疾病基因组学
  • 药物基因组学
  • 进化基因组学

参见

  • 国际人类基因组单体型图计划(HapMap)
  • 黑猩猩基因组计划
  • ENCODE
  • 千人基因组计划
  • 人类脑计划 (Human Brain Project, HBP)
  • 人类连接组计划(Human Connectome Project)
  • 人类蛋白质组计划
  • 人类基因组
  • 人类微生物组计划(HMP)
  • 基因组学
  • 蛋白质组学
  • 连接组学
  • 代谢物组学
  • 糖组学
  • 遗传学
  • 分子生物学
  • 生物信息学
  • DNA测序
  • 人类基因组编写计划
  • 人类基因组多样性研究计划
  • 尼安德特人基因組計劃
  • 抗癌靶向藥物

参考文献

  1. . genome.gov. [2015-09-08]. (原始内容存档于2017-12-11).
  2. (英文)Cook-Deegan R. . Genomics. 1989, 5: 661–663 [2007-08-02]. (原始内容存档于2013-05-13).
  3. (英文)Barnhart, Benjamin J. . Human Genome Quarterly. 1989, 1: 1 [2005-04-20]. (原始内容存档于2012-04-20). Retrieved 2005-02-03.
  4. (英文)Major Events in the U.S. Human Genome Project and Related Projects 页面存档备份,存于
  5. (英文)DeLisi, Charles. . Human Genome News. 2001, 11: 3–4 [2005-04-20]. (原始内容存档于2005-09-08). Retrieved 2005-02-03.
  6. (英文)Collins, F.S., Morgan, M., Patrinos, A. . Science. 2003, 300: 286–290.
  7. (英文)Angier, Natalie. . The New York Times. June 5, 1990: C1.
  8. (英文)Watson, James. . Science. 1990, 248: 44.
  9. (英文). BBC News. October 27, 1999 [2007-08-04]. (原始内容存档于2017-08-28).
  10. (英文). CNN. March 14, 2000 [2007年8月4日]. (原始内容存档于2007年6月22日).
  11. (英文)Osoegawa, Kazutoyo. . Genome Research. 2001, 11: 483–496 [2007-08-04]. (原始内容存档于2008-06-20).
  12. (英文)Kennedy D. . Science. 2002, 297: 1237. PMID 12193755.
  13. (英文)International Human Genome Sequencing Consortium. (PDF). Nature. 2001, 409: 860−921 [2007-08-03]. (原始内容存档 (PDF)于2007-07-12).
  14. (英文)Venter, JC; et al. (PDF). Science. 2001, 291: 1304−1351 [2007-08-03]. (原始内容存档 (PDF)于2007-07-13).
  15. (英文)Waterston RH, Lander ES, Sulston JE. . Proc Natl Acad Sci U S A. 2003, 100: 3022–4. PMID 12631699.
  16. (英文)How much of the human genome has been sequenced? 页面存档备份,存于
  17. . Genoscope. Centre National de Séquençage. 2013-10-19 [12 February 2015]. (原始内容存档于2015-07-22).
  18. Schmutz, Jeremy; Wheeler, Jeremy; Grimwood, Jane; Dickson, Mark; Yang, Joan; Caoile, Chenier; Bajorek, Eva; Black, Stacey; Chan, Yee Man; Denys, Mirian; Escobar, Julio; Flowers, Dave; Fotopulos, Dea; Garcia, Carmen; Gomez, Maria; Gonzales, Eidelyn; Haydu, Lauren; Lopez, Frederick; Ramirez, Lucia; Retterer, James; Rodriguez, Alex; Rogers, Stephanie; Salazar, Angelica; Tsai, Ming; Myers, Richard M. . Nature. 2004, 429 (6990): 365–368. Bibcode:2004Natur.429..365S. PMID 15164052. doi:10.1038/nature02390.
  19. . ornl.gov. [2019-09-13]. (原始内容存档于2020-11-27).
  20. . Genome Reference Consortium. [2019-06-29]. (原始内容存档于2020-10-11).
  21. (英文)WADE, NICHOLAS. . The New York Times. June 26, 2000 [2007-08-03]. (原始内容存档于2016-03-19).
  22. (英文)Dunham I.; et al. . Nature. 1999, 402: 489–495.
  23. (英文)Hattori M.; et al. . Nature. 2000, 405: 311–319.
  24. (英文)Deloukas P.; et al. . Nature. 2001, 414: 865–871.
  25. (英文)Heilig R.; et al. . Nature. 2003, 421: 601–607.
  26. (英文)Skaletsky H.; et al. . Nature. 2003, 423: 825–837.
  27. (英文)Scherer SW; et al. . Science. 2003, 300: 762–772.
  28. (英文)Hillier LW; et al. . Nature. 2003, 424: 157–164.
  29. (英文)Mungall AJ; et al. . Nature. 2003, 425: 805–811.
  30. (英文)Dunham A; et al. . Nature. 2004, 428: 522–528.
  31. (英文)Grimwood J; et al. . Nature. 2004, 428: 529–535.
  32. (英文)Humphray SJ; et al. . Nature. 2004, 429: 369–374.
  33. (英文)Deloukas P; et al. . Nature. 2004, 429: 375–381.
  34. (英文)Schmutz J; et al. . Nature. 2004, 431: 268–274.
  35. (英文)Martin J; et al. . Nature. 2004, 432: 988–994.
  36. (英文)Ross MT; et al. . Nature. 2005, 434: 325–337.
  37. (英文)Hillier LW; et al. . Nature. 2005, 434: 724–731.
  38. (英文)Nusbaum C; et al. . Nature. 2005, 437: 551–555.
  39. (英文)Nusbaum C; et al. . Nature. 2006, 437: 331–335.
  40. (英文)Taylor TD; et al. . Nature. 2006, 440: 497–500.
  41. (英文)Scherer SE; et al. . Nature. 2006, 440: 346–351.
  42. (英文)Zody MC; et al. . Nature. 2006, 440: 671–675.
  43. (英文). Associated Press via Wired News. March 7, 2005 [2005-04-20]. (原始内容存档于2006-11-12).

外部链接

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.