悟道预训练模型

悟道预训练模型是由北京智源人工智能研究院发起的超大规模预训练模型研究项目,于2020年10月正式启动,旨在以原始创新为基础实现预训练技术的突破,填补以中文为核心预训练大模型的空白,探索通向通用人工智能的实现路径。项目组建来自清华大学北京大学、中国科学院计算技术研究所、中国人民大学等顶尖AI科学家团队超过100人,共同进行“悟道”预训练模型的研发工作。

2021年6月,悟道项目在北京智源大会发布2.0版本科研成果,其中包括1.75万亿参数的全球最大通用预训练模型和其它一系列模型、算法、应用突破,将中国预训练模型推向新高度。

同时,为了促进预训练成果的共享应用,“悟道”项目将包括模型、算法、工具、API和数据的系列科研成果在悟道官方平台[1]进行开源开放

概况

“悟道”项目的框架由底层支撑、模型研发和上层应用三部分组成,其中,底层支撑包括智源的“大数据”与“大算力”平台,提供大模型研发所需的基本资源条件;在模型研发层面,研究团队以赋予机器认知能力为核心,打造数据与知识双轮驱动的智能模型,使其能够像人一样“思考”;而在上层建设中,智源研究院以悟道应用平台为依托,借助“悟道”通用大模型赋能多种AI应用场景。由此,“悟道”项目形成了一个完整的框架体系,能够支持科研团队有条不紊地投入到预训练大模型的研发当中。斯坦福大学教授吴恩达这样评价“悟道”:“悟道”彰显出中国在人工智能领域日益增长的信心和研发实力,可能会对人们未来构建的人工智能系统类型和部署系统的方式产生深远影响。

背景

预训练技术最早被应用于计算机视觉领域,自2015年开始在视觉领域被广泛应用,比如,开发者可以在庞大的ImageNet图像数据上对模型进行预训练,然后针对不同的任务对较小的数据进行进一步的微调。2017年,Google首次提出了Transformer模型,该模型使用编码器(Encoder)和解码器(Decoder)的整体架构,成为自然语言处理领域的基础预训练模型。Transformer模型的出现是自然语言处理领域里程碑式突破,使得自然语言处理领域各项任务性能得到极大提升。 在Transformer模型的基础上,Google人工智能研究院在2018年10月进一步提出一个基于掩码的预训练模型BERT,模型在超过11个自然语言处理任务上获得了效果突破。2020年5月,OpenAI发布了具有1750亿参数的超大规模预训练模型GPT-3,并且在多个类型的下游自然语言任务上无需微调即可表现优异,引发了预训练大模型的研发浪潮。2021年1月,Google Brain构建了1个基于简化稀疏架构的预训练模型Switch Transformer,将语言模型的参数量扩展至 1.6 万亿规模。在智源悟道1.75万亿模型出现之前,Switch Transformer是之前全球规模最大的自然语言处理预训练模型。

Model

“悟道”项目在多个领域开展研究工作,研发了一系列大规模预训练模型,包括:

悟道万亿模型

中国首个、全球最大双语跨模态万亿大规模预训练模型,参数规模达到1.75万亿,是GPT-3模型的10倍。万亿通用模型融合自研的GLM语言预训练框架和Cogview图文预训练框架,同时基于自主研发的“万亿AI模型基石”FastMoE2.0高性能系统,在包括WudaoCorpora在内的总量4.9TB清洗过的高质量数据集上进行训练,能够支持图文生成、图文检索、文本生成、文本理解等中英双语多模态任务类型。

Brivl 模型[2]

全球首个基于图文弱相关假设的中英文多模态双塔模型,参数规模达到53亿。BriVL模型的训练数据含6.5亿图文对,远超OpenAI CLIP的近2倍。在公平比较的条件下,BriVL模型在ImageNet和MSCOCO图文检索任务上超过最好的英文双塔模型OpenAI CLIP和Google ALIGN。

多模态多语言预训练模型

参数规模达到10亿,全球体量最大的多模态多语言预训练模型。模型涵盖中、英、法、德、捷克、日、韩7种语言,在MSCOCO和 Multi30K上的多语言图文检索任务上取得最优效果。

Cogview[3]

世界上最大的中文多模态生成模型,参数量为40亿。模型支持文生成图为基础的多领域下游任务,在应用维度上具备通用性。经过翻译后,CogView在公认的MS COCO 文生图任务数据集上取得了超过DALL· E的优异效果,获得世界第一。

CPM[4]

基于Encoder-Decoder架构的中英双语大规模预训练模型,稠密模型参数达到100亿。通过MoE技术将模型参数规模放大到1000亿,获得进一步的性能提升。模型支持文本生成等一系列自然语言处理任务。

GLM[5]

大规模英文文本通用(多任务)预训练模型,该通用模型参数量达到100亿,更通用的预训练模型,首次打破BERT和GPT壁垒,开创性地以单一模型兼容所有主流架构,兼顾理解与生成能力。

Transformer XL

基于Transformer-XL训练的以中文为核心的预训练语言生成模型,参数规模为29亿,可支持包括文章生成、智能作诗、评论/摘要生成等主流NLG任务。

Lawformer

世界首个法律领域长文本中文预训练模型,参数规模达到1亿。

Prottrans

国内最大的蛋白质预训练模型,参数总量达到30亿,远远超过3800万的基线模型。模型支持接触预测、蛋白质折叠、二级结构预测等多个生物分子领域的任务。同时,模型相较于基线模型,在上述任务上都取得了大幅的效果提升。

生态建设

2021年6月,"悟道"已与包括阿里巴巴小米美团快手360新华社在内的23家产业单位达成战略合作意向,就悟道预训练大模型进行产业应用合作,从底层数据资源、中层模型研发到上层AI应用推进产业应用生态的建设,从单点突破提升至全方位突破。

同时,为了促进大模型最新研发成果的开放共享,“悟道”项目在悟道官方平台 [9] 开放了一系列模型、算法、工具、API以及数据集。具体表单如下:

悟道开源成果列表
类别名称描述
模型CPM兼顾理解与生成能力的预训练语言模型系列,涵盖中文、中英双语多类模型,模型参数有26亿、110亿和1980亿。
模型GLM以英文为核心的预训练语言模型系列,有1.1亿、3.35亿、4.10亿、5.15亿、100亿参数规模的模型。
模型Transformer-XL可完成多种中文生成任务的29亿参数中文预训练模型
模型Lawformer1亿参数法律预训练模型
模型CogView40亿参数多模态生成模型,分为文生图、图生文和超分辨率三个版本
模型ProtTrans30亿参数量的蛋白质预训练模型
算法P-tuning[6]世界首个基于检索的半监督少样本微调算法
算法Inverse Prompting[7]提升文本生成任务的可控性和相关性,让回答和问题关联性更强,即更好地利用 Prompt 的信息来控制所生成的内容。
工具FastMoE[8]首个支持国产超算和GPU的高性能MoE系统,支持Switch,Gshard等复杂均衡策略。
工具预训练知识继承世界首个大规模预训练融合框架-缩短大模型近50%前期训练时间。
工具InfMoE世界首个低资源大模型推理系统,单卡GPU可以进行千亿规模模型的推理。
工具TDS用于支持高效训练,可同时支持数据/模型/流水并行、ZeRO和混合加速。
API图向量获取图像的特征向量
API文本向量获取文本的特征向量
API快速作诗根据标题等信息快速生成诗词
API快速新闻生成可快速形成新闻草稿,提升效率
API知识图谱构建通用知识图谱构建关系抽取
数据集WuDaoCorpora[9]开放200G中文文本数据集


评论

  • 2021年6月,CCTV新闻频道评论悟道大模型发布:“大模型对于人工智能发展具有重要意义,未来将可能基于大模型形成变革性的AI产业基础设施”。
  • 2021年6月,环球时报发表专题评论文章,表示悟道项目的最新成果发布是“成为全球人工智能领导者雄心壮志的最新信号”。
  • 2021年6月,科技资讯网站PingWest在悟道发布后发表文章评论:“BAAI和OpenAI都以基础研究为目标,这些基础研究有可能显著提高深度学习技术的性能,从而增强以前无法想象的新体验。
  • 2021年6月,新闻网站Explica.co评论“悟道”项目:“悟道的重要意义是知道如何扩展模型并有能力这样做”。
  • 对于悟道项目的成果发布,Facebook AI工程师Elvis Saravia表示:“悟道万亿模型是GPT-3的10倍,非常期待模型可以取得超过人类水准的表现”。
  • Nervana联合创始人Naveen Ra在了解悟道成果发布后表示:“悟道团队做出了一些非常有趣的工作”,并且认为悟道是一个法律层面合规的研究项目。
  • 《The Master Algorithm》作者Pedro Domingos对于悟道万亿模型的超大参数规模表示:“也许是时候用度量前缀表示深度学习网络参数规模了”。

应用[10]

  • 作诗:模型的文字创作能力使其支持对各种给定的题目创作出媲美诗人的精美诗歌,同时有作藏头诗的功能。
  • 人设问答:模型支持模拟和扮演不同人设,从而对问题给出多角度回答。
  • 看图说话:模型描述用户上传图片中的细节与精彩。
  • 图文问答:对给定图片提出问题,模型为你精准解答。
  • 图片生成:模型根据用户文字描述自动生成图片。
  • 图灵测试:包括作诗、对联、标题生成、问答、策论、绘图、识图8项图灵测试

文献

  1. . [2021-07-07]. (原始内容存档于2021-07-09).
  2. Y. Huo, M. Zhang, G. Liu, H. Lu, Y. Gao, G. Yang, J. Wen, H. Zhang, B. Xu, W. Zheng, Z. Xi, Y. Yang, A. Hu, J. Zhao, R. Li, Y. Zhao, L. Zhang, Y. Song, X. Hong, W. Cui, D. Hou, Y. Li, J. Li, P. Liu, Z. Gong, C. Jin, Y. Sun, S. Chen, Z. Lu, Z. Dou, Q. Jin, Y. Lan, W. Zhao, R. Song, and J. Wen. Wenlan: Bridging vision and language by largescale multi-modal pre-training. arXiv:2103.06561,2021. https://arxiv.org/abs/2103.06561 页面存档备份,存于
  3. M. Ding, Z. Yang, W. Hong, W. Zheng, C. Zhou, D. Yin, J. Lin, X. Zou, Z. Shao, H. Yang, and J. Tang. CogView: Mastering Text-to-Image Generation via Transformers. arXiv:2105.13290, 2021. https://arxiv.org/abs/2105.13290 页面存档备份,存于
  4. Z. Zhang, X. Han, H. Zhou, P. Ke, Y. Gu, D. Ye, Y. Qin, Y. Su, H. Ji, J. Guan, F. Qi, X. Wang, Y. Zheng, G. Zeng, H. Cao, S. Chen, D. Li, Z. Sun, Z. Liu, M. Huang, W. Han, J. Tang, J. Li, X. Zhu, and M. Sun. CPM: A Large-scale Generative Chinese Pre-trained Language Model. arXiv:2012.00413,2020. https://arxiv.org/abs/2012.00413 页面存档备份,存于
  5. Z. Du, Y. Qian, X. Liu, M. Ding, J. Qiu, Z. Yang, and J. Tang. All nlp tasks are generation tasks: A general pretraining framework. arXiv:abs/2103.10360, 2021. https://arxiv.org/abs/2103.10360 页面存档备份,存于
  6. X. Liu, Y. Zheng, Z. Du, M. Ding, Y. Qian, Z. Yang, and J. Tang. Gpt understands, too. arXiv:2103.10385, 2021. https://arxiv.org/abs/2103.10385 页面存档备份,存于
  7. X. Zou, D. Yin, Q. Zhong, H. Yang, Z. Yang, and J. Tang. Controllable generation from pre-trained language models via inverse prompting. arXiv:2103.10685, 2021. https://arxiv.org/abs/2103.10685 页面存档备份,存于
  8. J. He, J. Qiu, A. Zeng, Z. Yang, J. Zhai, and J. Tang. Fastmoe: A fast mixture-of-expert training system. CoRR:abs/2103.13262, 2021. https://arxiv.org/abs/2103.13262 页面存档备份,存于
  9. S. Yuan, H. Zhao, Z. Du, M. Ding, X. Liu, Y. Cen, X. Zou, Z. Yang, and J. Tang. Wudaocorpora: A super large-scale chinese corpora for pre-training language models. AI Open, 2021, 2:65-68 https://www.sciencedirect.com/science/article/pii/S2666651021000152 页面存档备份,存于
  10. 悟道应用平台 https://pretrain.aminer.cn/ 页面存档备份,存于
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.