自 1956 年的达特茅斯会议开启“人工智能元年”，该领域经过了两起两落。到 2006 年前后，虽然 Hinton 等人已发表论文证明，通过增加神经网络的层数，可以学到更好的数据表征，并进一步提升模型的性能，但是大家认为这还是新瓶换旧酒，还在迟疑中。直到深度学习概念的推广，在语言识别等领域获得成功。特别是 2012 年 AlexNet 在 ImageNet 的比赛中取得重大突破，性能提升 10 多个百分点。深度神经网络的实际效果进一步得到肯定，并掀起了人工智能的第三波热潮。CV“四小龙”亦在此时间段前后成立，开启感知智能的创业浪潮。

ResNet 和 AlphaGo 等成果的推出，进一步完善神经网络的训练并拓展了其应用范围，从而将这波浪潮推到新高度。2018 年秋季谷歌推出 BERT，横扫了 11 项自然语言处理(NLP)任务，随后 OpenAI 亦相继推出 GPT-2、GPT-3，让大家看到认知智能落地的潜在性。

时光如梭，2021 年悄然过去。蓦然回首，2021 年的 AI 大事件有哪些呢？新的一年，AI 又将呈现怎样的发展趋势？我们将按下述几个主题展开：

大模型不断推出，提高行业准入壁垒；
构建基石模型, 拓展应用边界；
考虑公平和伦理，保证落地的安全和责任。

大模型不断推出，提高行业准入壁垒

从业界的角度看，2021 年的一个关键词是“大模型”。

如图 1 所示，当 GPT-3 的模型规模达到 1750 亿参数后，国外大厂又提出了各样的模型，进一步提高了模型的大小。具有代表性的成果有：

Switch Transformer：谷歌于 2021 年 1 月 11 日提出，声称参数量从 GPT-3 的 1750 亿提高到 1.6 万亿。Switch Transformer 基于稀疏激活的专家模型(Mixture of Experts), 论文中提到在计算资源相同的情况下，训练速度可以达到 T5 (Text-To-Text Transfer Transformer)模型的 4-7 倍[1]。
MT-NLG：2021 年年底，英伟达与微软联合发布了 MT-NLG (Megatron-Turing Natural Language Generation)，该模型含参数 5300 亿个，宣称是目前最大的且最强的语言生成预训练模型[2]。

图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

国内在今年亦推出了万亿级的预训练模型和开源计划。例如:

悟道 2.0：2021 年 6 月，北京智源研究院发布悟道 2.0，参数规模达到 1.75 万亿，是 GPT-3 的 10 倍，超过了谷歌 Switch Transformer 的 1.6 万亿参数记录[3]。
“封神榜”大模型：2021 年 11 月，在深圳 IDEA 大会上，粤港澳大湾区数字经济研究院（简称“IDEA”）理事长沈向洋正式宣布，开启“封神榜”大模型开源计划，涵盖五个系列的亿级自然语言预训练大模型，其中包括了最大的开源中文 BERT 大模型“二郎神”系列[3]。

目前，预训练大模型已成为各家打造人工智能基础设施的利器，从而提高行业的准入壁垒。实现大模型，需要超大规模的算力和海量的数据。这对普通公司或者一般实验室会造成一定的困难。然而就技术而言，目前的大模型离我们期望的通用人工智能还有很大的差距。如何让电脑有更多的创意，知识不断地积累，还需要进行大量的技术探索和创新。在落地的时候还需要更多地跟场景结合，甚至需要场景创新，才能更好地服务相关行业。

构建基石模型，拓展应用边界

大模型的不断推出，基本上基于深度神经网络和自学习的方式进行，各个模型趋于“同质化”(Homogenization)。因此，斯坦福大学的 Percy Liang 于 2021 年 3 月份召集了 100 多位研究学者，发起了基石模型(Foundation Models)的讨论，并于 8 月发表了一篇 200 多页的关于基石模型的综述报告[5]。

图 2 基石模型经文本、图像、语音等多模态数据训练，微调后服务下游应用(图片源自[5])

该报告定义了基石模型，试图囊括目前大模型的能力、应用、相关技术和社会影响。主要从语言、视觉、机器人、推理、交互、理解等讨论基石模型的能力，在应用方面主要探讨医疗、法律和教育这三个对社会很重要的学科。

与此同时，在构建基石模型方面，亦出现了几个有影响力的工作，拓展了应用的边界。例如：

Copilot：6 月，微软收购的 GitHub 联合 OpenAI 推出首个 AI 代码生成器[6]。该工具基于 GPT-3，即 Transformer 的架构，通过训练从 GitHub 上爬取数十亿行开源代码和相关英文注释，实现代码的自动生成，试图进一步辅助程序员的代码开发。
FLAVA: 到年底, Facebook (现称 Meta)亦基于 Transformer[8]推出 FLAVA (A Foundational Language And Vision Alignment Model)，试图用一个统一的模型适用于自然语言处理、计算机视觉、多模态的不同任务，论文显示在此三种领域共计 35 个任务，都有着出色的表现[8]。该模型利用 Vision Transformer (ViT) [9]的方式对图像进行编码，BERT[10]的方式对文本进行编码，并设计相应的多模态编码方式和相应的损失函数，对模型进行训练，并获得很好的性能。

在学术界，对比学习、多模态多任务联合学习，已经广泛使用于基石模型的训练中。但是模型的解释性和拓展性还有很多的探索空间。

考虑公平和伦理，保证落地的安全和责任

尽管目前 AI 技术在刷脸支付、自动驾驶、智能语音、智能安防等应用的商业化探索和落地，已开始改变我们的生活模式，并带来巨大的便利，AI 技术仍要面对更多、更复杂的场景。2021 年是 AI 技术迫切需要落地的一年。在落地的过程中，我们经常需要面对如下问题：

落地场景是否有好的数据？
AI 技术如何更好地降本增效、规模化和商业化？
如何保证 AI 技术者掌握相关业务知识，并理解业务需求？

而从 AI 技术层面看，AI 落地的三要素是: 算力、算法和数据。这就涉及到公平性和伦理的问题。特别是，最近几年数据的隐私安全、AI 算法的责任，都成为社会的关注热点。在今年我国亦出台相关法律从不同层面保障用户的隐私和利益，包括

数据层面：6 月《数据安全法》通过，11 月《个人信息保护法》开始生效，包括 2016 年通过的《网络安全法》从不同的角度规范数据的使用和保护用户个人信息。
算法层面：1 月颁布了《互联网信息服务算法推荐管理规定》和 9 月亦印发《关于加强信息服务算法综合治理的指导意见》的通知，进一步加强了互联网信息服务算法安全治理。
伦理规范：6 月 28 日世卫组织亦发布“卫生领域人工智能的伦理和治理”的报告，提出人工智能为所有国家的公众利益服务的六项原则。9 月 25 日，我国亦发布《新一代人工智能伦理规范》，为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。11 月 25 日联合国教科文组织亦举行新闻发布会，介绍该组织正式通过的首份人工智能伦理问题全球性协议。

AI 技术在落地的过程，要兼具安全和确定相关的责任方，同时还要顾及公平和伦理。随着众多新的法案的出台，后续的落地会受到更多的监管和共同治理，走向“科技向善、AI 向善”的道路。

小结与展望

目前人工智能技术距离理想的通用人工智能的路还很长，2021 年有更多的大厂试图构建相应的基石模型，并把 AI 技术拓展到更大的应用范围。

在技术层面，还需要大量的探索，例如，是否有更好的架构替代基于深度神经网络的架构？是否有更快的方式提升计算性能？大模型如何在实际场景很好地落地？相关的技术，如 Neurosymbolic AI、量子计算都很值得研究。

在应用层面，AI 跟科学发现、AI 制药、AI 跟大数据应用结合等等，都有很多的机会。如何将算法与场景结合、技术与产业融合，是未来实现 AI 落地应用必须思考的问题。国内已有一些机构或团队正在探索研产结合的可能路径，例如 IDEA 的 CTO Labs 合作计划，聚集科研人才和产业科技团队，共同挖掘产业痛点，更有效推进核心技术研发和落地。最近亦与数说故事合作，在数说的产品中提供关键技术模块。

关于作者：

杨海钦现任 IDEA 的主任研究员和数说故事实验室负责人。博士毕业于香港中文大学。曾任教于香港恒生管理学院，香港中文大学客座副教授，后就职于美图(中国)、平安寿险，负责自然语言处理的研究和落地。他在机器学习、自然语言处理等领域已发表论文 60 余篇。获得亚太神经网络学会 2018 年“年青科学家奖”，并入选 2009-2019 年 AI2000 经典 AI(AAAI/IJCAI)全球最具影响力学者榜单。他亦担任过 ICONIP’20 程序委员会主席，AI 顶会等的资深程序委员会成员或领域主席。”

参考文献：

[1] William Fedus, Barret Zoph, Noam Shazeer: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021).

[2] Paresh Kharya and Ali Alvi. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model.

[3] 全球最大智能模型“悟道 2.0”重磅发布. https://hub.baai.ac.cn/view/8375.

[4] 2021 IDEA 大会重磅宣布，“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源，有多“神”？https://www.idea.edu.cn/news/20211124222723.html.

[5] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, et al.: On the Opportunities and Risks of Foundation Models. CoRR abs/2108.07258 (2021).

[6] Gershgorn, Dave. GitHub and OpenAI launch a new AI tool that generates its own code. The Verge. 29 June 2021 [6 July 2021].

[7] Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela: FLAVA: A Foundational Language And Vision Alignment Model. CoRR abs/2112.04482 (2021).

[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

[9] IDEA 合作企业数说故事产品上新携手推动商业应用智能化.

https://zhuanlan.zhihu.com/p/458813386. 2022-01-18.

从1750亿到1.6万亿，人工智能未来：除了大模型，还有什么？

返回科研视野

作者：杨海钦日期：2022-12-20

2021年的AI大事件有哪些?

时光如梭，2021 年悄然过去。蓦然回首，2021 年的 AI 大事件有哪些呢？新的一年，AI 又将呈现怎样的发展趋势？我们将按下述几个主题展开：

大模型不断推出，提高行业准入壁垒；
构建基石模型, 拓展应用边界；
考虑公平和伦理，保证落地的安全和责任。

大模型不断推出，提高行业准入壁垒

从业界的角度看，2021 年的一个关键词是“大模型”。

如图 1 所示，当 GPT-3 的模型规模达到 1750 亿参数后，国外大厂又提出了各样的模型，进一步提高了模型的大小。具有代表性的成果有：

Switch Transformer：谷歌于 2021 年 1 月 11 日提出，声称参数量从 GPT-3 的 1750 亿提高到 1.6 万亿。Switch Transformer 基于稀疏激活的专家模型(Mixture of Experts), 论文中提到在计算资源相同的情况下，训练速度可以达到 T5 (Text-To-Text Transfer Transformer)模型的 4-7 倍[1]。
MT-NLG：2021 年年底，英伟达与微软联合发布了 MT-NLG (Megatron-Turing Natural Language Generation)，该模型含参数 5300 亿个，宣称是目前最大的且最强的语言生成预训练模型[2]。

图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

国内在今年亦推出了万亿级的预训练模型和开源计划。例如:

悟道 2.0：2021 年 6 月，北京智源研究院发布悟道 2.0，参数规模达到 1.75 万亿，是 GPT-3 的 10 倍，超过了谷歌 Switch Transformer 的 1.6 万亿参数记录[3]。
“封神榜”大模型：2021 年 11 月，在深圳 IDEA 大会上，粤港澳大湾区数字经济研究院（简称“IDEA”）理事长沈向洋正式宣布，开启“封神榜”大模型开源计划，涵盖五个系列的亿级自然语言预训练大模型，其中包括了最大的开源中文 BERT 大模型“二郎神”系列[3]。

构建基石模型，拓展应用边界

图 2 基石模型经文本、图像、语音等多模态数据训练，微调后服务下游应用(图片源自[5])

与此同时，在构建基石模型方面，亦出现了几个有影响力的工作，拓展了应用的边界。例如：

Copilot：6 月，微软收购的 GitHub 联合 OpenAI 推出首个 AI 代码生成器[6]。该工具基于 GPT-3，即 Transformer 的架构，通过训练从 GitHub 上爬取数十亿行开源代码和相关英文注释，实现代码的自动生成，试图进一步辅助程序员的代码开发。
FLAVA: 到年底, Facebook (现称 Meta)亦基于 Transformer[8]推出 FLAVA (A Foundational Language And Vision Alignment Model)，试图用一个统一的模型适用于自然语言处理、计算机视觉、多模态的不同任务，论文显示在此三种领域共计 35 个任务，都有着出色的表现[8]。该模型利用 Vision Transformer (ViT) [9]的方式对图像进行编码，BERT[10]的方式对文本进行编码，并设计相应的多模态编码方式和相应的损失函数，对模型进行训练，并获得很好的性能。

在学术界，对比学习、多模态多任务联合学习，已经广泛使用于基石模型的训练中。但是模型的解释性和拓展性还有很多的探索空间。

考虑公平和伦理，保证落地的安全和责任

落地场景是否有好的数据？
AI 技术如何更好地降本增效、规模化和商业化？
如何保证 AI 技术者掌握相关业务知识，并理解业务需求？

数据层面：6 月《数据安全法》通过，11 月《个人信息保护法》开始生效，包括 2016 年通过的《网络安全法》从不同的角度规范数据的使用和保护用户个人信息。
算法层面：1 月颁布了《互联网信息服务算法推荐管理规定》和 9 月亦印发《关于加强信息服务算法综合治理的指导意见》的通知，进一步加强了互联网信息服务算法安全治理。
伦理规范：6 月 28 日世卫组织亦发布“卫生领域人工智能的伦理和治理”的报告，提出人工智能为所有国家的公众利益服务的六项原则。9 月 25 日，我国亦发布《新一代人工智能伦理规范》，为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。11 月 25 日联合国教科文组织亦举行新闻发布会，介绍该组织正式通过的首份人工智能伦理问题全球性协议。

小结与展望

目前人工智能技术距离理想的通用人工智能的路还很长，2021 年有更多的大厂试图构建相应的基石模型，并把 AI 技术拓展到更大的应用范围。

关于作者：

参考文献：

[1] William Fedus, Barret Zoph, Noam Shazeer: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021).

[2] Paresh Kharya and Ali Alvi. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model.

[3] 全球最大智能模型“悟道 2.0”重磅发布. https://hub.baai.ac.cn/view/8375.

[4] 2021 IDEA 大会重磅宣布，“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源，有多“神”？https://www.idea.edu.cn/news/20211124222723.html.

[5] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, et al.: On the Opportunities and Risks of Foundation Models. CoRR abs/2108.07258 (2021).

[6] Gershgorn, Dave. GitHub and OpenAI launch a new AI tool that generates its own code. The Verge. 29 June 2021 [6 July 2021].

[9] IDEA 合作企业数说故事产品上新携手推动商业应用智能化.

https://zhuanlan.zhihu.com/p/458813386. 2022-01-18.

上一篇已经是第一篇

下一篇火热的 Web 3，究竟离我们有多远？

科研视野

分享IDEA研究院的科研趋势观察与工作随笔

大模型不断推出，提高行业准入壁垒

图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

构建基石模型，拓展应用边界

图 2 基石模型经文本、图像、语音等多模态数据训练，微调后服务下游应用(图片源自[5])

考虑公平和伦理，保证落地的安全和责任

小结与展望

从1750亿到1.6万亿，人工智能未来：除了大模型，还有什么？

大模型不断推出，提高行业准入壁垒

图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

构建基石模型，拓展应用边界

图 2 基石模型经文本、图像、语音等多模态数据训练，微调后服务下游应用(图片源自[5])

考虑公平和伦理，保证落地的安全和责任

小结与展望

地址：

办公电话：

招聘邮箱：

办公电话：