科研视野

分享IDEA研究院的科研趋势观察与工作随笔

自 1956 年的达特茅斯会议开启“人工智能元年”,该领域经过了两起两落。到 2006 年前后,虽然 Hinton 等人已发表论文证明,通过增加神经网络的层数,可以学到更好的数据表征,并进一步提升模型的性能,但是大家认为这还是新瓶换旧酒,还在迟疑中。直到深度学习概念的推广,在语言识别等领域获得成功。特别是 2012 年 AlexNet 在 ImageNet 的比赛中取得重大突破,性能提升 10 多个百分点。深度神经网络的实际效果进一步得到肯定,并掀起了人工智能的第三波热潮。CV“四小龙”亦在此时间段前后成立,开启感知智能的创业浪潮。

ResNet 和 AlphaGo 等成果的推出,进一步完善神经网络的训练并拓展了其应用范围,从而将这波浪潮推到新高度。2018 年秋季谷歌推出 BERT,横扫了 11 项自然语言处理(NLP)任务,随后 OpenAI 亦相继推出 GPT-2、GPT-3,让大家看到认知智能落地的潜在性。

时光如梭,2021 年悄然过去。蓦然回首,2021 年的 AI 大事件有哪些呢?新的一年,AI 又将呈现怎样的发展趋势?我们将按下述几个主题展开:

大模型不断推出,提高行业准入壁垒

从业界的角度看,2021 年的一个关键词是“大模型”。

如图 1 所示,当 GPT-3 的模型规模达到 1750 亿参数后,国外大厂又提出了各样的模型,进一步提高了模型的大小。具有代表性的成果有:

图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

国内在今年亦推出了万亿级的预训练模型和开源计划。例如:

目前,预训练大模型已成为各家打造人工智能基础设施的利器,从而提高行业的准入壁垒。实现大模型,需要超大规模的算力和海量的数据。这对普通公司或者一般实验室会造成一定的困难。然而就技术而言,目前的大模型离我们期望的通用人工智能还有很大的差距。如何让电脑有更多的创意,知识不断地积累,还需要进行大量的技术探索和创新。在落地的时候还需要更多地跟场景结合,甚至需要场景创新,才能更好地服务相关行业。

构建基石模型,拓展应用边界

大模型的不断推出,基本上基于深度神经网络和自学习的方式进行,各个模型趋于“同质化”(Homogenization)。因此,斯坦福大学的 Percy Liang 于 2021 年 3 月份召集了 100 多位研究学者,发起了基石模型(Foundation Models)的讨论,并于 8 月发表了一篇 200 多页的关于基石模型的综述报告[5]。

图 2 基石模型经文本、图像、语音等多模态数据训练,微调后服务下游应用(图片源自[5])

该报告定义了基石模型,试图囊括目前大模型的能力、应用、相关技术和社会影响。主要从语言、视觉、机器人、推理、交互、理解等讨论基石模型的能力,在应用方面主要探讨医疗、法律和教育这三个对社会很重要的学科。

与此同时,在构建基石模型方面,亦出现了几个有影响力的工作,拓展了应用的边界。例如:

在学术界,对比学习、多模态多任务联合学习,已经广泛使用于基石模型的训练中。但是模型的解释性和拓展性还有很多的探索空间。

考虑公平和伦理,保证落地的安全和责任

尽管目前 AI 技术在刷脸支付、自动驾驶、智能语音、智能安防等应用的商业化探索和落地,已开始改变我们的生活模式,并带来巨大的便利,AI 技术仍要面对更多、更复杂的场景。2021 年是 AI 技术迫切需要落地的一年。在落地的过程中,我们经常需要面对如下问题:

  1. 落地场景是否有好的数据?
  2. AI 技术如何更好地降本增效、规模化和商业化?
  3. 如何保证 AI 技术者掌握相关业务知识,并理解业务需求?

而从 AI 技术层面看,AI 落地的三要素是: 算力、算法和数据。这就涉及到公平性和伦理的问题。特别是,最近几年数据的隐私安全、AI 算法的责任,都成为社会的关注热点。在今年我国亦出台相关法律从不同层面保障用户的隐私和利益,包括

AI 技术在落地的过程,要兼具安全和确定相关的责任方,同时还要顾及公平和伦理。随着众多新的法案的出台,后续的落地会受到更多的监管和共同治理,走向“科技向善、AI 向善”的道路。

小结与展望

目前人工智能技术距离理想的通用人工智能的路还很长,2021 年有更多的大厂试图构建相应的基石模型,并把 AI 技术拓展到更大的应用范围。

在技术层面,还需要大量的探索,例如,是否有更好的架构替代基于深度神经网络的架构?是否有更快的方式提升计算性能?大模型如何在实际场景很好地落地?相关的技术,如 Neurosymbolic AI、量子计算都很值得研究。

在应用层面,AI 跟科学发现、AI 制药、AI 跟大数据应用结合等等,都有很多的机会。如何将算法与场景结合、技术与产业融合,是未来实现 AI 落地应用必须思考的问题。国内已有一些机构或团队正在探索研产结合的可能路径,例如 IDEA 的 CTO Labs 合作计划,聚集科研人才和产业科技团队,共同挖掘产业痛点,更有效推进核心技术研发和落地。最近亦与数说故事合作,在数说的产品中提供关键技术模块。

关于作者:



杨海钦现任 IDEA 的主任研究员和数说故事实验室负责人。博士毕业于香港中文大学。曾任教于香港恒生管理学院,香港中文大学客座副教授,后就职于美图(中国)、平安寿险,负责自然语言处理的研究和落地。他在机器学习、自然语言处理等领域已发表论文 60 余篇。获得亚太神经网络学会 2018 年“年青科学家奖”,并入选 2009-2019 年 AI2000 经典 AI(AAAI/IJCAI)全球最具影响力学者榜单。他亦担任过 ICONIP’20 程序委员会主席,AI 顶会等的资深程序委员会成员或领域主席。”

参考文献:

[1] William Fedus, Barret Zoph, Noam Shazeer: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021).

[2] Paresh Kharya and Ali Alvi. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model.

[3] 全球最大智能模型“悟道 2.0”重磅发布. https://hub.baai.ac.cn/view/8375.

[4] 2021 IDEA 大会重磅宣布,“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源,有多“神”?https://www.idea.edu.cn/news/20211124222723.html.

[5] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, et al.: On the Opportunities and Risks of Foundation Models. CoRR abs/2108.07258 (2021).

[6] Gershgorn, Dave. GitHub and OpenAI launch a new AI tool that generates its own code. The Verge. 29 June 2021 [6 July 2021].

[7] Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela: FLAVA: A Foundational Language And Vision Alignment Model. CoRR abs/2112.04482 (2021).

[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

[9] IDEA 合作企业数说故事产品上新 携手推动商业应用智能化.

https://zhuanlan.zhihu.com/p/458813386. 2022-01-18.

从1750亿到1.6万亿,人工智能未来:除了大模型,还有什么?

作者:杨海钦 日期:2022-12-20
  • 分享:
2021年的AI大事件有哪些?

自 1956 年的达特茅斯会议开启“人工智能元年”,该领域经过了两起两落。到 2006 年前后,虽然 Hinton 等人已发表论文证明,通过增加神经网络的层数,可以学到更好的数据表征,并进一步提升模型的性能,但是大家认为这还是新瓶换旧酒,还在迟疑中。直到深度学习概念的推广,在语言识别等领域获得成功。特别是 2012 年 AlexNet 在 ImageNet 的比赛中取得重大突破,性能提升 10 多个百分点。深度神经网络的实际效果进一步得到肯定,并掀起了人工智能的第三波热潮。CV“四小龙”亦在此时间段前后成立,开启感知智能的创业浪潮。

ResNet 和 AlphaGo 等成果的推出,进一步完善神经网络的训练并拓展了其应用范围,从而将这波浪潮推到新高度。2018 年秋季谷歌推出 BERT,横扫了 11 项自然语言处理(NLP)任务,随后 OpenAI 亦相继推出 GPT-2、GPT-3,让大家看到认知智能落地的潜在性。

时光如梭,2021 年悄然过去。蓦然回首,2021 年的 AI 大事件有哪些呢?新的一年,AI 又将呈现怎样的发展趋势?我们将按下述几个主题展开:

  • 大模型不断推出,提高行业准入壁垒;
  • 构建基石模型, 拓展应用边界;
  • 考虑公平和伦理,保证落地的安全和责任。

大模型不断推出,提高行业准入壁垒

从业界的角度看,2021 年的一个关键词是“大模型”。

如图 1 所示,当 GPT-3 的模型规模达到 1750 亿参数后,国外大厂又提出了各样的模型,进一步提高了模型的大小。具有代表性的成果有:

  • Switch Transformer:谷歌于 2021 年 1 月 11 日提出,声称参数量从 GPT-3 的 1750 亿提高到 1.6 万亿。Switch Transformer 基于稀疏激活的专家模型(Mixture of Experts), 论文中提到在计算资源相同的情况下,训练速度可以达到 T5 (Text-To-Text Transfer Transformer)模型的 4-7 倍[1]。
  • MT-NLG:2021 年年底,英伟达与微软联合发布了 MT-NLG (Megatron-Turing Natural Language Generation),该模型含参数 5300 亿个,宣称是目前最大的且最强的语言生成预训练模型[2]。
图 1. NLP 预训练模型参数随着时间发展的趋势(图片源自[2])

国内在今年亦推出了万亿级的预训练模型和开源计划。例如:

  • 悟道 2.0:2021 年 6 月,北京智源研究院发布悟道 2.0,参数规模达到 1.75 万亿,是 GPT-3 的 10 倍,超过了谷歌 Switch Transformer 的 1.6 万亿参数记录[3]。
  • “封神榜”大模型:2021 年 11 月,在深圳 IDEA 大会上,粤港澳大湾区数字经济研究院(简称“IDEA”)理事长沈向洋正式宣布,开启“封神榜”大模型开源计划,涵盖五个系列的亿级自然语言预训练大模型,其中包括了最大的开源中文 BERT 大模型“二郎神”系列[3]。

目前,预训练大模型已成为各家打造人工智能基础设施的利器,从而提高行业的准入壁垒。实现大模型,需要超大规模的算力和海量的数据。这对普通公司或者一般实验室会造成一定的困难。然而就技术而言,目前的大模型离我们期望的通用人工智能还有很大的差距。如何让电脑有更多的创意,知识不断地积累,还需要进行大量的技术探索和创新。在落地的时候还需要更多地跟场景结合,甚至需要场景创新,才能更好地服务相关行业。

构建基石模型,拓展应用边界

大模型的不断推出,基本上基于深度神经网络和自学习的方式进行,各个模型趋于“同质化”(Homogenization)。因此,斯坦福大学的 Percy Liang 于 2021 年 3 月份召集了 100 多位研究学者,发起了基石模型(Foundation Models)的讨论,并于 8 月发表了一篇 200 多页的关于基石模型的综述报告[5]。

图 2 基石模型经文本、图像、语音等多模态数据训练,微调后服务下游应用(图片源自[5])

该报告定义了基石模型,试图囊括目前大模型的能力、应用、相关技术和社会影响。主要从语言、视觉、机器人、推理、交互、理解等讨论基石模型的能力,在应用方面主要探讨医疗、法律和教育这三个对社会很重要的学科。

与此同时,在构建基石模型方面,亦出现了几个有影响力的工作,拓展了应用的边界。例如:

  • Copilot:6 月,微软收购的 GitHub 联合 OpenAI 推出首个 AI 代码生成器[6]。该工具基于 GPT-3,即 Transformer 的架构,通过训练从 GitHub 上爬取数十亿行开源代码和相关英文注释,实现代码的自动生成,试图进一步辅助程序员的代码开发。
  • FLAVA: 到年底, Facebook (现称 Meta)亦基于 Transformer[8]推出 FLAVA (A Foundational Language And Vision Alignment Model),试图用一个统一的模型适用于自然语言处理、计算机视觉、多模态的不同任务,论文显示在此三种领域共计 35 个任务,都有着出色的表现[8]。该模型利用 Vision Transformer (ViT) [9]的方式对图像进行编码,BERT[10]的方式对文本进行编码,并设计相应的多模态编码方式和相应的损失函数,对模型进行训练,并获得很好的性能。

在学术界,对比学习、多模态多任务联合学习,已经广泛使用于基石模型的训练中。但是模型的解释性和拓展性还有很多的探索空间。

考虑公平和伦理,保证落地的安全和责任

尽管目前 AI 技术在刷脸支付、自动驾驶、智能语音、智能安防等应用的商业化探索和落地,已开始改变我们的生活模式,并带来巨大的便利,AI 技术仍要面对更多、更复杂的场景。2021 年是 AI 技术迫切需要落地的一年。在落地的过程中,我们经常需要面对如下问题:

  1. 落地场景是否有好的数据?
  2. AI 技术如何更好地降本增效、规模化和商业化?
  3. 如何保证 AI 技术者掌握相关业务知识,并理解业务需求?

而从 AI 技术层面看,AI 落地的三要素是: 算力、算法和数据。这就涉及到公平性和伦理的问题。特别是,最近几年数据的隐私安全、AI 算法的责任,都成为社会的关注热点。在今年我国亦出台相关法律从不同层面保障用户的隐私和利益,包括

  • 数据层面:6 月《数据安全法》通过,11 月《个人信息保护法》开始生效,包括 2016 年通过的《网络安全法》从不同的角度规范数据的使用和保护用户个人信息。
  • 算法层面:1 月颁布了《互联网信息服务算法推荐管理规定》和 9 月亦印发《关于加强信息服务算法综合治理的指导意见》的通知,进一步加强了互联网信息服务算法安全治理。
  • 伦理规范:6 月 28 日世卫组织亦发布“卫生领域人工智能的伦理和治理”的报告,提出人工智能为所有国家的公众利益服务的六项原则。9 月 25 日,我国亦发布《新一代人工智能伦理规范》,为从事人工智能相关活动的自然人、法人和其他相关机构等提供伦理指引。11 月 25 日联合国教科文组织亦举行新闻发布会,介绍该组织正式通过的首份人工智能伦理问题全球性协议。

AI 技术在落地的过程,要兼具安全和确定相关的责任方,同时还要顾及公平和伦理。随着众多新的法案的出台,后续的落地会受到更多的监管和共同治理,走向“科技向善、AI 向善”的道路。

小结与展望

目前人工智能技术距离理想的通用人工智能的路还很长,2021 年有更多的大厂试图构建相应的基石模型,并把 AI 技术拓展到更大的应用范围。

在技术层面,还需要大量的探索,例如,是否有更好的架构替代基于深度神经网络的架构?是否有更快的方式提升计算性能?大模型如何在实际场景很好地落地?相关的技术,如 Neurosymbolic AI、量子计算都很值得研究。

在应用层面,AI 跟科学发现、AI 制药、AI 跟大数据应用结合等等,都有很多的机会。如何将算法与场景结合、技术与产业融合,是未来实现 AI 落地应用必须思考的问题。国内已有一些机构或团队正在探索研产结合的可能路径,例如 IDEA 的 CTO Labs 合作计划,聚集科研人才和产业科技团队,共同挖掘产业痛点,更有效推进核心技术研发和落地。最近亦与数说故事合作,在数说的产品中提供关键技术模块。

关于作者:



杨海钦现任 IDEA 的主任研究员和数说故事实验室负责人。博士毕业于香港中文大学。曾任教于香港恒生管理学院,香港中文大学客座副教授,后就职于美图(中国)、平安寿险,负责自然语言处理的研究和落地。他在机器学习、自然语言处理等领域已发表论文 60 余篇。获得亚太神经网络学会 2018 年“年青科学家奖”,并入选 2009-2019 年 AI2000 经典 AI(AAAI/IJCAI)全球最具影响力学者榜单。他亦担任过 ICONIP’20 程序委员会主席,AI 顶会等的资深程序委员会成员或领域主席。”

参考文献:

[1] William Fedus, Barret Zoph, Noam Shazeer: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021).

[2] Paresh Kharya and Ali Alvi. Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model.

[3] 全球最大智能模型“悟道 2.0”重磅发布. https://hub.baai.ac.cn/view/8375.

[4] 2021 IDEA 大会重磅宣布,“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源,有多“神”?https://www.idea.edu.cn/news/20211124222723.html.

[5] Rishi Bommasani, Drew A. Hudson, Ehsan Adeli, et al.: On the Opportunities and Risks of Foundation Models. CoRR abs/2108.07258 (2021).

[6] Gershgorn, Dave. GitHub and OpenAI launch a new AI tool that generates its own code. The Verge. 29 June 2021 [6 July 2021].

[7] Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela: FLAVA: A Foundational Language And Vision Alignment Model. CoRR abs/2112.04482 (2021).

[8] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.

[9] IDEA 合作企业数说故事产品上新 携手推动商业应用智能化.

https://zhuanlan.zhihu.com/p/458813386. 2022-01-18.