11 月 22 日，由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院（International Digital Economy Academy, 简称“IDEA”）联合举办的 2021 IDEA 大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨，围绕人工智能与数字经济展开讨论。上午 10 时，IDEA 创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋，在创新展示会环节宣布， IDEA 认知计算与自然语言研究中心（简称“IDEA CCNL”）将启动 “封神榜”大模型开源计划。

（沈向洋宣布“封神榜”大模型开源计划）

最近两年，预训练逐渐成为整个认知智能的基础，自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。

预训练模型的规模从最初的 1 亿参数 BERT 到一千多亿参数的 GTP-3，正在以每年 10 倍的速度增加。针对不同的下游任务，我们需要不同的结构，不同的尺寸和不同的专业领域的预训练模型。

这个世界需要更多更大的模型。但是，有限的算力资源是限制整个领域进一步发展的瓶颈。尤其是高校、小公司和一些传统公司，根本不具备足够的算力来训练和使用大规模预训练模型。这些都阻碍了整个人工智能技术更进一步的落地。

这个世界需要一个答案。

（“封神榜”大模型系列模型矩阵）

会上，沈向洋代表 IDEA CNNL 正式宣布：开启 “封神榜”大模型开源计划。在这个计划中，IDEA CCNL 全方面地开源一系列的自然语言预训练大模型。此系列模型将覆盖不同的模型结构、不同的模型尺寸、不同的专业领域。IDEA CCNL 也将对此系列模型做持续的升级，不断融合最新的数据和最新的训练算法，致力于打造中文认知智能的通用基础设施，避免重复建设，为全社会节省算力。

（本次 IDEA 宣布开源的“封神榜”大模型家族）

同时，IDEA CCNL 表示，希望各个公司、高校、机构加入到这个开源计划中，一起共建大模型开源体系。未来，当大家需要一个新的预训练模型，都应该是首先从封神榜中选取一个最适合各自任务的开源大模型，做继续训练，然后再把新的模型开源回这个体系。这样，每个人用最少的算力，就能得到自己的模型，同时这个开源大模型体系也能持续扩大。

二郎神系列

二郎神系列是 Encoder 结构为主的双向语言模型，专注于解决各种自然语言理解任务。13 亿参数的二郎神-1.3B 大模型采用 280G 数据，运用 32 张 A100 训练 14 天，是最大的开源中文 Bert 大模型。2021 年 11 月 10 日在中文语言理解权威评测基准 FewCLUE 榜单上登顶。其中，CHID(成语填空)、TNEWS(新闻分类)超过人类，CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一，刷新小样本学习记录，详情可参见 https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未来，二郎神系列会持续在模型规模、知识融入、监督任务辅助等方向不断优化。

（二郎神登顶 FewCLUE 榜单）

领域模型-余元系列

IDEA CCNL 负责人张家兴博士也曾表示，“封神榜”大模型开源计划不会止步于此，在学术、医疗、金融、法律等重要领域方向上也会逐步开源领域专属大模型，比如即将在医学领域推出应用的余元系列拥有 35 亿参数余元-3.5B 大模型，采用 50G 的医疗领域数据和知识，在已有的通用模型基础上，运用 256 张 A100 继续训练 28 小时，该模型参数记录了大量医疗知识，在医疗事实判断上，准确率可以接近 90%。

周文王系列

周文王系列是 IDEA CCNL 联合追一科技有限公司的新结构大模型。该模型在训练阶段就统一考虑 LM（Language Model）和 MLM（Mask Language Model）任务，增加了旋转位置编码技术，让模型同时具备生成和理解的能力。、13 亿参数的周文王-1.3B 大模型采用 280G 数据，运用 32 张 A100 训练 14 天，是中文领域同时做 LM 和 MLM 任务最大的模型。将来会在模型规模、知识融入、监督任务辅助等方向不断优化。

闻仲系列

闻仲系列是 Decoder 结构为主的单向语言模型，是一系列强大的生成模型。35 亿参数的闻仲-3.5B 大模型采用 100G 数据，运用 256 张 A100 训练 28 小时，具备强大的生成能力。

燃灯系列

燃灯系列是 Transformer 结构为主的编解码语言模型，把所有 NLP 任务转化成文本生成任务，7.7 亿参数的燃灯-7.7B 大模型采用 280G 数据，运用 16 张 A100 训练 14 天，能够很好地完成自然语言生成和理解任务。

上述的模型只是“封神榜”大模型开源计划的开始，后续 IDEA CCNL 将持续的开源更多的模型。同时 IDEA 表示，希望更多业界伙伴一起加入开源计划，一起推动中文认知智能和自然语言的深入发展和产业落地。

2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源，有多“神”？

返回新闻动态

日期：2021-11-24

11月22日，由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院（International Digital Economy Academy, 简称“IDEA”）联合举办的2021 IDEA大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨，围绕人工智能与数字经济展开讨论。上午10时，IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋，在创新展示会环节宣布， IDEA认知计算与自然语言研究中心（简称“IDEA CCNL”）将启动 “封神榜”大模型开源计划。

封神榜大模型

（沈向洋宣布“封神榜”大模型开源计划）

最近两年，预训练逐渐成为整个认知智能的基础，自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。

这个世界需要一个答案。

（“封神榜”大模型系列模型矩阵）

（本次 IDEA 宣布开源的“封神榜”大模型家族）

二郎神系列

（二郎神登顶 FewCLUE 榜单）

领域模型-余元系列

周文王系列

闻仲系列

燃灯系列

上一篇2021 IDEA大会上墨群链开放平台KaaS初面世，致力打造开放联盟链新形态——拒绝信息孤岛，开放平台共享

下一篇IDEA与万科、美团、九坤成立联合实验室 ——共同构建数字经济产业生态

新闻动态

听见我们的声音

（沈向洋宣布“封神榜”大模型开源计划）

（“封神榜”大模型系列模型矩阵）

（本次 IDEA 宣布开源的“封神榜”大模型家族）

二郎神系列

（二郎神登顶 FewCLUE 榜单）

领域模型-余元系列

周文王系列

闻仲系列

燃灯系列

2021 IDEA大会重磅宣布，“封神榜”大模型开源计划开启——“封神榜”大模型系列宣告开源，有多“神”？

（沈向洋宣布“封神榜”大模型开源计划）

（“封神榜”大模型系列模型矩阵）

（本次 IDEA 宣布开源的“封神榜”大模型家族）

二郎神系列

（二郎神登顶 FewCLUE 榜单）

领域模型-余元系列

周文王系列

闻仲系列

燃灯系列

地址：

办公电话：

招聘邮箱：

办公电话：