11 月 22 日,由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy, 简称“IDEA”)联合举办的 2021 IDEA 大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨,围绕人工智能与数字经济展开讨论。上午 10 时,IDEA 创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋,在创新展示会环节宣布, IDEA 认知计算与自然语言研究中心(简称“IDEA CCNL”)将启动 “封神榜”大模型开源计划。
最近两年,预训练逐渐成为整个认知智能的基础,自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。
预训练模型的规模从最初的 1 亿参数 BERT 到一千多亿参数的 GTP-3,正在以每年 10 倍的速度增加。针对不同的下游任务,我们需要不同的结构,不同的尺寸和不同的专业领域的预训练模型。
这个世界需要更多更大的模型。但是,有限的算力资源是限制整个领域进一步发展的瓶颈。尤其是高校、小公司和一些传统公司,根本不具备足够的算力来训练和使用大规模预训练模型。这些都阻碍了整个人工智能技术更进一步的落地。
这个世界需要一个答案。
会上,沈向洋代表 IDEA CNNL 正式宣布:开启 “封神榜”大模型开源计划。在这个计划中,IDEA CCNL 全方面地开源一系列的自然语言预训练大模型。此系列模型将覆盖不同的模型结构、不同的模型尺寸、不同的专业领域。IDEA CCNL 也将对此系列模型做持续的升级,不断融合最新的数据和最新的训练算法,致力于打造中文认知智能的通用基础设施,避免重复建设,为全社会节省算力。
同时,IDEA CCNL 表示,希望各个公司、高校、机构加入到这个开源计划中,一起共建大模型开源体系。未来,当大家需要一个新的预训练模型,都应该是首先从封神榜中选取一个最适合各自任务的开源大模型,做继续训练,然后再把新的模型开源回这个体系。这样,每个人用最少的算力,就能得到自己的模型,同时这个开源大模型体系也能持续扩大。
二郎神系列是 Encoder 结构为主的双向语言模型,专注于解决各种自然语言理解任务。13 亿参数的二郎神-1.3B 大模型采用 280G 数据,运用 32 张 A100 训练 14 天,是最大的开源中文 Bert 大模型。2021 年 11 月 10 日在中文语言理解权威评测基准 FewCLUE 榜单上登顶。其中,CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录,详情可参见 https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未来,二郎神系列会持续在模型规模、知识融入、监督任务辅助等方向不断优化。
IDEA CCNL 负责人张家兴博士也曾表示,“封神榜”大模型开源计划不会止步于此,在学术、医疗、金融、法律等重要领域方向上也会逐步开源领域专属大模型,比如即将在医学领域推出应用的余元系列拥有 35 亿参数余元-3.5B 大模型,采用 50G 的医疗领域数据和知识,在已有的通用模型基础上,运用 256 张 A100 继续训练 28 小时,该模型参数记录了大量医疗知识,在医疗事实判断上,准确率可以接近 90%。
周文王系列是 IDEA CCNL 联合追一科技有限公司的新结构大模型。该模型在训练阶段就统一考虑 LM(Language Model)和 MLM(Mask Language Model)任务,增加了旋转位置编码技术,让模型同时具备生成和理解的能力。、13 亿参数的周文王-1.3B 大模型采用 280G 数据,运用 32 张 A100 训练 14 天,是中文领域同时做 LM 和 MLM 任务最大的模型。将来会在模型规模、知识融入、监督任务辅助等方向不断优化。
闻仲系列是 Decoder 结构为主的单向语言模型,是一系列强大的生成模型。35 亿参数的闻仲-3.5B 大模型采用 100G 数据,运用 256 张 A100 训练 28 小时,具备强大的生成能力。
燃灯系列是 Transformer 结构为主的编解码语言模型,把所有 NLP 任务转化成文本生成任务,7.7 亿参数的燃灯-7.7B 大模型采用 280G 数据,运用 16 张 A100 训练 14 天,能够很好地完成自然语言生成和理解任务。
上述的模型只是“封神榜”大模型开源计划的开始,后续 IDEA CCNL 将持续的开源更多的模型。同时 IDEA 表示,希望更多业界伙伴一起加入开源计划,一起推动中文认知智能和自然语言的深入发展和产业落地。
11 月 22 日,由深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy, 简称“IDEA”)联合举办的 2021 IDEA 大会在深圳福田成功召开。大会以“The World Needs a Few Good IDEAs”为主旨,围绕人工智能与数字经济展开讨论。上午 10 时,IDEA 创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士沈向洋,在创新展示会环节宣布, IDEA 认知计算与自然语言研究中心(简称“IDEA CCNL”)将启动 “封神榜”大模型开源计划。
最近两年,预训练逐渐成为整个认知智能的基础,自然语言和计算机视觉的算法全方面的依赖于预训练模型来构建。
预训练模型的规模从最初的 1 亿参数 BERT 到一千多亿参数的 GTP-3,正在以每年 10 倍的速度增加。针对不同的下游任务,我们需要不同的结构,不同的尺寸和不同的专业领域的预训练模型。
这个世界需要更多更大的模型。但是,有限的算力资源是限制整个领域进一步发展的瓶颈。尤其是高校、小公司和一些传统公司,根本不具备足够的算力来训练和使用大规模预训练模型。这些都阻碍了整个人工智能技术更进一步的落地。
这个世界需要一个答案。
会上,沈向洋代表 IDEA CNNL 正式宣布:开启 “封神榜”大模型开源计划。在这个计划中,IDEA CCNL 全方面地开源一系列的自然语言预训练大模型。此系列模型将覆盖不同的模型结构、不同的模型尺寸、不同的专业领域。IDEA CCNL 也将对此系列模型做持续的升级,不断融合最新的数据和最新的训练算法,致力于打造中文认知智能的通用基础设施,避免重复建设,为全社会节省算力。
同时,IDEA CCNL 表示,希望各个公司、高校、机构加入到这个开源计划中,一起共建大模型开源体系。未来,当大家需要一个新的预训练模型,都应该是首先从封神榜中选取一个最适合各自任务的开源大模型,做继续训练,然后再把新的模型开源回这个体系。这样,每个人用最少的算力,就能得到自己的模型,同时这个开源大模型体系也能持续扩大。
二郎神系列是 Encoder 结构为主的双向语言模型,专注于解决各种自然语言理解任务。13 亿参数的二郎神-1.3B 大模型采用 280G 数据,运用 32 张 A100 训练 14 天,是最大的开源中文 Bert 大模型。2021 年 11 月 10 日在中文语言理解权威评测基准 FewCLUE 榜单上登顶。其中,CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录,详情可参见 https://mp.weixin.qq.com/s/bA_9n_TlBE9P-UzCn7mKoA。未来,二郎神系列会持续在模型规模、知识融入、监督任务辅助等方向不断优化。
IDEA CCNL 负责人张家兴博士也曾表示,“封神榜”大模型开源计划不会止步于此,在学术、医疗、金融、法律等重要领域方向上也会逐步开源领域专属大模型,比如即将在医学领域推出应用的余元系列拥有 35 亿参数余元-3.5B 大模型,采用 50G 的医疗领域数据和知识,在已有的通用模型基础上,运用 256 张 A100 继续训练 28 小时,该模型参数记录了大量医疗知识,在医疗事实判断上,准确率可以接近 90%。
周文王系列是 IDEA CCNL 联合追一科技有限公司的新结构大模型。该模型在训练阶段就统一考虑 LM(Language Model)和 MLM(Mask Language Model)任务,增加了旋转位置编码技术,让模型同时具备生成和理解的能力。、13 亿参数的周文王-1.3B 大模型采用 280G 数据,运用 32 张 A100 训练 14 天,是中文领域同时做 LM 和 MLM 任务最大的模型。将来会在模型规模、知识融入、监督任务辅助等方向不断优化。
闻仲系列是 Decoder 结构为主的单向语言模型,是一系列强大的生成模型。35 亿参数的闻仲-3.5B 大模型采用 100G 数据,运用 256 张 A100 训练 28 小时,具备强大的生成能力。
燃灯系列是 Transformer 结构为主的编解码语言模型,把所有 NLP 任务转化成文本生成任务,7.7 亿参数的燃灯-7.7B 大模型采用 280G 数据,运用 16 张 A100 训练 14 天,能够很好地完成自然语言生成和理解任务。
上述的模型只是“封神榜”大模型开源计划的开始,后续 IDEA CCNL 将持续的开源更多的模型。同时 IDEA 表示,希望更多业界伙伴一起加入开源计划,一起推动中文认知智能和自然语言的深入发展和产业落地。