CN/EN

认知计算与自然语言研究中心

招贤纳士 

IDEA研究院认知计算与自然语言研究中心(CCNL,Cognitive Computing and Natural Language),致力于研究预训练大模型为代表的新一代认知与自然语言前沿技术。通过开源模型、构建平台和发展生态,重塑自然语言算法的基础设施,打造认知智能的技术新范式,推动中文自然语言领域的发展。

CCNL首先建设一个完整的大模型训练流水线,源源不断地有大模型生产和更新,作为新一代自然语言技术的技术设施。大模型通过开源和定制化生产等形式,直接输出给生态伙伴。在这些大模型基础上,是针对文本分类、序列标注、句子关系、文本生成等各种NLP任务的机器学习引擎。用户只需提供很少样本(few-shot learning),通过交互式学习,就可以通过这个引擎得到针对具体任务的产品级模型。引擎的背后是各种预训练、fine-tuning、模型蒸馏、样本生成等各种技术,以及他们跟NLP具体任务的深度优化和绑定。最终,我们实现让机器像人一样去学习。

IDEA-CCNL研究中心汇聚了一批在人工智能、深度学习、分布式系统等多个领域一流的科学家和工程师。我们的研发团队成员多来自康奈尔大学、爱丁堡大学、伊利诺伊大学、北京大学、清华大学、北京邮电大学、中国科学技术大学、同济大学、武汉大学等全球知名高校以及腾讯、百度、微软、阿里巴巴、华为、京东、360、平安等全球知名科技与互联网企业。我们秉承“科学家思想、工程师执着、创业者精神”的人才理念,坚持“创新、分享、公平、回报”的氛围,奉行技术优先的“工程师文化”。我们绝对信任年轻人的巨大潜力,激励每一位年轻人发挥无限的创造力,让大家能够干大事、挑大梁、成大器,一起做改变认知计算与自然语言行业未来格局的新技术,一起挑战世界前沿的技术领域,一起拼搏取得学术和产业上的双重成功。

IDEA研究院CCNL技术团队开通了知乎账号,我们将在该账号中不定期更新技术文章,分享技术心得。

IDEA研究院CCNL的封神空间:

https://www.zhihu.com/people/feng-shen-kong-jian 

“封神榜”大模型开源计划

2021年11月22日,IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布启动 “封神榜”大模型开源计划。目前,我们已经开源了6个系列共10个模型,包含4种模型结构,模型参数最大达到35亿。

二郎神系列:以Encoder结构为主的双向语言系列模型,专注于解决各种自然语言理解任务。本系列中13亿参数的“Erlangshen-MegatronBert-1.3B”大模型,是目前中文领域内最大的开源Bert大模型。2021年11月及2022年1月,“二郎神”在中文语言理解权威评测基准FewCLUE  ZeroCLUE 双料榜单上登顶,2022年3月在Hugging Face的单月下载量突破1k。同时IDEA研究院CCNL也开源了解决长文本分类任务的“Erlangshen-Longformer-110M”和“Erlangshen-Longformer-330M”。

余元系列:本系列模型主要面向医疗领域。拥有35亿参数的“Yuyuan-GPT2-3.5B”大模型,对英文医疗事实判断准确率接近90%。由 “Yuyuan-GPT2-3.5B”微调而来的问答模型“YuyuanQA-GPT2-3.5B”,在100个英文医疗问答任务上的Bleu值达到了0.35。

周文王系列:是IDEA研究院与追一科技联合开发的一系列新结构大模型。目前开源的13亿参数“Zhouwenwang-Unified-1.3B”大模型,是中文领域内可同时做LM和MLM任务的最大模型。

闻仲系列:以Decoder结构为主的单向语言模型,是一系列强大的生成模型,目前开源了35亿参数的“Wenzhong-GPT2-3.5B”大模型。

燃灯系列:本系列是以Transformer结构为主的编解码语言模型,主要解决通用任务,目前开源了7.7亿参数的“Randeng-MegatronT5-770M”大模型。

比干系列:本系列主要面向各种纠错任务,目前开源了11亿参数的“Bigan-Transformer-XL-denoise-1.1B”大模型。

为优化使用体验,拥抱开源社区,促进社会探索,封神榜的所有模型都完成转化并同步到了IDEA研究院CCNL的Hugging Face社区。另外,我们附送了大模型的应用示例,帮助您通过简短几行代码就可轻松使用“封神榜”的所有模型,欢迎来IDEA-CCNL的huggingface社区 下载。

开源地址:

https://github.com/IDEA-CCNL/Fengshenbang-LM 
https://huggingface.co/IDEA-CCNL 


GTS factory“一站式模型自动化生产平台”

GTS factory平台致力于新一代中文自然语言技术的基础设施建设,打造认知智能的技术新范式,让每个人都能够轻松生产自己的AI模型。

GTS factory帮助不同领域的业务实现智能化转型。无须顶尖AI技术背景、无须海量业务数据、无须强大算力基础,只需上传少量训练数据,即可得到专属AI模型,还可以免费下载。

我们首创GTS训练体系,该体系在满足个性化需求的基础上实现了产品生产的规模化:以自动化学习解决场景定制化问题、以小样本学习解决数据稀缺问题、以先进算法减少算力消耗。精准解决人工智能行业在人力、数据、算力上的三大痛点,真正实现零门槛模型自动化生产,助力企业打破技术壁垒,用AI赋能更多行业。

基于预训练大模型的GTS训练体系(Generator-Teacher-Student):

GTS factory的命名源自其底层技术原理GTS训练体系,G-T-S分别指Generator、Teacher和Student三类不同规模的模型。其中Generator为Teacher和Student生成大量任务相关样本,Teacher作为教师模型指导Student训练。在GTS训练体系下,只需要输入少量任务标注样本,用户就能得到一个针对该任务可以直接部署的Student小模型。


通过有机组合和搭配GTS训练体系中的不同模型和多种算法组件,可以适应各种复杂的商业场景,构建各种AI定制化产品。

在实际应用中,每个任务类别仅需非常少量的样本,GTS factory的效果就能接近人工最好水平。目前在六个场景下的最终效果如下图所示:



更多场景正在等待您来解锁!目前平台邀请内测中,您可通过邮件联系我们:GTSfactory@idea.edu.cn

除前述之外,我们还将扩展更多创新功能,如增量训练、智能标注、在线推理等,实现交互式的模型优化,敬请期待!

研究方向

预训练大模型生产体系
大模型训练算法、训练框架和数据体系。
少样本和零样本学习
通过预训练大模型的先验和样本生成能力,减少对样本数量的需求。
自动化学习
通过多模块协作和自动化决策,机器自动化训练的模型可以媲美人工设计和调参的模型。
交互式学习
探索 Human as Environment的理念,让机器主动向人学习。
模型即知识
预训练模型对文本知识进行预训练,模型参数隐式的表达了知识,可以支持各类下游任务。

TOP