CN/EN

认知计算与自然语言研究中心

招贤纳士 

IDEA研究院认知计算与自然语言研究中心(CCNL,Cognitive Computing and Natural Language),致力于在预训练大模型时代,建设认知智能的基础设施,推动AI学术和产业发展。

“封神榜”开源大模型体系,将数据和算力沉淀成具有认知能力的预训练模型,目标是成为海量下游任务和各种算法创新研究的坚实基础。其中“二郎神”模型已获得中文NLP权威榜单FewCLUE与ZeroCLUE的双料冠军。

GTS模型生产平台,用AI生产AI模型,以解决具体场景下定制化模型生产面临的人力贵和数据少的困境。我们独创GTS训练体系,其全自动化生产的模型效果已经接近人类算法工程师水平。

IDEA研究院CCNL在预训练模型生产、少样本/零样本学习、受控文本生成、自动化机器学习等技术领域,都达到了领先水平。我们的目标是让机器像人一样去学习,创造具备认知能力的AI数字生产力,促进数字经济发展,让世界变得更美好。

IDEA研究院CCNL汇聚了一批在人工智能、深度学习、分布式系统等多个领域一流的科学家和工程师。我们的研发团队成员多来自康奈尔大学、爱丁堡大学、伊利诺伊大学、北京大学、清华大学、北京邮电大学、中国科学技术大学、同济大学、武汉大学等全球知名高校以及腾讯、百度、微软、阿里巴巴、华为、京东、360、平安等全球知名科技与互联网企业。我们秉承“科学家思想、工程师执着、创业者精神”的人才理念,坚持“创新、分享、公平、回报”的氛围,奉行技术优先的“工程师文化”。我们绝对信任年轻人的巨大潜力,激励每一位年轻人发挥无限的创造力,让大家能够干大事、挑大梁、成大器,一起做改变认知计算与自然语言行业未来格局的新技术,一起挑战世界前沿的技术领域,一起拼搏取得学术和产业上的双重成功。

IDEA研究院CCNL技术团队开通了知乎账号,我们将在该账号中不定期更新技术文章,分享技术心得。

IDEA研究院CCNL的封神空间:

https://www.zhihu.com/people/feng-shen-kong-jian 


“封神榜”大模型开源计划

2021年11月22日,IDEA研究院创院理事长沈向洋在IDEA大会上正式宣布启动 “封神榜”大模型开源计划。目前,我们已经开源了6个系列共10个模型,包含4种模型结构,模型参数最大达到35亿。

二郎神系列:以Encoder结构为主的双向语言系列模型,专注于解决各种自然语言理解任务。本系列中13亿参数的“Erlangshen-MegatronBert-1.3B”大模型,是目前中文领域内最大的开源Bert大模型。2021年11月及2022年1月,“二郎神”在中文语言理解权威评测基准FewCLUE  ZeroCLUE 双料榜单上登顶,2022年3月在Hugging Face的单月下载量突破1k。同时IDEA研究院CCNL也开源了解决长文本分类任务的“Erlangshen-Longformer-110M”和“Erlangshen-Longformer-330M”。

余元系列:本系列模型主要面向医疗领域。拥有35亿参数的“Yuyuan-GPT2-3.5B”大模型,对英文医疗事实判断准确率接近90%。由 “Yuyuan-GPT2-3.5B”微调而来的问答模型“YuyuanQA-GPT2-3.5B”,在100个英文医疗问答任务上的Bleu值达到了0.35。

周文王系列:是IDEA研究院与追一科技联合开发的一系列新结构大模型。目前开源的13亿参数“Zhouwenwang-Unified-1.3B”大模型,是中文领域内可同时做LM和MLM任务的最大模型。

闻仲系列:以Decoder结构为主的单向语言模型,是一系列强大的生成模型,目前开源了35亿参数的“Wenzhong-GPT2-3.5B”大模型。

燃灯系列:本系列是以Transformer结构为主的编解码语言模型,主要解决通用任务,目前开源了7.7亿参数的“Randeng-MegatronT5-770M”大模型。

比干系列:本系列主要面向各种纠错任务,目前开源了11亿参数的“Bigan-Transformer-XL-denoise-1.1B”大模型。

为优化使用体验,拥抱开源社区,促进社会探索,封神榜的所有模型都完成转化并同步到了IDEA研究院CCNL的Hugging Face社区。另外,我们附送了大模型的应用示例,帮助您通过简短几行代码就可轻松使用“封神榜”的所有模型,欢迎来IDEA-CCNL的huggingface社区 下载。

开源地址:

https://github.com/IDEA-CCNL/Fengshenbang-LM 
https://huggingface.co/IDEA-CCNL 


GTSfactory
一站式模型自动化生产平台

GTSfactory平台致力于新一代中文自然语言技术的基础设施建设,打造认知智能的技术新范式。

GTSfactory帮助不同领域的业务实现智能化转型。无须顶尖AI技术背景、无须海量业务数据、无须强大算力基础,只需上传少量训练数据,即可得到专属AI模型,还可以免费下载。

我们首创GTS训练体系,该体系在满足个性化需求的基础上实现了模型生产的规模化:以自动化学习解决场景定制化问题、以小样本学习解决数据稀缺问题、以先进算法减少算力消耗。精准解决人工智能行业在人力、数据、算力上的三大痛点,真正实现零门槛模型自动化生产,助力企业打破技术壁垒,用AI赋能更多行业。

基于预训练大模型的GTS训练体系(Generator-Teacher-Student):

GTSfactory的命名源自其底层技术原理GTS训练体系,G、T、S分别指Generator、Teacher和Student三类不同规模的模型。其中Generator为Teacher和Student生成大量任务相关样本,Teacher作为教师模型指导Student训练。在GTS训练体系下,只需要输入少量任务标注样本,用户就能得到一个针对该任务可以直接部署的Student小模型。


通过有机组合和搭配GTS训练体系中的不同模型和多种算法组件,可以适应各种复杂的商业场景,构建各种AI定制化产品。

在实际应用中,每个任务类别仅需非常少量的样本,GTSfactory的效果就能接近人工最好水平。目前在六个场景下的最终效果如下图所示:


更多场景等待您来解锁!目前平台正在公测,免费开放中,欢迎您注册使用:https://gtsfactory.com 

我们还将扩展更多创新功能,如样本生成、标签纠错、零样本智能标注等。通过人与模型的不断交互促进模型优化、促使机器像人一样去学习。未来,GTS模型生产平台还将继续探索AI模型生产的更多可能。

如有任何问题,请扫码添加小助手进群交流↓也可通过邮件联系我们:GTSfactory@idea.edu.cn


研究方向

预训练大模型生产体系
大模型训练算法、训练框架和数据体系。
少样本和零样本学习
通过预训练大模型的先验和样本生成能力,减少对样本数量的需求。
自动化学习
通过多模块协作和自动化决策,机器自动化训练的模型可以媲美人工设计和调参的模型。
交互式学习
探索 Human as Environment的理念,让机器主动向人学习。
模型即知识
预训练模型对文本知识进行预训练,模型参数隐式的表达了知识,可以支持各类下游任务。

TOP