研究中心介绍
AI 平台技术研究中心( AIPT, AI Platform Technologies )目前主要聚焦科研教育和健康医疗两个方向。我们结合人工智能技术,通过面向场景的项目研发、实施和部署凝练大规模高质量知识图谱构建、自然语言处理、新一代搜索和推荐引擎等通用的平台技术,以赋能行业创新,推进 AI 技术的落地和产业化。
技术方向
“ You are how you read ”—— IDEA 研究院创院理事长沈向洋
读 “ 好 ” 论文和 “ 读好 ” 论文,是沈向洋博士提出的论文阅读认知模型的第一步,也是切实提升选题和科研能力以及写好论文的基础。论文阅读平台 ReadPaper 应运而生,为阅读实战提供了必要的支持。该项目由 IDEA 数字经济研究院工程总监谢育涛亲自带队,在已有的 Beta 版基础上不断迭代完善,利用并加强论文知识图谱,根据用户反馈提升产品体验,为全球研究人员提供一个学习和交流的平台。
当前,论文阅读平台 ReadPaper 共收录近 2 亿篇论文、2.7 亿位作者、近 3 万所高校及研究机构,几乎涵盖了全人类所有学科。科研工作离不开论文的帮助,如何读懂论文,读好论文,这本身就是一个很大的命题,我们的使命是:“ 让天下没有难读的论文 ”。
大规模生物医学知识图谱
生物医学知识图谱本质上是一种揭示健康医学实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。它是在人工构建的专业知识库基础上,通过算法以及人工审核的方式不断扩充实体及关系来构建的,包括疾病、症状、药品、手术、非手术治疗等医学概念与多种医学关系。
生物医学知识图谱是医疗 AI 的核心,我们致力于打造面向全球值得信赖的开放医学知识全集,并助力健康医学领域的广泛应用。此项目由 IDEA 数字经济研究院工程总监谢育涛和多位 AI 医疗领域专家亲自带队,应用自然语言处理与文本挖掘技术,基于大规模医学文本数据,挖掘多类型数据资源,与全球相关机构合作,充分利用院内国际排名前五十的超算集群构建全科覆盖的生物医学知识图谱。
多语言智能翻译与交流平台
语言多样性所引发的语言障碍被认为是阻碍不同国家、地区进行深入交流的主要挑战之一,其中的关键问题有两个:一是多语言的语音识别,二是跨语言的文本翻译。作为跨语言沟通和交流的基础桥梁,翻译的质量和速度决定了沟通和交流的效果和效率。在现有的以中文为中心的多语言机器翻译和机器同声传译系统中,对一些语料稀缺的低资源小语种而言,由于缺乏自身的语音识别标注语料以及同汉语间的平行文本语料,其和汉语进行文本互译或同传的效果仍然离可以实际使用的标准相差太远,面临着很大的挑战。
低资源语种的翻译是当下机器翻译研究和应用的热点之一。受限于有限的评测和训练语料数据,如何提升低资源语种的翻译效果是一个迄今尚未解决的问题。除了语料匮乏外,低资源语种也存在资源分布过于零散的普遍现象,且这些分散的资源多为非开源资源;而私有、高质量、小样本的语料可以辅助机器翻译系统不断增量训练和持续学习,因此机器翻译系统与用户之间的交互和反馈尤为重要。
另一方面,作为跨语言交流的另外一项基础技术,语音识别技术虽然在过去三十年间取得了一系列的重大突破,但在某些现实应用场景中,其性能和稳定性上仍然存在许多挑战和问题。尤其是在多语言的人机交互中,如何让机器能够理解人类不同语言的语音,克服语言障碍,依然是一个研究难题和热点。
本研究方向旨在建立一个以中文为中心的多语言交流平台,在提供高质量的评测数据和评测体验的同时,吸引不同语种的研究人员打破语种的障碍,共建共享平台数据和平台能力,将多语言尤其是小语种翻译的水平提高到一个新的台阶,为地球村的不同族群的语言交流提供更好的体验和服务。
代码理解与代码搜索
CodePilot 和 ChatGPT 的代码生成能力为程序员带来了极大的方便。随着开源技术的兴起,代码复用已经成为软件开发人员的必经之路。在开源代码中准确、快速地搜索到想要的代码,将能有效提高软件开发效率,降低软件开发成本。基于机器学习和深度学习的代码理解和代码搜索的研究随着 NLP 领域的发展也在持续取得突破。近几年一些学者受预训练模型进展的启发,提出了在多种程序语言上进行预训练的方法,这些方法将代码搜索的性能推到了一个新高度。
本研究方向旨在提升机器理解代码的模型能力,为程序员提供高质量的代码搜索和代码生成服务。
最新研究成果
研究中心介绍
AI 平台技术研究中心( AIPT, AI Platform Technologies )目前主要聚焦科研教育和健康医疗两个方向。我们结合人工智能技术,通过面向场景的项目研发、实施和部署凝练大规模高质量知识图谱构建、自然语言处理、新一代搜索和推荐引擎等通用的平台技术,以赋能行业创新,推进 AI 技术的落地和产业化。
技术方向
“ You are how you read ”—— IDEA 研究院创院理事长沈向洋
读 “ 好 ” 论文和 “ 读好 ” 论文,是沈向洋博士提出的论文阅读认知模型的第一步,也是切实提升选题和科研能力以及写好论文的基础。论文阅读平台 ReadPaper 应运而生,为阅读实战提供了必要的支持。该项目由 IDEA 数字经济研究院工程总监谢育涛亲自带队,在已有的 Beta 版基础上不断迭代完善,利用并加强论文知识图谱,根据用户反馈提升产品体验,为全球研究人员提供一个学习和交流的平台。
当前,论文阅读平台 ReadPaper 共收录近 2 亿篇论文、2.7 亿位作者、近 3 万所高校及研究机构,几乎涵盖了全人类所有学科。科研工作离不开论文的帮助,如何读懂论文,读好论文,这本身就是一个很大的命题,我们的使命是:“ 让天下没有难读的论文 ”。
大规模生物医学知识图谱
生物医学知识图谱本质上是一种揭示健康医学实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。它是在人工构建的专业知识库基础上,通过算法以及人工审核的方式不断扩充实体及关系来构建的,包括疾病、症状、药品、手术、非手术治疗等医学概念与多种医学关系。
生物医学知识图谱是医疗 AI 的核心,我们致力于打造面向全球值得信赖的开放医学知识全集,并助力健康医学领域的广泛应用。此项目由 IDEA 数字经济研究院工程总监谢育涛和多位 AI 医疗领域专家亲自带队,应用自然语言处理与文本挖掘技术,基于大规模医学文本数据,挖掘多类型数据资源,与全球相关机构合作,充分利用院内国际排名前五十的超算集群构建全科覆盖的生物医学知识图谱。
多语言智能翻译与交流平台
语言多样性所引发的语言障碍被认为是阻碍不同国家、地区进行深入交流的主要挑战之一,其中的关键问题有两个:一是多语言的语音识别,二是跨语言的文本翻译。作为跨语言沟通和交流的基础桥梁,翻译的质量和速度决定了沟通和交流的效果和效率。在现有的以中文为中心的多语言机器翻译和机器同声传译系统中,对一些语料稀缺的低资源小语种而言,由于缺乏自身的语音识别标注语料以及同汉语间的平行文本语料,其和汉语进行文本互译或同传的效果仍然离可以实际使用的标准相差太远,面临着很大的挑战。
低资源语种的翻译是当下机器翻译研究和应用的热点之一。受限于有限的评测和训练语料数据,如何提升低资源语种的翻译效果是一个迄今尚未解决的问题。除了语料匮乏外,低资源语种也存在资源分布过于零散的普遍现象,且这些分散的资源多为非开源资源;而私有、高质量、小样本的语料可以辅助机器翻译系统不断增量训练和持续学习,因此机器翻译系统与用户之间的交互和反馈尤为重要。
另一方面,作为跨语言交流的另外一项基础技术,语音识别技术虽然在过去三十年间取得了一系列的重大突破,但在某些现实应用场景中,其性能和稳定性上仍然存在许多挑战和问题。尤其是在多语言的人机交互中,如何让机器能够理解人类不同语言的语音,克服语言障碍,依然是一个研究难题和热点。
本研究方向旨在建立一个以中文为中心的多语言交流平台,在提供高质量的评测数据和评测体验的同时,吸引不同语种的研究人员打破语种的障碍,共建共享平台数据和平台能力,将多语言尤其是小语种翻译的水平提高到一个新的台阶,为地球村的不同族群的语言交流提供更好的体验和服务。
代码理解与代码搜索
CodePilot 和 ChatGPT 的代码生成能力为程序员带来了极大的方便。随着开源技术的兴起,代码复用已经成为软件开发人员的必经之路。在开源代码中准确、快速地搜索到想要的代码,将能有效提高软件开发效率,降低软件开发成本。基于机器学习和深度学习的代码理解和代码搜索的研究随着 NLP 领域的发展也在持续取得突破。近几年一些学者受预训练模型进展的启发,提出了在多种程序语言上进行预训练的方法,这些方法将代码搜索的性能推到了一个新高度。
本研究方向旨在提升机器理解代码的模型能力,为程序员提供高质量的代码搜索和代码生成服务。
最新研究成果