CN/EN
BIOS医学知识图谱数据集正式开放下载
2022-01-28
分享:
BIOS数据集下载地址:https://bios.idea.edu.cn/Download

BIOS数据集下载地址 

在2021 IDEA大会“创新展示会”上,IDEA首次对外重磅发布了研究院成立一年以来的六大科研产品,期望以科技创新推动产业变革和社会进步。其中的BIOS医学知识图谱作为AI医学领域的基础支撑性产品,承担着助力医学进步、提升国民福祉的重要使命,在疫情之下尤为凸显。因此,时隔2个月,IDEA赶在2022年新春佳节来临之际,加送一个大礼包,全面开放下载BIOS医学知识图谱数据集,欢迎AI医疗同行及合作伙伴下载,携手推动图谱建设完善和产业化落地。


BIOS医学知识图谱介绍:

BIOS即生物医学信息本体系统(Biomedical Informatics Ontology System),是利用深度学习、文本挖掘等方面的前沿技术,与国内外专家一起构建的超大规模医学知识图谱。BIOS对标全球行业先驱,基于PubMed等权威医学文本,利用深度学习算法大规模发现知识,同时设立专家审校质控机制。“坚持开放,广泛合作”是BIOS建设之初就明确的路线,BIOS希望通过开放合作促进医疗信息互联互通,并助力智慧医院、辅助诊疗、药物研发等领域的广泛应用。

BIOS由IDEA  AI平台技术研究中心(IDEA  AIPT)研发建设,合作共建单位有深圳市卫生健康委员会(指导单位)、清华大学统计学研究中心(共建单位)。

本次开放下载的数据集是BIOS 2022v1(beta)版本体库,共收录414万医学概念、738万医学术语(包含520万英文术语和218万中文术语)和734万医学关系三元组,及包含19种医学关系类型。

不同语义类型医学概念分布情况:


支持多种开放访问方式:

1.通过BIOS网站(bios.idea.edu.cn)在线搜索和图谱浏览;

2.通过OpenAPI直接访问知识集;

3.在BIOS网站资源下载中心中直接下载数据集:

提供完整下载文件包BIOS 2022v1 (beta).zip,包含BIOS核心词库(Core-data, 包含概念、术语、关系三元组以及概念的定义和语义类型数据)、语义网络(Semantic Network)、MYSQL数据库加载脚本、元数据说明文件和许可声明等。免费下载,快捷导入数据库。


用途及授权说明:

BIOS医学知识图谱可开放应用于院校科研、行业交流、个人学习、新药研发等各类用途,在医学信息领域的典型应用方式如下:

1.基于BIOS概念ID系统的信息互联

2.生物医学领域的自然语言处理

3.基于医学知识图谱的智能问答

4.大健康方向的AI建模

BIOS开放数据目前采用的默认授权协议为:

CC BY-NC-ND 4.0(Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International license)

如需用于商业用途,可联系IDEA获取授权。

联系邮箱:bios@idea.edu.cn

2022年,BIOS将继续发扬“工”匠精神,从扩大语义类型范围、提升术语挖掘质量、完善中文图谱建设和提升关系数量与质量等方面进一步提升图谱质量,以更好、更新、更全的医学知识图谱助力疫情防控、促进医疗普惠。此外,BIOS也将坚持开放合作,建立开放的图谱建设协作机制,并提供先进、免费的图谱建设NLP工具,以根据用户的反馈,推动BIOS的更快建设,促进AI医疗产业化更好落地。

最后,BIOS研发团队诚挚地邀请有志于中文图谱建设或图谱临床应用的合作伙伴和我们联系交流、探索合作可能~也十分欢迎志同道合的人才加入我们,一起建设完善BIOS,为了“让疾病可预防、早确诊、能治愈”的共同理想而奋斗!

TOP