新闻动态

听见我们的声音

11 月 23 日,以“About IDEA Beyond ideas”为主旨的 2022 IDEA 大会圆满落幕。此次大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋发布了多个 IDEA 研究院科研成果,介绍了这些创新产品取得的研发进展。BIOS 生物医学信息本体系统(Biomedical Informatics Ontology System, BIOS)的 V2 版也在本次大会发布的成果之列。

 

 

BIOS 是由深圳卫健委指导,IDEA 研究院 AI 平台技术研究中心(AIPT)与清华大学统计学研究中心俞声团队联合研发的开放生物医学知识图谱。继去年 BIOS 在 IDEA 大会上首次亮相后,经过 1 年时间打磨,今年 BIOS V2 以近 2700 万医学概念和 5400 多万医学术语的超大规模,远远超越医学知识图谱行业标杆——统一医学语言系统(Unified Medical Language System, UMLS),一跃成为全球规模领先的超级医学知识图谱。此外,BIOS 在数量大幅增长的时候,质量也做到了同步提升,英文术语的准确率和覆盖度都明显优于 UMLS。沈向洋表示,不到 2 年就初见成效,这充分体现了数据驱动构建医学知识图谱的优势。

BIOS V2 的主要发布亮点如下:

 

规模全球领先

BIOS 是从 3400+万篇全量 PubMed 文献中,利用深度学习、文本挖掘等前沿技术,以自动化提取医学实体和结构化知识的方式而构建的。与去年亮相时相比,经过对术语清洗、概念聚合、关系抽取方法等技术进行难点攻坚,BIOS V2 实现了重大规模突破,现已收录 2,693 万医学概念(包括 27 种语义类型)、5,415 万医学术语和 6,960 万医学关系三元组(覆盖 13 种医学关系类型)。其中,英文术语和概念规模更是大幅超越 UMLS,分别达其 4 倍和 6 倍左右。

 


沈向洋介绍 BIOS 术语规模

 

术语质量提升

BIOS 的术语质量评估采用的是医学专家人工抽样评测方式,对术语准确性(Term Accuracy)和术语覆盖度(Term Completeness)两个关键指标进行评测。经测评,BIOS V2 的英文术语准确性和覆盖度分别为 63%和 51%,明显优于 UMLS 的 55%和 29%。

 

术语准确性:Span 和语义类型都正确的术语占知识图谱全部术语的比例,测评方法为从知识图谱中随机选取 3616 条术语(95%置信度下的最小抽样量),由医学专家人工评测准确率。
术语覆盖度:知识图谱术语占真实世界中全部生物医学术语的比例。测评方法为从 PubMed 文献库、MIMICIII 病历库、Medscape⽹站等来源随机抽取 7,000 句子(后续将扩增至 2 万句子)作为测试集,由医学专家人工标注出目标术语,再计算覆盖度。

开放构建技术和工具

继开放下载数据集后,今年,BIOS 进一步在官网公布了全部构建技术和部分源代码。此外,BIOS 还提供了离线医学 NER 工具: BIOS Helper,支持批量处理、自动识别自由文本中的 BIOS 术语。

 


BIOS 全面开放

 

让疾病有“谱”可“医”,是 BIOS 的使命和愿景,沈向洋认为做这种以使命感驱动的创新型产品,与社会的需求紧密相连,将对社会产生非常正向的影响。

 

BIOS:让疾病都有“谱”可“医”

BIOS 除了持续打磨产品外,还积极致力于推动成果转化。BIOS 现已在电子病历结构化、医学科研智能选题、智能健康咨询问答等场景实现技术应用,并同时探索在疾病风险评估、体检报告解读、健康资讯精准推荐等更多场景的落地。

未来,作为数字医疗产业的基础支撑能力,相信 BIOS 通过为各种医疗大数据分析、医疗 AI 技术发展广泛赋能,将极大助力基础医疗服务能力提升,有效缓解长期存在的医疗资源缺口问题。

BIOS V2正式发布,数据驱动构建超级医学知识图谱

日期:2022-11-26
  • 分享:
让疾病都有“谱”可“医”

11 月 23 日,以“About IDEA Beyond ideas”为主旨的 2022 IDEA 大会圆满落幕。此次大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋发布了多个 IDEA 研究院科研成果,介绍了这些创新产品取得的研发进展。BIOS 生物医学信息本体系统(Biomedical Informatics Ontology System, BIOS)的 V2 版也在本次大会发布的成果之列。

 

 

BIOS 是由深圳卫健委指导,IDEA 研究院 AI 平台技术研究中心(AIPT)与清华大学统计学研究中心俞声团队联合研发的开放生物医学知识图谱。继去年 BIOS 在 IDEA 大会上首次亮相后,经过 1 年时间打磨,今年 BIOS V2 以近 2700 万医学概念和 5400 多万医学术语的超大规模,远远超越医学知识图谱行业标杆——统一医学语言系统(Unified Medical Language System, UMLS),一跃成为全球规模领先的超级医学知识图谱。此外,BIOS 在数量大幅增长的时候,质量也做到了同步提升,英文术语的准确率和覆盖度都明显优于 UMLS。沈向洋表示,不到 2 年就初见成效,这充分体现了数据驱动构建医学知识图谱的优势。

BIOS V2 的主要发布亮点如下:

 

规模全球领先

BIOS 是从 3400+万篇全量 PubMed 文献中,利用深度学习、文本挖掘等前沿技术,以自动化提取医学实体和结构化知识的方式而构建的。与去年亮相时相比,经过对术语清洗、概念聚合、关系抽取方法等技术进行难点攻坚,BIOS V2 实现了重大规模突破,现已收录 2,693 万医学概念(包括 27 种语义类型)、5,415 万医学术语和 6,960 万医学关系三元组(覆盖 13 种医学关系类型)。其中,英文术语和概念规模更是大幅超越 UMLS,分别达其 4 倍和 6 倍左右。

 


沈向洋介绍 BIOS 术语规模

 

术语质量提升

BIOS 的术语质量评估采用的是医学专家人工抽样评测方式,对术语准确性(Term Accuracy)和术语覆盖度(Term Completeness)两个关键指标进行评测。经测评,BIOS V2 的英文术语准确性和覆盖度分别为 63%和 51%,明显优于 UMLS 的 55%和 29%。

 

术语准确性:Span 和语义类型都正确的术语占知识图谱全部术语的比例,测评方法为从知识图谱中随机选取 3616 条术语(95%置信度下的最小抽样量),由医学专家人工评测准确率。
术语覆盖度:知识图谱术语占真实世界中全部生物医学术语的比例。测评方法为从 PubMed 文献库、MIMICIII 病历库、Medscape⽹站等来源随机抽取 7,000 句子(后续将扩增至 2 万句子)作为测试集,由医学专家人工标注出目标术语,再计算覆盖度。

开放构建技术和工具

继开放下载数据集后,今年,BIOS 进一步在官网公布了全部构建技术和部分源代码。此外,BIOS 还提供了离线医学 NER 工具: BIOS Helper,支持批量处理、自动识别自由文本中的 BIOS 术语。

 


BIOS 全面开放

 

让疾病有“谱”可“医”,是 BIOS 的使命和愿景,沈向洋认为做这种以使命感驱动的创新型产品,与社会的需求紧密相连,将对社会产生非常正向的影响。

 

BIOS:让疾病都有“谱”可“医”

BIOS 除了持续打磨产品外,还积极致力于推动成果转化。BIOS 现已在电子病历结构化、医学科研智能选题、智能健康咨询问答等场景实现技术应用,并同时探索在疾病风险评估、体检报告解读、健康资讯精准推荐等更多场景的落地。

未来,作为数字医疗产业的基础支撑能力,相信 BIOS 通过为各种医疗大数据分析、医疗 AI 技术发展广泛赋能,将极大助力基础医疗服务能力提升,有效缓解长期存在的医疗资源缺口问题。