11 月 23 日,以“About IDEA Beyond ideas”为主旨的 2022 IDEA 大会圆满落幕。此次大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋发布了多个 IDEA 研究院科研成果,介绍了这些创新产品取得的研发进展。BIOS 生物医学信息本体系统(Biomedical Informatics Ontology System, BIOS)的 V2 版也在本次大会发布的成果之列。
BIOS 是由深圳卫健委指导,IDEA 研究院 AI 平台技术研究中心(AIPT)与清华大学统计学研究中心俞声团队联合研发的开放生物医学知识图谱。继去年 BIOS 在 IDEA 大会上首次亮相后,经过 1 年时间打磨,今年 BIOS V2 以近 2700 万医学概念和 5400 多万医学术语的超大规模,远远超越医学知识图谱行业标杆——统一医学语言系统(Unified Medical Language System, UMLS),一跃成为全球规模领先的超级医学知识图谱。此外,BIOS 在数量大幅增长的时候,质量也做到了同步提升,英文术语的准确率和覆盖度都明显优于 UMLS。沈向洋表示,不到 2 年就初见成效,这充分体现了数据驱动构建医学知识图谱的优势。
BIOS V2 的主要发布亮点如下:
BIOS 是从 3400+万篇全量 PubMed 文献中,利用深度学习、文本挖掘等前沿技术,以自动化提取医学实体和结构化知识的方式而构建的。与去年亮相时相比,经过对术语清洗、概念聚合、关系抽取方法等技术进行难点攻坚,BIOS V2 实现了重大规模突破,现已收录 2,693 万医学概念(包括 27 种语义类型)、5,415 万医学术语和 6,960 万医学关系三元组(覆盖 13 种医学关系类型)。其中,英文术语和概念规模更是大幅超越 UMLS,分别达其 4 倍和 6 倍左右。
BIOS 的术语质量评估采用的是医学专家人工抽样评测方式,对术语准确性(Term Accuracy)和术语覆盖度(Term Completeness)两个关键指标进行评测。经测评,BIOS V2 的英文术语准确性和覆盖度分别为 63%和 51%,明显优于 UMLS 的 55%和 29%。
继开放下载数据集后,今年,BIOS 进一步在官网公布了全部构建技术和部分源代码。此外,BIOS 还提供了离线医学 NER 工具: BIOS Helper,支持批量处理、自动识别自由文本中的 BIOS 术语。
让疾病有“谱”可“医”,是 BIOS 的使命和愿景,沈向洋认为做这种以使命感驱动的创新型产品,与社会的需求紧密相连,将对社会产生非常正向的影响。
BIOS 除了持续打磨产品外,还积极致力于推动成果转化。BIOS 现已在电子病历结构化、医学科研智能选题、智能健康咨询问答等场景实现技术应用,并同时探索在疾病风险评估、体检报告解读、健康资讯精准推荐等更多场景的落地。
未来,作为数字医疗产业的基础支撑能力,相信 BIOS 通过为各种医疗大数据分析、医疗 AI 技术发展广泛赋能,将极大助力基础医疗服务能力提升,有效缓解长期存在的医疗资源缺口问题。
11 月 23 日,以“About IDEA Beyond ideas”为主旨的 2022 IDEA 大会圆满落幕。此次大会上,IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋发布了多个 IDEA 研究院科研成果,介绍了这些创新产品取得的研发进展。BIOS 生物医学信息本体系统(Biomedical Informatics Ontology System, BIOS)的 V2 版也在本次大会发布的成果之列。
BIOS 是由深圳卫健委指导,IDEA 研究院 AI 平台技术研究中心(AIPT)与清华大学统计学研究中心俞声团队联合研发的开放生物医学知识图谱。继去年 BIOS 在 IDEA 大会上首次亮相后,经过 1 年时间打磨,今年 BIOS V2 以近 2700 万医学概念和 5400 多万医学术语的超大规模,远远超越医学知识图谱行业标杆——统一医学语言系统(Unified Medical Language System, UMLS),一跃成为全球规模领先的超级医学知识图谱。此外,BIOS 在数量大幅增长的时候,质量也做到了同步提升,英文术语的准确率和覆盖度都明显优于 UMLS。沈向洋表示,不到 2 年就初见成效,这充分体现了数据驱动构建医学知识图谱的优势。
BIOS V2 的主要发布亮点如下:
BIOS 是从 3400+万篇全量 PubMed 文献中,利用深度学习、文本挖掘等前沿技术,以自动化提取医学实体和结构化知识的方式而构建的。与去年亮相时相比,经过对术语清洗、概念聚合、关系抽取方法等技术进行难点攻坚,BIOS V2 实现了重大规模突破,现已收录 2,693 万医学概念(包括 27 种语义类型)、5,415 万医学术语和 6,960 万医学关系三元组(覆盖 13 种医学关系类型)。其中,英文术语和概念规模更是大幅超越 UMLS,分别达其 4 倍和 6 倍左右。
BIOS 的术语质量评估采用的是医学专家人工抽样评测方式,对术语准确性(Term Accuracy)和术语覆盖度(Term Completeness)两个关键指标进行评测。经测评,BIOS V2 的英文术语准确性和覆盖度分别为 63%和 51%,明显优于 UMLS 的 55%和 29%。
继开放下载数据集后,今年,BIOS 进一步在官网公布了全部构建技术和部分源代码。此外,BIOS 还提供了离线医学 NER 工具: BIOS Helper,支持批量处理、自动识别自由文本中的 BIOS 术语。
让疾病有“谱”可“医”,是 BIOS 的使命和愿景,沈向洋认为做这种以使命感驱动的创新型产品,与社会的需求紧密相连,将对社会产生非常正向的影响。
BIOS 除了持续打磨产品外,还积极致力于推动成果转化。BIOS 现已在电子病历结构化、医学科研智能选题、智能健康咨询问答等场景实现技术应用,并同时探索在疾病风险评估、体检报告解读、健康资讯精准推荐等更多场景的落地。
未来,作为数字医疗产业的基础支撑能力,相信 BIOS 通过为各种医疗大数据分析、医疗 AI 技术发展广泛赋能,将极大助力基础医疗服务能力提升,有效缓解长期存在的医疗资源缺口问题。