近日,粤港澳大湾区数字经济研究院(简称“ IDEA 研究院”)与量子物理、AI 和机器人赋能的创新型研发平台晶泰科技共同宣布:IDEA 晶泰人工智能实验室开发的药化领域的多模态大模型,成功应用于晶泰科技打造的新一代专利数据提取工具 PatSight,精准实现了药化文献专利的化学分子结构解析和表格识别,将药物领域的专利化合物数据挖掘时间从传统的数周缩短至 1 小时。
2021 年底,晶泰科技加入 IDEA 研究院 CTO Labs 计划,共同成立“IDEA 晶泰人工智能实验室”。去年,实验室推出基于 AI 的高通量高精度抗体结构预测模型 idealFold,大大提高了抗体药物的研发效率。PatSight 为此实验室又一重要进展。两年半以来,双方基于各自的技术优势,针对生物医药行业面临的技术挑战,在创新药发现、专利数据提取等领域展开深度研发合作。
CTO Labs 计划将世界一流的科研能力,和产业界最精锐的科技团队联合在一起,将算法与场景结合、技术与产业融合,真正实现 AI 在数字经济领域的潜力。如何让技术发挥更大的作用、同时在产业落地的过程中不断完善技术,是 CTO Labs 合作计划的探索方向。
以下内容转载自晶泰科技公众号:
药物研发中对专利数据的挖掘和分析至关重要,但传统方法依赖药化专家手动整理大量专利,使用化学结构绘制工具手动绘制大量化学结构并标记活性数据,进行 SAR 分析,这个过程少则几天,多则数周。
面对这一挑战,晶泰科技携手粤港澳大湾区数字经济研究院(简称 “IDEA” 研究院),共同研发了专利数据挖掘平台——PatSight,将这一过程时间缩短至 1 小时。
PatSight,梦照现实
药物研发专家只需要将专利 PDF 文件上传至 PatSight,1h 即可得到所有的专利化合物数据,并且借助晶泰的 MolValley 平台即可进行 SAR 分析获得结果。
1. 一小时全自动识别结构、名称、活性
• 90% 专利实现 1 小时内完成数据提取。
• 自动识别专利的实例编号与结构。
• 自动识别匹配同一化合物的所有活性数据。
2. 操作便捷友好
• 一键跳转至分子结构和活性数据表格查看。
• 识别的结构与专利中原结构方向姿态一致,方便核验。
3. 识别准确度高
• 对表格中实施例的结构识别准确率>95%。
• 对表格中活性数据的识别准确率>97%。
MolValley 进行构效关系分析
针对 PatSight 提取的高质量数据,我们提供了云端的数据管理与分析平台—— MolValley。MolValley 可以集中、系统的管理分子结构和活性数据,并提供构效关系分析工具,助力用户高效的解析小分子化合物结构与生物活性间的奥秘。
案例分享
以一篇 FGFR2 相关的化合物专利(WO2020231990)为例,该专利包含 1500 个分子的结构与活性数据,涉及到的分子已进入临床阶段。为了寻找更深入的构效关系分析,我们将专利文件上传至 PatSight,1 小时内提取专利中所有实施例的化合物编号、结构、Assay 信息、活性值。
通过 MolValley 的 SAR 分析模块,我们迅速识别出了三个主要的高频片段,然后结合活性数据、靶点口袋等信息,迅速找到多个潜在的构效关系模型,这对相关项目的后续开发至关重要。
近日,粤港澳大湾区数字经济研究院(简称“ IDEA 研究院”)与量子物理、AI 和机器人赋能的创新型研发平台晶泰科技共同宣布:IDEA 晶泰人工智能实验室开发的药化领域的多模态大模型,成功应用于晶泰科技打造的新一代专利数据提取工具 PatSight,精准实现了药化文献专利的化学分子结构解析和表格识别,将药物领域的专利化合物数据挖掘时间从传统的数周缩短至 1 小时。
2021 年底,晶泰科技加入 IDEA 研究院 CTO Labs 计划,共同成立“IDEA 晶泰人工智能实验室”。去年,实验室推出基于 AI 的高通量高精度抗体结构预测模型 idealFold,大大提高了抗体药物的研发效率。PatSight 为此实验室又一重要进展。两年半以来,双方基于各自的技术优势,针对生物医药行业面临的技术挑战,在创新药发现、专利数据提取等领域展开深度研发合作。
CTO Labs 计划将世界一流的科研能力,和产业界最精锐的科技团队联合在一起,将算法与场景结合、技术与产业融合,真正实现 AI 在数字经济领域的潜力。如何让技术发挥更大的作用、同时在产业落地的过程中不断完善技术,是 CTO Labs 合作计划的探索方向。
以下内容转载自晶泰科技公众号:
药物研发中对专利数据的挖掘和分析至关重要,但传统方法依赖药化专家手动整理大量专利,使用化学结构绘制工具手动绘制大量化学结构并标记活性数据,进行 SAR 分析,这个过程少则几天,多则数周。
面对这一挑战,晶泰科技携手粤港澳大湾区数字经济研究院(简称 “IDEA” 研究院),共同研发了专利数据挖掘平台——PatSight,将这一过程时间缩短至 1 小时。
PatSight,梦照现实
药物研发专家只需要将专利 PDF 文件上传至 PatSight,1h 即可得到所有的专利化合物数据,并且借助晶泰的 MolValley 平台即可进行 SAR 分析获得结果。
1. 一小时全自动识别结构、名称、活性
• 90% 专利实现 1 小时内完成数据提取。
• 自动识别专利的实例编号与结构。
• 自动识别匹配同一化合物的所有活性数据。
2. 操作便捷友好
• 一键跳转至分子结构和活性数据表格查看。
• 识别的结构与专利中原结构方向姿态一致,方便核验。
3. 识别准确度高
• 对表格中实施例的结构识别准确率>95%。
• 对表格中活性数据的识别准确率>97%。
MolValley 进行构效关系分析
针对 PatSight 提取的高质量数据,我们提供了云端的数据管理与分析平台—— MolValley。MolValley 可以集中、系统的管理分子结构和活性数据,并提供构效关系分析工具,助力用户高效的解析小分子化合物结构与生物活性间的奥秘。
案例分享
以一篇 FGFR2 相关的化合物专利(WO2020231990)为例,该专利包含 1500 个分子的结构与活性数据,涉及到的分子已进入临床阶段。为了寻找更深入的构效关系分析,我们将专利文件上传至 PatSight,1 小时内提取专利中所有实施例的化合物编号、结构、Assay 信息、活性值。
通过 MolValley 的 SAR 分析模块,我们迅速识别出了三个主要的高频片段,然后结合活性数据、靶点口袋等信息,迅速找到多个潜在的构效关系模型,这对相关项目的后续开发至关重要。