全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210147101.6 (22)申请日 2022.02.17 (65)同一申请的已公布的文献号 申请公布号 CN 114201618 A (43)申请公布日 2022.03.18 (73)专利权人 药渡经纬信息科技 (北京) 有限公 司 地址 100085 北京市海淀区上地五街7号1 层105室 (72)发明人 丁红霞 伍星 吴忠毅 余志颖  徐更惟 李靖 李琪 廖宛玲  (74)专利代理 机构 北京智桥联合知识产权代理 事务所(普通 合伙) 11560 专利代理师 赵景平(51)Int.Cl. G06F 16/36(2019.01) G06F 16/34(2019.01) G06F 40/295(2020.01) G06V 30/41(2022.01) 审查员 马丽莉 (54)发明名称 药物研发文献可视化 解读方法和系统 (57)摘要 本发明公开了一种药物研发文献可视化解 读方法和系统, 该方法包括: 确定文献中各文本 单元及其位置; 对所述文本单元进行识别, 得到 所述文本 单元中的各实体, 所述实体包括: 药物、 靶点、 适应症、 公司; 对 所述实体进行归一合并处 理, 得到对应所述文献的实体表, 所述实体表包 括: 实体及其位置和出现频次; 确定所述实体表 中不同实体间的关系; 根据所述实体间的关系生 成对应所述文献的知识图谱。 利用本发明, 可 以 方便用户对 药物研发文献的解读, 以发现其中的 关键信息及其关联关系, 并为后续利用系统批量 解析处理文献提供基础能力。 权利要求书3页 说明书10页 附图7页 CN 114201618 B 2022.09.13 CN 114201618 B 1.一种药物研发文献 可视化解读方法, 其特 征在于, 所述方法包括: 确定文献中各文本单 元及其位置; 对所述文本单元进行识别, 得到所述文本单元中的各实体, 所述实体包括: 药物、 靶点、 适应症、 公司; 对所述实体进行归一合并处理, 得到对应所述文献的实体表, 所述实体表包括: 实体及 其位置和出现频次; 确定所述实体表中不同实体间的关系; 根据所述实体间的关系生成对应所述文献的知识图谱; 其中, 所述确定文献中各文本单 元及其位置包括: 根据章节关键词及章节划分特征, 确定所述文献中各文本单元的位置; 拆分所述文献, 得到所述文献中各文本单元及其位置; 所述章节划分特征包括以下任意多种: 关键字、 字 体、 字号、 换 行符; 所述确定所述实体表中不同实体间的关系 包括: 从所述实体表的实体中选取一个实体 作为起始节点, 其他实体作为目标节 点; 从所述起始节点开始, 通过最短路径 算法确定所述 起始节点到各目标节点的路径; 所述从所述实体表的实体中选取起始节点包括: 确定所述实体表中各实体的权重; 选 取权重最大的实体作为起始节点; 每个实体的权重根据实体的类型、 位置及出现频次确定; 根据知识库确定所述实体的类型; 根据所述实体的类型、 位置及出现频次确定所述实体的 权重; 其中计算各实体的权 重值W方式如下: 根据实体 类型T、 位置P、 频次F, 计算中间值 W´: , 其中Tj为不同实体类型的权重值, Pi为不同实体 位置的权重值, j从1至4分别代表实体类型为药物、 靶点、 适应症和公司, i从1至5分别代表 实体位置为标题、 摘要、 说明、 结论和其 他; 为使W 取值范围为 (0, 1) , 将中间值 W´进行转换, 得到 权重值W: 。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 查询所述知识库得到所述知识图谱中不同实体节点的关联实体; 将所述关联实体添加到所述知识图谱中。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 展现所述知识图谱, 并将所述实体节点和所述关联实体采用不同的展现形式。 4.根据权利要求1至 3任一项所述的方法, 其特 征在于, 所述方法还 包括: 如果所述文献中包含结构式图片, 则对所述结构式图片进行识别, 得到所述结构式图 片对应的实体; 将所述结构式图片对应的实体添加到所述实体表中。权 利 要 求 书 1/3 页 2 CN 114201618 B 25.一种药物研发文献 可视化解读系统, 其特 征在于, 所述系统包括: 文本单元确定模块, 用于确定文献中各文本单 元及其位置; 文本识别模块, 用于对所述文本单元进行识别, 得到所述文本单元中的各实体, 所述实 体包括: 药物、 靶点、 适应症、 公司; 归一化处理模块, 用于对所述实体进行归一合并处理, 得到对应所述文献的实体表, 所 述实体表包括: 实体及其 位置和出现频次; 关系确定模块, 用于确定所述实体表中不同实体间的关系; 知识图谱生成模块, 用于根据所述实体间的关系生成对应所述文献的知识图谱; 所述文本单 元确定模块包括: 位置确定单元, 用于根据章节关键词及章节划分特征, 确定所述文献中各文本单元的 位置; 拆分单元, 用于拆分所述文献, 得到所述文献中各文本单 元及其位置; 所述关系确定模块包括: 节点确定单元, 用于从所述实体表的实体中选取一个实体作为起始节点, 其他实体作 为目标节点; 路径确定单元, 用于从所述起始节点开始, 通过最短路径算法确定所述起始节点到各 目标节点的路径; 所述节点确定单 元包括: 权重计算单 元, 用于确定所述实体表中各实体的权 重; 节点选择 单元, 用于选取权重最大的实体作为 起始节点; 类型确定单元, 用于根据知识库确定所述实体的类型; 所述权重计算单元, 具体用于根 据所述实体的类型、 位置及出现频次确定所述 实体的权重; 其中计算各实体的权重值W方式 如下: 根据实体 类型T、 位置P、 频次F, 计算中间值 W´: , 其中Tj为不同实体类型的权重值, Pi为不同实体 位置的权重值, j从1至4分别代表实体类型为药物、 靶点、 适应症和公司, i从1至5分别代表 实体位置为标题、 摘要、 说明、 结论和其 他; 为使W 取值范围为 (0, 1) , 将中间值 W´进行转换, 得到 权重值W: 。 6.根据权利要求5所述的系统, 其特 征在于, 所述系统还 包括: 查询模块, 用于查询所述知识库得到所述知识图谱中不同实体节点的关联实体, 并将 所述关联实体添加到所述知识图谱中。 7.根据权利要求5 至6任一项所述的系统, 其特 征在于, 所述系统还 包括: 结构式处理模块, 用于在所述文献中包含结构式图片的情况下, 对所述结构式图片进 行识别, 得到所述结构式图片对应的实体;权 利 要 求 书 2/3 页 3 CN 114201618 B 3

.PDF文档 专利 药物研发文献可视化解读方法和系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 药物研发文献可视化解读方法和系统 第 1 页 专利 药物研发文献可视化解读方法和系统 第 2 页 专利 药物研发文献可视化解读方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。