全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210732633.6 (22)申请日 2022.06.27 (65)同一申请的已公布的文献号 申请公布号 CN 114821568 A (43)申请公布日 2022.07.29 (73)专利权人 深圳前海环融联易信息科技 服务 有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (72)发明人 莫秀云 王国鹏 王洁瑶  (74)专利代理 机构 深圳市精英创新知识产权代 理有限公司 4 4740 专利代理师 林燕云 (51)Int.Cl. G06V 20/62(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 109635627 A,2019.04.16 CN 112464798 A,2021.0 3.09 审查员 曾贞 (54)发明名称 菜单要素提取方法、 装置、 计算机设备及存 储介质 (57)摘要 本申请涉及人工智能技术, 提供了菜 单要素 提取方法、 装置及设备, 是先获取待识别菜单图 像中的菜单区域图像, 然后获取其中的文本区域 图像, 以及各文本区域图像的文本区域坐标集、 文本类别和文本内容并结合对应的图像矩 阵生 成各文本区域图像的融合特征, 之后基于第一分 类网络确定任意两个文本区域图像之间的第一 分类结果, 并将存在关联关系的文本区域图像分 别对应的融合特征融合后输入至第二分类网络 得到第二分类结果, 最后由菜单区域图像中的文 本内容、 第一分类结果和第二分类结果确定菜单 要素提取信息。 实现了基于图像识别对待识别菜 单图像中文本要素的准确提取, 还能准确确定各 文本要素之间的对应关系和从属关系, 得到了更 多维度的菜单要素。 权利要求书3页 说明书15页 附图5页 CN 114821568 B 2022.09.16 CN 114821568 B 1.一种菜单要素提取 方法, 其特 征在于, 包括: 获取待识别菜单图像; 基于预先训练的第一目标检测网络获取 所述待识别菜单图像中的菜单区域图像; 基于预先训练 的第二目标检测网络获取所述菜单区域图像中的文本区域图像集, 以及 所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别; 其中, 所述文本 区域图像的文本类别为 价格、 菜名、 品类和其 他这四个类别中的其中一种; 获取每一文本区域图像的文本内容; 由每一文本区域图像的文本区域坐标集、 文本类别、 文本区域图像的图像矩阵及文本 内容组成每一文本区域图像的融合特 征; 将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域 图像的融合特征融合后输入至预先训练的第一分类网络, 得到对应的第一分类结果; 其中, 两个文本区域图像之间的基于第一分类网络得到的所述第一分类结果为存在关联关系或 不存在关联关系中的任意 一种; 基于所述第 一分类结果确定存在 关联关系的文本区域图像, 将存在 关联关系的文本区 域图像分别对应的融合特征融合后输入至预先训练的第二分类网络, 得到对应的第二分类 结果; 所述第二分类结果用于确定存在关联关系的文本区域图像分别对应的融合特征所属 品类; 根据所述菜单区域图像中的文本 内容、 所述第 一分类结果和所述第 二分类结果确定菜 单要素提取信息 。 2.根据权利要求1所述的菜单要素提取方法, 其特征在于, 所述第一目标检测网络为 YOLOv5检测模型; 所述基于预先训练的第 一目标检测网络获取所述待识别菜单图像中的菜单区域图像, 包括: 通过对所述待识别菜单图像进行归一 化处理, 得到归一 化菜单图像; 通过所述第 一目标检测网络对所述归一化菜单图像进行菜单区域提取, 得到菜单区域 图像。 3.根据权利要求1所述的菜单要素提取方法, 其特征在于, 所述第二目标检测网络为 YOLOv5检测模型; 所述基于预先训练的第 二目标检测网络获取所述菜单区域图像中的文本区域图像集, 以及所述文本区域图像集中每一文本区域图像的文本区域 坐标集和文本类别, 包括: 通过所述第 二目标检测网络对所述菜单区域图像进行文本区域提取, 得到若干个文本 区域图像, 及每一文本区域图像对应的文本类别; 获取与所述菜单区域图像对应的平面直角坐标系, 基于所述平面直角坐标系确定每一 文本区域图像的文本区域坐标集; 其中, 所述菜单区域图像的左上角顶点位于所述平面直 角坐标系的原点处。 4.根据权利要求1所述的菜单要素提取方法, 其特征在于, 所述获取每一文本区域图像 的文本内容, 包括: 通过预先训练 的卷积递归神经网络对每一文本区域图像进行文本识别, 得到每一文本 区域图像的文本内容。权 利 要 求 书 1/3 页 2 CN 114821568 B 25.根据权利要求1所述的菜单要素提取方法, 其特征在于, 所述将所述文本区域图像集 其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入 至预先训练的第一分类网络, 得到对应的第一分类结果, 包括: 重复从所述文本区域图像集中获取任意两个文本区域图像, 以及所获取的两个文本区 域图像对应的融合特征, 将所获取的两个文本区域图像对应的融合特征求和并输入至所述 第一分类网络, 以得到所获取 的两个文本区域图像对应的第一分类结果, 直至得到所述文 本区域图像集各文本区域图像与剩余 其他所有文本区域图像之间的第一分类结果。 6.根据权利要求1所述的菜单要素提取方法, 其特征在于, 所述基于所述第 一分类结果 确定存在关联关系的文本区域图像, 将存在关联关系的文本区域图像分别对应的融合特征 融合后输入至预 先训练的第二分类网络, 得到对应的第二分类结果, 包括: 获取第一分类结果 为存在关联关系的文本区域图像组成关联图像组; 将所述关联图像组中每一文本区域图分别对应的融合特征求和并输入至所述第二分 类网络, 得到所述关联图像组对应的第二分类结果。 7.根据权利要求6所述的菜单要素提取方法, 其特征在于, 所述根据所述菜单区域图像 中的文本内容、 所述第一分类结果和所述第二分类结果确定菜单要素提取信息, 包括: 若确定所述第 一分类结果和所述第 二分类结果对应同一关联图像组, 基于所述关联图 像组对应的文本内容、 所述第一分类结果及所述第二分类结果组成所述关联图像组对应的 菜单要素提取信息 。 8.一种菜单要素提取装置, 其特 征在于, 包括: 菜单图像获取 单元, 用于获取待识别菜单图像; 菜单区域获取单元, 用于基于预先训练的第 一目标检测网络获取所述待识别菜单图像 中的菜单区域图像; 文本区域信 息获取单元, 用于基于预先训练 的第二目标检测网络获取所述菜单区域图 像中的文本区域图像集, 以及所述文本区域图像集中每一文本区域图像的文本区域坐标集 和文本类别; 其中, 所述文本区域图像的文本类别为价格、 菜名、 品类和其他这四个类别中 的其中一种; 文本识别单 元, 用于获取每一文本区域图像的文本内容; 融合特征获取单元, 用于由每一文本区域图像的文本区域坐标集、 文本类别、 文本区域 图像的图像矩阵及文本内容组成每一文本区域图像的融合特 征; 第一分类单元, 用于将所述文本区域图像集其中一个文本区域图像的融合特征与其他 任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络, 得到对应的第 一分类结果; 其中, 两个文本区域图像之间的基于第一分类网络得到的所述第一分类结果 为存在关联关系或不存在关联关系中的任意 一种; 第二分类单元, 用于基于所述第一分类结果确定存在关联关系的文本区域图像, 将存 在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络, 得到对应的第二分类结果; 所述第二分类结果用于确定存在关联关系的文本区域图像分别 对应的融合特 征所属品类; 菜单要素获取单元, 用于根据所述菜单区域图像中的文本内容、 所述第一分类结果和 所述第二分类结果确定菜单要素提取信息 。权 利 要 求 书 2/3 页 3 CN 114821568 B 3

.PDF文档 专利 菜单要素提取方法、装置、计算机设备及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 菜单要素提取方法、装置、计算机设备及存储介质 第 1 页 专利 菜单要素提取方法、装置、计算机设备及存储介质 第 2 页 专利 菜单要素提取方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:31:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。