专利菜单要素提取方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210732633.6 (22)申请日 2022.06.27 (65)同一申请的已公布的文献号申请公布号 CN 114821568 A (43)申请公布日 2022.07.29 (73)专利权人深圳前海环融联易信息科技服务有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人莫秀云　王国鹏　王洁瑶　 (74)专利代理机构深圳市精英创新知识产权代理有限公司 4 4740 专利代理师林燕云 (51)Int.Cl. G06V 20/62(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 109635627 A,2019.04.16 CN 112464798 A,2021.0 3.09 审查员曾贞 (54)发明名称菜单要素提取方法、装置、计算机设备及存储介质 (57)摘要本申请涉及人工智能技术，提供了菜单要素提取方法、装置及设备，是先获取待识别菜单图像中的菜单区域图像，然后获取其中的文本区域图像，以及各文本区域图像的文本区域坐标集、文本类别和文本内容并结合对应的图像矩阵生成各文本区域图像的融合特征，之后基于第一分类网络确定任意两个文本区域图像之间的第一分类结果，并将存在关联关系的文本区域图像分别对应的融合特征融合后输入至第二分类网络得到第二分类结果，最后由菜单区域图像中的文本内容、第一分类结果和第二分类结果确定菜单要素提取信息。实现了基于图像识别对待识别菜单图像中文本要素的准确提取，还能准确确定各文本要素之间的对应关系和从属关系，得到了更多维度的菜单要素。权利要求书3页说明书15页附图5页 CN 114821568 B 2022.09.16 CN 114821568 B 1.一种菜单要素提取方法，其特征在于，包括：获取待识别菜单图像；基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像；基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别；其中，所述文本区域图像的文本类别为价格、菜名、品类和其他这四个类别中的其中一种；获取每一文本区域图像的文本内容；由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征；将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果；其中，两个文本区域图像之间的基于第一分类网络得到的所述第一分类结果为存在关联关系或不存在关联关系中的任意一种；基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果；所述第二分类结果用于确定存在关联关系的文本区域图像分别对应的融合特征所属品类；根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。 2.根据权利要求1所述的菜单要素提取方法，其特征在于，所述第一目标检测网络为 YOLOv5检测模型；所述基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像，包括：通过对所述待识别菜单图像进行归一化处理，得到归一化菜单图像；通过所述第一目标检测网络对所述归一化菜单图像进行菜单区域提取，得到菜单区域图像。 3.根据权利要求1所述的菜单要素提取方法，其特征在于，所述第二目标检测网络为 YOLOv5检测模型；所述基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别，包括：通过所述第二目标检测网络对所述菜单区域图像进行文本区域提取，得到若干个文本区域图像，及每一文本区域图像对应的文本类别；获取与所述菜单区域图像对应的平面直角坐标系，基于所述平面直角坐标系确定每一文本区域图像的文本区域坐标集；其中，所述菜单区域图像的左上角顶点位于所述平面直角坐标系的原点处。 4.根据权利要求1所述的菜单要素提取方法，其特征在于，所述获取每一文本区域图像的文本内容，包括：通过预先训练的卷积递归神经网络对每一文本区域图像进行文本识别，得到每一文本区域图像的文本内容。权　利　要　求　书 1/3 页 2 CN 114821568 B 25.根据权利要求1所述的菜单要素提取方法，其特征在于，所述将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果，包括：重复从所述文本区域图像集中获取任意两个文本区域图像，以及所获取的两个文本区域图像对应的融合特征，将所获取的两个文本区域图像对应的融合特征求和并输入至所述第一分类网络，以得到所获取的两个文本区域图像对应的第一分类结果，直至得到所述文本区域图像集各文本区域图像与剩余其他所有文本区域图像之间的第一分类结果。 6.根据权利要求1所述的菜单要素提取方法，其特征在于，所述基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果，包括：获取第一分类结果为存在关联关系的文本区域图像组成关联图像组；将所述关联图像组中每一文本区域图分别对应的融合特征求和并输入至所述第二分类网络，得到所述关联图像组对应的第二分类结果。 7.根据权利要求6所述的菜单要素提取方法，其特征在于，所述根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息，包括：若确定所述第一分类结果和所述第二分类结果对应同一关联图像组，基于所述关联图像组对应的文本内容、所述第一分类结果及所述第二分类结果组成所述关联图像组对应的菜单要素提取信息。 8.一种菜单要素提取装置，其特征在于，包括：菜单图像获取单元，用于获取待识别菜单图像；菜单区域获取单元，用于基于预先训练的第一目标检测网络获取所述待识别菜单图像中的菜单区域图像；文本区域信息获取单元，用于基于预先训练的第二目标检测网络获取所述菜单区域图像中的文本区域图像集，以及所述文本区域图像集中每一文本区域图像的文本区域坐标集和文本类别；其中，所述文本区域图像的文本类别为价格、菜名、品类和其他这四个类别中的其中一种；文本识别单元，用于获取每一文本区域图像的文本内容；融合特征获取单元，用于由每一文本区域图像的文本区域坐标集、文本类别、文本区域图像的图像矩阵及文本内容组成每一文本区域图像的融合特征；第一分类单元，用于将所述文本区域图像集其中一个文本区域图像的融合特征与其他任意一个文本区域图像的融合特征融合后输入至预先训练的第一分类网络，得到对应的第一分类结果；其中，两个文本区域图像之间的基于第一分类网络得到的所述第一分类结果为存在关联关系或不存在关联关系中的任意一种；第二分类单元，用于基于所述第一分类结果确定存在关联关系的文本区域图像，将存在关联关系的文本区域图像分别对应的融合特征融合后输入至预先训练的第二分类网络，得到对应的第二分类结果；所述第二分类结果用于确定存在关联关系的文本区域图像分别对应的融合特征所属品类；菜单要素获取单元，用于根据所述菜单区域图像中的文本内容、所述第一分类结果和所述第二分类结果确定菜单要素提取信息。权　利　要　求　书 2/3 页 3 CN 114821568 B 3

专利 菜单要素提取方法、装置、计算机设备及存储介质

专利菜单要素提取方法、装置、计算机设备及存储介质