全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210909973.1 (22)申请日 2022.07.29 (71)申请人 广州欢聚时代信息科技有限公司 地址 511442 广东省广州市番禺区南村镇 万博二路79 号万博商务区万达商业广 场北区B-1栋23层 (72)发明人 葛莉  (74)专利代理 机构 广州利能知识产权代理事务 所(普通合伙) 44673 专利代理师 王增鑫 (51)Int.Cl. G06Q 30/06(2012.01) G06Q 30/02(2012.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 属性数据编码方法及其装置、 设备、 介质、 产 品 (57)摘要 本申请涉及属性数据编码方法及其装置、 设 备、 介质、 产品, 所述方法包括: 获取数据集中的 属性样本, 属性样本包括属性项, 每个属性项包 括属性名称及属性类别; 确定属性样本的样本向 量序列, 使其对应每个作为事实数据的属性项设 置相应的样 本向量, 其中将事实数据替换为掩码 的索引数值, 而其他属性项表 示为属性项自身的 索引数值; 采用编码器查询编码词表映射出各个 索引数值的词向量, 获得属性向量序列; 根据属 性向量序列预测各个掩码相对应的属性项及其 成员属性, 以预测结果与事实数据之间的误差修 正所述编码词表中的词向量, 迭代以上过程以固 化所述编码词表。 本申请不仅能获得适于对属性 数据编码的编码器, 且能获得对应的编码词表, 可提升编码效率。 权利要求书3页 说明书16页 附图5页 CN 115222487 A 2022.10.21 CN 115222487 A 1.一种属性数据编码方法, 其特 征在于, 包括: 获取数据集中的属性样本, 所述属性样本包括预设属性空间中的各个成员属性相对应 的属性项, 每个属 性项包括属 性名称及属 性类别, 所述属 性类别为其成员属 性的类别空间 中的成员类别; 确定属性样本的样本向量序列, 使其对应每个作为事实数据的属性项设置相应的样本 向量, 各样本 向量之间属 性项排序相同, 每个样本 向量中其作为事实数据的属 性项被替换 为掩码的索引数值, 而其 他属性项被表示 为属性项自身的索引数值; 采用编码器查询编码词表, 将样本向量序列中的各个样本向量的索引数值映射为编码 词表中相应的词向量, 以确定每 个样本向量相对应的属性向量, 从而获得属性向量序列; 根据所述属性向量序列执行多分类任务分别预测各个掩码相对应的属性项及其成员 属性, 以预测结果与事实数据之间关于属性项及其成员属性的误差修正所述编 码词表中的 词向量, 迭代以上 过程直至所述 误差达致预设阈值而固化所述编码词表。 2.根据权利要求1所述的属性数据编码方法, 其特征在于, 确定属性样本的样本向量序 列, 包括: 查询预设的属性索引表, 确定出所述属性样本的属性项相对应的索引数值, 将确定出 的索引数值构造为样本向量; 按照样本向量的维数复制构造由相应多个样本向量构成的样本向量序列; 从样本向量序列中的每一个样本向量中, 选定一个与其他样本向量所选定不同的属性 项作为事实数据相对应的属性项, 将其索引数值 替换为掩码相对应的索引数值。 3.根据权利要求1所述的属性数据编码方法, 其特征在于, 采用编码器查询编码词表, 将样本向量序列中的各个样本向量的索引数值映射为编码词表中相应的词向量之前, 包 括: 获取所述属性空间中的全量成员属性相对应的全量属性项的属性名称和 属性类别; 查询预设的静态词表, 确定出每个属性项的属性名称相对应的名称向量和属性类别相 对应的类别向量; 将每个属性项的名称向量和类别向量 求均值确定为该属性项的词向量; 将每个属性项的索引数值与其词向量构 成映射关系数据存储于编码词表中, 将该编码 词表作为所述编码器的初始化 参数配置 。 4.根据权利要求1所述的属性数据编码方法, 其特征在于, 迭代以上过程直至所述误差 达致预设阈值而固化所述编码词表之后, 包括: 获取待处 理的属性数据, 所述属性数据包括至少一个所述的属性项; 根据预设的属性索引表确定所述属性数据中各个属性项相对应的索引数值; 根据各个属性项的索引数值 查询所述编码词表, 获得 各个索引数值相对应的词向量; 将所述各个词向量 合并构造为所述属性数据相对应的属性向量。 5.根据权利要求1所述的属性数据编码方法, 其特征在于, 迭代以上过程直至所述误差 达致预设阈值而固化所述编码词表之后, 包括: 获取待处理的属性数据, 所述属性数据包含目标商品的商品信息中的多个属性项, 其 数据结构与所述属性样本一 致; 根据所述属性样本相同的方式将所述属性数据表示为样本向量序列, 其中包括多个样权 利 要 求 书 1/3 页 2 CN 115222487 A 2本向量; 通过所述编码器映射出所述属性数据的样本向量序列相对应的属性向量序列, 属性向 量序列中对应各个样本向量包括相应多个属性向量。 6.根据权利要求4或5所述的属性数据编码方法, 其特征在于, 将所述各个词向量合并 构造为所述属 性数据相对应的属性向量之后, 或者, 通过所述编码器映射出所述属 性数据 的样本向量序列相对应的属性向量序列之后, 包括: 将所述属性数据的各个属性向量序列化输入预设的神经网络模型中的特征提取器提 取出其深层语义信息, 获得深层特 征信息; 由所述神经网络模型中的分类器将所述深层特征信 息映射到分类空间, 获得分类空间 中各个类别相对应的分类概 率; 判定分类空间中分类概 率最大的类别为所述属性数据的类别 信息。 7.根据权利要求1至5中任意一项所述的属性数据编码方法, 其特征在于, 根据所述属 性向量序列执行多分类任务分别预测各个掩码相对应的属性项及其成员属性, 以预测结果 与事实数据之 间关于属性项及其成员属性的误差修正所述编码词表中的词向量, 迭代以上 过程直至所述 误差达致预设阈值而固化所述编码词表, 包括: 采用注意力层提取所述属性向量序列的关键特征序列, 所述关键特征序列包括所述属 性向量序列中各个属性向量相对应的关键特 征向量; 采用两个分类器分别根据各个关键特征向量预测出其对应的样本向量中的掩码相对 应的属性项的属性项及其成员属性; 根据各个样本向量的作为事实数据的属性项及其成员属性分别监督两个分类器的预 测结果, 计算出 预测结果与事实数据之间关于属性项及其成员属性的误差; 根据所述误差判断编码器是否达到收敛状态, 在编码器未收敛时对编码器实施梯度 更 新以修正所述编码词表中的词向量, 采用数据集中下一属 性样本对编码器实施迭代训练, 直至将其训练至收敛状态以固定所述编码词表。 8.一种属性数据编码装置, 其特 征在于, 包括: 样本调用模块, 用于获取数据集中的属性样本, 所述属性样本包括预设属性空间中的 各个成员属 性相对应的属 性项, 每个属 性项包括属 性名称及属 性类别, 所述属 性类别为其 成员属性的类别空间中的成员类别; 序列构造模块, 用于确定属性样本的样本向量序列, 使其对应每个作为事实数据的属 性项设置相应的样本 向量, 各样本 向量之间属 性项排序相同, 每个样本 向量中其作为事实 数据的属性项被替换为掩码的索引数值, 而其 他属性项被表示 为属性项自身的索引数值; 编码映射模块, 用于采用编码器查询编码词表, 将样本向量序列中的各个样本向量的 索引数值映射为编码词表中相应的词向量, 以确定每个样本 向量相对应的属 性向量, 从而 获得属性向量序列; 词表更新模块, 用于根据所述属性向量序列执行多分类任务分别预测各个掩码相对应 的属性项及其成员属性, 以预测结果与事实数据之 间关于属性项及其成员属性的误差修正 所述编码词表中的词向量, 迭代以上过程直至所述误差达致预设阈值而固化所述编码词 表。 9.一种计算机设备, 包括中央处理器和存储器, 其特征在于, 所述中央处理器用于调用权 利 要 求 书 2/3 页 3 CN 115222487 A 3

.PDF文档 专利 属性数据编码方法及其装置、设备、介质、产品

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 属性数据编码方法及其装置、设备、介质、产品 第 1 页 专利 属性数据编码方法及其装置、设备、介质、产品 第 2 页 专利 属性数据编码方法及其装置、设备、介质、产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:32:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。