专利属性数据编码方法及其装置、设备、介质、产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210909973.1 (22)申请日 2022.07.29 (71)申请人广州欢聚时代信息科技有限公司地址 511442 广东省广州市番禺区南村镇万博二路79 号万博商务区万达商业广场北区B-1栋23层 (72)发明人葛莉　 (74)专利代理机构广州利能知识产权代理事务所(普通合伙) 44673 专利代理师王增鑫 (51)Int.Cl. G06Q 30/06(2012.01) G06Q 30/02(2012.01) G06F 16/33(2019.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称属性数据编码方法及其装置、设备、介质、产品 (57)摘要本申请涉及属性数据编码方法及其装置、设备、介质、产品，所述方法包括：获取数据集中的属性样本，属性样本包括属性项，每个属性项包括属性名称及属性类别；确定属性样本的样本向量序列，使其对应每个作为事实数据的属性项设置相应的样本向量，其中将事实数据替换为掩码的索引数值，而其他属性项表示为属性项自身的索引数值；采用编码器查询编码词表映射出各个索引数值的词向量，获得属性向量序列；根据属性向量序列预测各个掩码相对应的属性项及其成员属性，以预测结果与事实数据之间的误差修正所述编码词表中的词向量，迭代以上过程以固化所述编码词表。本申请不仅能获得适于对属性数据编码的编码器，且能获得对应的编码词表，可提升编码效率。权利要求书3页说明书16页附图5页 CN 115222487 A 2022.10.21 CN 115222487 A 1.一种属性数据编码方法，其特征在于，包括：获取数据集中的属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；确定属性样本的样本向量序列，使其对应每个作为事实数据的属性项设置相应的样本向量，各样本向量之间属性项排序相同，每个样本向量中其作为事实数据的属性项被替换为掩码的索引数值，而其他属性项被表示为属性项自身的索引数值；采用编码器查询编码词表，将样本向量序列中的各个样本向量的索引数值映射为编码词表中相应的词向量，以确定每个样本向量相对应的属性向量，从而获得属性向量序列；根据所述属性向量序列执行多分类任务分别预测各个掩码相对应的属性项及其成员属性，以预测结果与事实数据之间关于属性项及其成员属性的误差修正所述编码词表中的词向量，迭代以上过程直至所述误差达致预设阈值而固化所述编码词表。 2.根据权利要求1所述的属性数据编码方法，其特征在于，确定属性样本的样本向量序列，包括：查询预设的属性索引表，确定出所述属性样本的属性项相对应的索引数值，将确定出的索引数值构造为样本向量；按照样本向量的维数复制构造由相应多个样本向量构成的样本向量序列；从样本向量序列中的每一个样本向量中，选定一个与其他样本向量所选定不同的属性项作为事实数据相对应的属性项，将其索引数值替换为掩码相对应的索引数值。 3.根据权利要求1所述的属性数据编码方法，其特征在于，采用编码器查询编码词表，将样本向量序列中的各个样本向量的索引数值映射为编码词表中相应的词向量之前，包括：获取所述属性空间中的全量成员属性相对应的全量属性项的属性名称和属性类别；查询预设的静态词表，确定出每个属性项的属性名称相对应的名称向量和属性类别相对应的类别向量；将每个属性项的名称向量和类别向量求均值确定为该属性项的词向量；将每个属性项的索引数值与其词向量构成映射关系数据存储于编码词表中，将该编码词表作为所述编码器的初始化参数配置。 4.根据权利要求1所述的属性数据编码方法，其特征在于，迭代以上过程直至所述误差达致预设阈值而固化所述编码词表之后，包括：获取待处理的属性数据，所述属性数据包括至少一个所述的属性项；根据预设的属性索引表确定所述属性数据中各个属性项相对应的索引数值；根据各个属性项的索引数值查询所述编码词表，获得各个索引数值相对应的词向量；将所述各个词向量合并构造为所述属性数据相对应的属性向量。 5.根据权利要求1所述的属性数据编码方法，其特征在于，迭代以上过程直至所述误差达致预设阈值而固化所述编码词表之后，包括：获取待处理的属性数据，所述属性数据包含目标商品的商品信息中的多个属性项，其数据结构与所述属性样本一致；根据所述属性样本相同的方式将所述属性数据表示为样本向量序列，其中包括多个样权　利　要　求　书 1/3 页 2 CN 115222487 A 2本向量；通过所述编码器映射出所述属性数据的样本向量序列相对应的属性向量序列，属性向量序列中对应各个样本向量包括相应多个属性向量。 6.根据权利要求4或5所述的属性数据编码方法，其特征在于，将所述各个词向量合并构造为所述属性数据相对应的属性向量之后，或者，通过所述编码器映射出所述属性数据的样本向量序列相对应的属性向量序列之后，包括：将所述属性数据的各个属性向量序列化输入预设的神经网络模型中的特征提取器提取出其深层语义信息，获得深层特征信息；由所述神经网络模型中的分类器将所述深层特征信息映射到分类空间，获得分类空间中各个类别相对应的分类概率；判定分类空间中分类概率最大的类别为所述属性数据的类别信息。 7.根据权利要求1至5中任意一项所述的属性数据编码方法，其特征在于，根据所述属性向量序列执行多分类任务分别预测各个掩码相对应的属性项及其成员属性，以预测结果与事实数据之间关于属性项及其成员属性的误差修正所述编码词表中的词向量，迭代以上过程直至所述误差达致预设阈值而固化所述编码词表，包括：采用注意力层提取所述属性向量序列的关键特征序列，所述关键特征序列包括所述属性向量序列中各个属性向量相对应的关键特征向量；采用两个分类器分别根据各个关键特征向量预测出其对应的样本向量中的掩码相对应的属性项的属性项及其成员属性；根据各个样本向量的作为事实数据的属性项及其成员属性分别监督两个分类器的预测结果，计算出预测结果与事实数据之间关于属性项及其成员属性的误差；根据所述误差判断编码器是否达到收敛状态，在编码器未收敛时对编码器实施梯度更新以修正所述编码词表中的词向量，采用数据集中下一属性样本对编码器实施迭代训练，直至将其训练至收敛状态以固定所述编码词表。 8.一种属性数据编码装置，其特征在于，包括：样本调用模块，用于获取数据集中的属性样本，所述属性样本包括预设属性空间中的各个成员属性相对应的属性项，每个属性项包括属性名称及属性类别，所述属性类别为其成员属性的类别空间中的成员类别；序列构造模块，用于确定属性样本的样本向量序列，使其对应每个作为事实数据的属性项设置相应的样本向量，各样本向量之间属性项排序相同，每个样本向量中其作为事实数据的属性项被替换为掩码的索引数值，而其他属性项被表示为属性项自身的索引数值；编码映射模块，用于采用编码器查询编码词表，将样本向量序列中的各个样本向量的索引数值映射为编码词表中相应的词向量，以确定每个样本向量相对应的属性向量，从而获得属性向量序列；词表更新模块，用于根据所述属性向量序列执行多分类任务分别预测各个掩码相对应的属性项及其成员属性，以预测结果与事实数据之间关于属性项及其成员属性的误差修正所述编码词表中的词向量，迭代以上过程直至所述误差达致预设阈值而固化所述编码词表。 9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用权　利　要　求　书 2/3 页 3 CN 115222487 A 3

专利 属性数据编码方法及其装置、设备、介质、产品

专利属性数据编码方法及其装置、设备、介质、产品