专利一种模型训练的方法、信息推送的方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111486178.8 (22)申请日 2021.12.07 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人马俊磊　温灏　王兴星　蔡四兵　谢乾龙　 (74)专利代理机构北京曼威知识产权代理有限公司 11709 代理人邓超 (51)Int.Cl. G06Q 30/02(2012.01) G06Q 10/04(2012.01) G06N 20/00(2019.01) G06F 16/9535(2019.01) (54)发明名称一种模型训练的方法、信息推送的方法及装置 (57)摘要本说明书公开了一种模型训练的方法、信息推送的方法及装置，获取预先标注出的训练样本，其中，该训练样本中包含有用户的历史业务记录，以及用户在历史上执行完历史业务记录对应的历史业务后，是否对历史业务执行评价操作的评价操作记录，而后，可以将训练样本输入到待训练的评价预测模型中，预测用户执行完历史业务后，是否将执行对历史业务的评价操作的操作结果。最后，以最小化该操作结果与用户针对该历史业务的评价操作记录之间的偏差为优化目标，对评价预测模型进行训练。权利要求书3页说明书12页附图3页 CN 114298735 A 2022.04.08 CN 114298735 A 1.一种模型训练的方法，其特征在于，包括：获取预先标注出的训练样本，所述训练样本中包含用户的历史业务记录，以及所述用户在历史上执行完所述历史业务记录对应的历史业务后，是否对所述历史业务执行评价操作的评价操作记录；将所述训练样本输入到待训练的评价预测模型中，预测所述用户执行完所述历史业务后，是否对所述历史业务执行评价操作的操作结果；以最小化所述操作结果与所述用户针对所述历史业务的评价操作记录之间的偏差为优化目标，对所述评价预测模型进行训练。 2.如权利要求1所述的方法，其特征在于，将所述训练样本输入到待训练的评价预测模型中，预测所述用户执行完所述历史业务后，是否对所述历史业务执行评价操作的操作结果，具体包括：将所述训练样本输入到待训练的评价预测模型中，确定所述用户针对所述历史业务的满意度；根据所述满意度，预测所述用户执行完所述历史业务后，是否对所述历史业务执行评价操作的操作结果。 3.如权利要求2所述的方法，其特征在于，将所述训练样本输入到待训练的评价预测模型中，确定所述用户针对所述历史业务的满意度，具体包括：将所述训练样本输入到待训练的评价预测模型中，以通过所述评价预测模型，根据所述训练样本，确定所述用户的偏好特征以及所述历史业务对应的业务对象的属性特征；根据所述偏好特征以及所述业务对象的属性特征，确定所述用户针对所述历史业务的满意度。 4.如权利要求3所述的方法，其特征在于，在根据所述偏好特征以及所述业务对象的属性特征，确定所述用户针对所述历史业务的满意度之前，所述方法还包括：若确定所述历史业务为配送业务，从所述训练样本中提取出所述历史业务对应配送过程中的配送特征，所述配送特征用于表征在执行所述历史业务对应的配送过程时的配送状况；根据所述偏好特征以及所述业务对象的属性特征，确定所述用户针对所述历史业务的满意度，具体包括：根据所述偏好特征、所述业务对象的属性特征以及所述配送特征，确定所述用户针对所述历史业务的满意度。 5.如权利要求1所述的方法，其特征在于，以最小化所述操作结果与所述用户针对所述历史业务的评价操作记录之间的偏差为优化目标，对所述评价预测模型进行训练之前，所述方法包括：若根据所述操作结果，确定所述用户将针对历史业务执行评价操作后，预测所述用户针对所述历史业务的评价类型；以最小化所述操作结果与所述用户针对所述历史业务的评价操作记录之间的偏差为优化目标，对所述评价预测模型进行训练，具体包括：以最小化所述操作结果与所述用户针对所述历史业务的评价操作记录之间的偏差，和/或最小化预测出的所述用户针对所述历史业务的评价类型与识别出的所述用户针对所权　利　要　求　书 1/3 页 2 CN 114298735 A 2述历史业务的实际评价类型之间的偏差为优化目标，对所述评价预测模型进行训练。 6.如权利要求5所述的方法，其特征在于，识别所述用户针对所述历史业务的实际评价类型，具体包括：若确定所述用户针对所述历史业务在实际中执行了评价操作，对所述用户针对所述历史业务的评价信息进行语义识别，确定所述用户针对所述历史业务的实际评价类型。 7.如权利要求5所述方法，其特征在于，标注训练样本，具体包括：若确定所述用户在执行完所述历史业务后，产生重复执行与所述历史业务相同类型的业务的行为，将所述训练样本标注为正样本。 8.如权利要求7所述的方法，其特征在于，识别所述用户针对所述历史业务的实际评价类型，具体包括：若确定所述用户针对所述历史业务在实际中未执行评价操作，根据确定出的所述用户在执行完所述历史业务后，产生重复执行与所述历史业务相同类型的业务的行为，识别所述用户针对所述历史业务的实际评价类型。 9.如权利要求5所述的方法，其特征在于，标注训练样本，具体包括：根据所述用户在所述历史业务对应的商家执行完所述历史业务后，在同类的其他商家执行业务的次数是否超过设定次数，对所述训练样本进行标注。 10.如权利要求9所述的方法，其特征在于，识别所述用户针对所述历史业务的实际评价类型，具体包括：若确定所述用户针对所述历史业务在实际中未执行评价操作，根据所述用户在所述历史业务对应的商家执行完所述历史业务后，在同类的其他商家执行业务的次数是否超过设定次数，识别所述用户针对所述历史业务的实际评价类型。 11.一种信息推送的方法，其特征在于，包括：获取用户的业务信息以及所述用户的历史业务记录；将所述业务信息以及所述历史业务记录输入到预先训练的评价预测模型中，预测所述用户执行完所述业务信息对应的业务后，是否对所述业务执行评价操作的操作结果，所述评价预测模型是通过上述权利要求1～10任一项所述的方法训练得到的；根据所述操作结果，向所述用户推送评价消息，以使所述用户基于所述评价消息的提示，对所述业务进行评价。 12.如权利要求11所述的方法，其特征在于，根据所述操作结果，向所述用户推送评价消息，具体包括：若根据所述操作结果，预测所述用户执行完所述业务信息对应的业务后，将对所述业务执行评价操作，预测所述用户针对所述业务的评价类型；将标注有所述评价类型的所述评价消息推送给所述用户，以使所述用户基于所述评价类型的提示，对所述业务进行评价。 13.一种模型训练的装置，其特征在于，包括：获取模块，用于获取预先标注出的训练样本，所述训练样本中包含用户的历史业务记录，以及所述用户在历史上执行完所述历史业务记录对应的历史业务后，是否对所述历史业务执行评价操作的评价操作记录；预测模块，用于将所述训练样本输入到待训练的评价预测模型中，预测所述用户执行权　利　要　求　书 2/3 页 3 CN 114298735 A 3

专利 一种模型训练的方法、信息推送的方法及装置

专利一种模型训练的方法、信息推送的方法及装置