专利一种用于实时加密恶意流量识别的方法及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211223891.8 (22)申请日 2022.10.09 (71)申请人中孚信息股份有限公司地址 250000 山东省济南市高新区经十路 7000号汉峪金谷A1- 5号楼25层 (72)发明人唐上　魏东晓　路冰　马衍硕　卢延科　 (74)专利代理机构济南舜源专利事务所有限公司 37205 专利代理师刘雪萍 (51)Int.Cl. H04L 9/40(2022.01) G06F 21/56(2013.01) G06K 9/62(2022.01) (54)发明名称一种用于实时加密恶意流量识别的方法及设备 (57)摘要本申请公开了一种用于实时加密恶意流量识别的方法及设备，主要涉及恶意流量识别技术领域，用以解决现有的识别模型无法识别新出现的特征值以及训练集中良性样本与恶意样本极不均衡等问题。包括：基于预设提取字段和预设流量四元组，从PACP文件中获取流数据；批量处理若干PACP文件，获得CSV文件；将流数据中的 object类型数据转换为数值型数据；得到组合特征；获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。本申请通过上述方法实现了顾及新出现的特征值、实现了训练集中良性样本与恶意样本的均衡。权利要求书2页说明书5页附图1页 CN 115296937 A 2022.11.04 CN 115296937 A 1.一种用于实时加密恶意流量识别的方法，其特征在于，所述方法包括：基于预设提取字段和预设流量四元组，从PACP文件中获取一个或多个流数据；批量处理若干PACP文件，获得CSV文件；其中， CSV文件的每一行对应一条流数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据；进而与流数据中未转换的数据进行拼接，得到组合特征，并将所述组合特征作为模型的输入数据；基于仅有一个流数据且预设为恶意标记的PACP文件，获取纯恶意标记的流数据；以通过预设样本扩充算法，获取第一恶意样本数据；进而通过恶意样本数据和预设为良性标记的流数据，完成预设恶意识别算法的训练。 2.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于，在完成预设恶意识别算法的训练之后，所述方法还包括：基于有若干个流数据且预设为恶意标记的PACP文件，获取非纯恶意标记的流数据；以通过训练好的预设恶意识别算法，获取第二恶意样本数据；基于第一恶意样本数据、第二恶意样本数据和预设为良性标记的流数据，进行预设恶意识别算法的更新训练。 3.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于， object类型数据至少包括加密套件数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：基于预设加密套件的内容和数量m，生成1*m的第一特征向量和0/1编码结构的初始m维特征；其中，所述第一特征向量包含预设加密套件的内容，所述初始m维特征中的具体数值均为0；确定当前加密套件数据是否存在于第一特征向量中，且在第一特征向量的具体位置；将初始m维特征中对应具体位置处的0修改为1，获得加密套件数据的数值型数据。 4.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于， object类型数据至少还包括签发机构数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：基于预设恶意签发机构的名称和数量u，生成1*u 的第二特征向量和0/1编码结构的初始u维特征；其中，所述第二特征向量包含预设恶意签发机构的名称，所述初始u维特征中的具体数值均为0；确定当前签发机构数据是否存在于第二特征向量中，且在第二特征向量的具体位置；将初始u维特征中对应具体位置处的0修改为1，获得签发机构数据的数值型数据。 5.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于， object类型数据至少包括加密套件数据和签发机构数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体还包括：基于预设object类型数据，获取参考基向量；基于当前object类型数据和预设字符 ‑数值映射关系，生成计算向量；根据预设余弦相似度计算公式：，获得余弦相似度；其中，为计算向量，为参考基向量；确定所述余弦相似度为当前object类型数据的数值型数据。权　利　要　求　书 1/2 页 2 CN 115296937 A 26.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于， object类型数据至少还包括通信对象数据；读取CSV文件，将流数据中的object类型数据转换为数值型数据，具体包括：删除通信对象数据的 ‘WWW’前缀，获取域名数据；基于预设域名熵值公式：，获得域名熵值，其中，为第i个域名数据，为第i个字符出现的频率， n 为字符总数；基于预设总长度公式：，获得总长度值；其中，为第i个字符的数量；基于预设元音字符占比公式：，获得元音字符占比值；其中，为第i个元音字符的数量， k 为元音总数；基于预设一级域名唯一字符占比公式：，获取一级域名唯一字符占比值；其中，为域名数据中预设一级域名字符类别数，为第i个字符的数量；基于预设顶级域名类别公式：，确定顶级域名类别值；其中， TLD为域名数据中的顶级域名， D为预设顶级域名集合；对域名熵值、总长度值、元音字符占比值、一级域名唯一字符占比值和顶级域名类别值进行拼接，获得通信对象数据对应的数值型数据。 7.根据权利要求1所述的用于实时加密恶意流量识别的方法，其特征在于，所述方法还包括：在通过预设恶意识别算法，确定任一流数据为恶意数据后；将所述恶意数据发送至预设告警终端。 8.一种用于实时加密恶意流量识别的设备，其特征在于，所述设备包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1 ‑7任一项所述的一种用于实时加密恶意流量识别的方法。权　利　要　求　书 2/2 页 3 CN 115296937 A 3

专利 一种用于实时加密恶意流量识别的方法及设备

专利一种用于实时加密恶意流量识别的方法及设备