全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211223891.8 (22)申请日 2022.10.09 (71)申请人 中孚信息股份有限公司 地址 250000 山东省济南市高新区经十路 7000号汉峪金谷A1- 5号楼25层 (72)发明人 唐上 魏东晓 路冰 马衍硕  卢延科  (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 刘雪萍 (51)Int.Cl. H04L 9/40(2022.01) G06F 21/56(2013.01) G06K 9/62(2022.01) (54)发明名称 一种用于实时加密恶意流量识别的方法及 设备 (57)摘要 本申请公开了一种用于实时加密恶意流量 识别的方法及设备, 主要涉及 恶意流量识别技术 领域, 用以解决现有的识别模型无法识别新出现 的特征值 以及训练集中良性样本与恶意样本极 不均衡等问题。 包括: 基于预设提取字段和预设 流量四元组, 从PACP文件中获取流数据; 批量处 理若干PACP文件, 获得CSV文件; 将流数据中的 object类型数据转换为数值型数据; 得到组合特 征; 获取纯恶意标记的流数据; 以通过预设样本 扩充算法, 获取第一恶意样本数据; 进而通过恶 意样本数据和预设为良性标记的流数据, 完成预 设恶意识别算法的训练。 本申请通过上述方法实 现了顾及新出现的特征值、 实现了训练集中良性 样本与恶意样本的均衡 。 权利要求书2页 说明书5页 附图1页 CN 115296937 A 2022.11.04 CN 115296937 A 1.一种用于实时加密恶意 流量识别的方法, 其特 征在于, 所述方法包括: 基于预设提取字段和预设流量四元组, 从PACP文件中获取一个或多个流数据; 批量处 理若干PACP文件, 获得CSV文件; 其中, CSV文件的每一行对应一条流数据; 读取CSV文件, 将流数据中的object类型数据转换为数值型数据; 进而与 流数据中未转 换的数据进行拼接, 得到组合特 征, 并将所述组合特 征作为模型的输入数据; 基于仅有一个流数据且预设为恶意标记的PACP文件, 获取纯恶意标记的流数据; 以通 过预设样本扩充算法, 获取第一恶意样本数据; 进而通过恶意样本数据和预设为良性标记 的流数据, 完成预设恶意识别算法的训练。 2.根据权利要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, 在完成预设 恶意识别算法的训练之后, 所述方法还 包括: 基于有若干个流数据且预设为恶意标记的PACP文件, 获取非纯恶意标记的流数据; 以 通过训练好的预设恶意识别算法, 获取第二恶意样本数据; 基于第一恶意样 本数据、 第二恶 意样本数据和预设为良性标记的流数据, 进行 预设恶意识别算法的更新训练。 3.根据权利 要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, object类型 数据至少包括加密套件数据; 读取CSV文件, 将流数据中的object类型 数据转换为数值型 数据, 具体包括: 基于预设加密套件的内容和数量m, 生成1*m的第一特征向量和0/1编码结构的初始m维 特征; 其中, 所述第一特征向量包含预设加密套件的内容, 所述初始m维特征中的具体数值 均为0; 确定当前加密套件数据是否存在于第一特征向量中, 且在第一特征向量的具体位置; 将初始m维特 征中对应具体位置处的0修改为1, 获得加密套件数据的数值型 数据。 4.根据权利 要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, object类型 数据至少还 包括签发机构数据; 读取CSV文件, 将流数据中的object类型 数据转换为数值型 数据, 具体包括: 基于预设恶意签发机构的名称和数量u, 生成1*u 的第二特征向量和0/1编码结构的初 始u维特征; 其中, 所述第二特征向量包含预设恶意签发机构的名称, 所述初始u维特征中的 具体数值均为0; 确定当前签发机构数据是否存在于第二特征向量中, 且在第二特征向量的具体位置; 将初始u维特 征中对应具体位置处的0修改为1, 获得签发机构数据的数值型 数据。 5.根据权利 要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, object类型 数据至少包括加密套件数据和签发机构数据; 读取CSV文件, 将流数据中的object类型 数据转换为数值型 数据, 具体还 包括: 基于预设object类型 数据, 获取参 考基向量; 基于当前object类型 数据和预设字符 ‑数值映射关系, 生成计算向量; 根据预设余弦相似度计算公式: , 获得余弦相似度; 其 中, 为计算向量, 为参考基向量; 确定所述 余弦相似度为当前object类型 数据的数值型 数据。权 利 要 求 书 1/2 页 2 CN 115296937 A 26.根据权利 要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, object类型 数据至少还 包括通信对象数据; 读取CSV文件, 将流数据中的object类型 数据转换为数值型 数据, 具体包括: 删除通信对象数据的 ‘WWW’前缀, 获取域名数据; 基于预设域名熵值公式: , 获得域名熵值, 其中, 为第i个域名数据, 为第i个字符出现的频率, n 为字符总数; 基于预设总长度公式: , 获得总长度值; 其中, 为第i个字符的数量; 基于预设元音字符占比公 式: , 获得元音字符占比值; 其中, 为 第i个元音字符的数量, k 为元音总数; 基于预设一级域名唯一字符占比公式: , 获取一级域名唯 一字符占比值; 其中, 为域名数据中预设一级域名字符类别数, 为第i个字符的数量; 基于预设顶级域名类别公式: , 确定顶级域名类别 值; 其中, TLD为 域名数据中的顶级域名, D为预设顶级域名集 合; 对域名熵值、 总长度值、 元音字符占比值、 一级域名唯一字符占比值和顶级域名类别值 进行拼接, 获得通信对象数据对应的数值型 数据。 7.根据权利要求1所述的用于实时加密恶意流量识别的方法, 其特征在于, 所述方法还 包括: 在通过预设恶意识别算法, 确定任一流数据为恶意数据后; 将所述恶意数据发送至预 设告警终端。 8.一种用于实时加密恶意 流量识别的设备, 其特 征在于, 所述设备包括: 处理器; 以及存储器, 其上存储有可执行代码, 当所述可执行代码被执行时, 使得所述处理器执 行如权利要求1 ‑7任一项所述的一种用于实时加密恶意 流量识别的方法。权 利 要 求 书 2/2 页 3 CN 115296937 A 3

.PDF文档 专利 一种用于实时加密恶意流量识别的方法及设备

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于实时加密恶意流量识别的方法及设备 第 1 页 专利 一种用于实时加密恶意流量识别的方法及设备 第 2 页 专利 一种用于实时加密恶意流量识别的方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:40:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。