数据合成


真实世界的样本往往存在不平衡性,部分样本数量较少,导致难以构建模型进行训练。为此,采用数据合成方法对少样本数据进行生成,使生成的样本尽可能真实。
将流量各字段特征按照图片映射为一张特征图像,设计一种带有样本筛选器的生成对抗网络模型,该模型可以从生成的样本中选择与真实数据更相似的样本作为补充样本,最后将平衡的样本送入分类模型中进行训练并使用真实数据样本进行测试。

论文

  • 宋嘉兴,刘智,张岩峰. 基于强化学习的不平衡恶意流量增强方法. 计算机应用研究(已录用)
  • Yaru Yang, Zhi Liu, Jiaxing Song, Yanfeng Zhang. TRAPPER:Learning with Weak Supervision for Threat Intelligence Entity Recognition. International Conference on Information Security and Information Retrieval. 2022, 1-7.

专利

  • 刘智等. 一种基于生成对抗网络模型的加密流量数据合成方法. 申请号202211248461.1