简介

本文主要收录安全相关的数据集,适合初创,中小型企业用于训练和验证自己的机器学习的模型,提高准确率和准确度。
由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。

数据集

每个数据集都会有简单的介绍,内容类型,是否特征化
以及适用范围

  • 网络流量
  • 主机行为
  • 文件样本

KDD 99

  • KDD CUP 99 dataset 就是KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据。
  • 内容类型: 网络流量,主机行为
  • 是否特征化: 是
  • 适用范围: 主机入侵检测,异常流量监控
  • 下载地址

HTTP DATASET CSIC 2010

  • HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据。
  • 内容类型: 网络流量
  • 是否特征化:否
  • 使用范围: WAF类产品,异常流量监控
  • 下载地址

honeypot.json

  • honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据。
  • 内容类型: 网络流量
  • 是否特征化:否
  • 使用范围: WAF类产品,异常流量监控
    下载地址

Masquerading User Data

  • Masquerading User Data 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集。
    (内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])
    由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟。
  • 内容类型: 主机行为
  • 是否特征化:否
  • 使用范围: 入侵检测类 用户异常行为识别
  • 下载地址

ADFA IDS Datasets

  • ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为linux(ADFA-LD)和window(ADFA-WD)。
  • 内容类型: 主机行为
  • 是否特征化:是
  • 使用范围: 入侵检测
  • 下载地址

域名相关

  • 正常域名和可疑域名检测。 主要用于DGA的检测。这里直接用Alexa Top 100W 作为正常域名。用其他的开放的DGA数据作为黑样本。
  • 内容类型: 文本样本
  • 是否特征化:否
  • 使用范围: 入侵检测 异常流量 WAF
  • Alexa Top 100W
  • 360DGA
  • zeusDGA

webshell

  • 这里github有一个比较多样本的收集。涵盖了很多的语言。
  • 内容类型: 文本样本
  • 是否特征化:否
  • 使用范围: 入侵检测 异常流量 WAF
  • 下载地址

登录日志

  • auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
  • 内容类型: 主机行为
  • 是否特征化:否
  • 使用范围: 入侵检测 异常流量 WAF
  • 下载地址

恶意URL

  • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
  • 内容类型: 文本样本
  • 是否特征化:否
  • 使用范围: 入侵检测 异常流量 WAF
  • 下载地址

综合数据

  • 在github上有一个叫 Security-Data-Analysis 的项目,里面有4个实验室 每个实验室的数据都不一样,包含http,连接记录,域名,host等等。
  • 内容类型: 网络流量
  • 是否特征化:否
  • 使用范围: 异常流量
  • 下载地址

The Malware Capture Facility Project

  • MCFP 是捷克理工大学 (CTU 好像也叫捷克技工大学..不是很懂翻译)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件,日志,DNS请求等
  • 内容类型: 网络流量
  • 是否特征化:否
  • 使用范围: 异常流量 WAF
  • 下载地址

恶意软件数据库

  • MalwareDB 包含了恶意软件列表 hash,检测结果,所属域名等数据
  • 内容类型: 文本样本
  • 使用范围: 特征库 入侵检测
  • 下载地址

参考

  • secrepo
  • Web安全机器学习入门

点击收藏 | 0 关注 | 0
登录 后跟帖