技术社区
安全培训
技术社群
积分商城
先知平台
漏洞库
历史记录
清空历史记录
相关的动态
相关的文章
相关的用户
相关的圈子
相关的话题
注册
登录
AI-Sense AI 对敏感文件自动识别之模型准确率提升
真爱和自由
AI专栏
380浏览 · 2025-03-11 17:20
返回文档
AI-Sense AI 对敏感文件自动识别之模型准确率提升
前言
我们之前已经把大框架完成了,但是对于AI的精准率我们还需要去训练提高,下面会详细介绍一下训练的基础和如何根据敏感文件的训练,提高AI对敏感的识别度和准确率
训练过程
给出我的代码
训练方法
主要聚焦于我们的
前向传播
这个是比较难理解的,特点就是返回预测值
前向传播是神经网络从输入到输出的计算过程,核心目的是生成预测值(logits)
大概处理就是
输入数据处理
通过 Transformer 计算特征
分类头(Fully Connected 层)计算 logits
返回 logits 作为预测值
那么预测就是
计算损失
这个也是我们模型的一个判断标准
然后使用 Softmax 计算
之后就是计算损失值了
这个值如果越小,代表我们的模型准确率越高
反向传播
这个我们只需要知道目的就是
计算损失 loss 对模型参数(权重、偏置)的梯度。
让模型知道「哪些权重需要调整」。
更新参数
使用 loss.backward() 计算出的梯度,更新模型参数,让模型更接近正确预测。
评估模型
和训练的区别在于
训练 = 计算损失 + 反向传播 + 参数更新
评估 = 仅计算准确率,不更新参数
数据集
寻找数据集也是非常重要的,首先我们需要确定什么敏感
简单说几个
个人信息
但是我们就要给出反例让 AI 学习
姓名: 小明
年龄: 25
职业: 程序员
比如这个没有泄露敏感的个人信息我们就需要标记为 0
政治/暴力/色情
这个的话也是非常敏感的,我们也需要检测
这个就不好举例子了
机密数据
我们常见的比如 API 的 key
当然我们并不能有前面的名称就判断是敏感
比如
后面的内容根本就是相当于占位符的意思,我们就需要标记为 0
配置信息
比如我们的数据库配置
在 java 中
还有 ssh 的密钥
一些凭据
SMTP 服务的数据
经常看见造成漏洞默认 JWT 密钥
常见的是在我们的代码中
还有一些硬编码的密码
当然也要区别为占位符
标记为 0
寻找数据集
首先就是我们常见的数据集网站了,不过也可以生成,比如常见的我们让 AI,都可以生成
当然 AI 生成的数据也是可以多一些,特征是比较明显的,这种属于强有效数据,但是训练的话需要大量的数据集
这里我们就可以直接去找数据集了
Kaggle
Kaggle 公司是由联合创始人兼首席执行官 AnthonyGoldbloom2010 年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。这一平台已经吸引了许多科学家和开发者的关注,他们也纷纷入驻这一平台。这些科学家和开发者资源正是谷歌看中他们的地方。
Kaggle 是一个数据科学社区,旨在通过数据挖掘竞赛、数据集和代码分享来推动机器学习的发展。它于 2010 年成立,被谷歌于 2017 年收购。在 Kaggle 上,数据科学家和机器学习工程师可以参与竞赛和项目,分享和发现数据集,建立和参与数据科学团队。Kaggle 上的竞赛涵盖各种主题,包括自然语言处理、计算机视觉、预测分析、图像处理等等。
这上面有许多的数据集
比如钓鱼的数据集
Github
当然有些也会放在这里,不过 github 主要是什么内容都有
比如找到了这个项目
https://github.com/DhilipSanjay/Detection-of-Sensitive-Data-Exposure-in-Images
这种一般也会给出数据集
我们看一些例子
我们直接拿这种训练也是 ok 的
Google Dataset Search
Dataset Search 是一个搜索引擎,旨在统一检索网络上的数据集。它利用 schema.org 元数据对数据集进行索引,目前包含了 4600 多个域名的 3100 多万个数据集,主要集中在地球科学、社会科学和生物学等领域。尽管存在数据集的可发现性和引用问题,但谷歌通过提供 DOI 和开放许可信息等方式提高了数据集的重用性。
我们也可以用来搜寻敏感的信息
Hugging Face Datasets
这个是专门为大模型训练使用的数据集
ok 然后我是需要 csv 格式,只需要整合一下就好了
最终集成
我们开始训练
emmmm,数据越大训练就越久,而且你的 CPU 会一直拉满,所以还是建议租借去训练
一轮就需要 10 个小时,而且得训练很多轮去了
一般我们还需要更换数据集或者训练多次准确率会有提高
1
人收藏
2
人喜欢
转载
分享
0
条评论
某人
表情
可输入
255
字
评论
发布投稿
热门文章
1
2025ISCC练武区域赛和决赛pwn以及擂台pwn合集
2
通过Elastic EDR看smbexec并进行二次开发Bypass
3
php代码审计篇 - 信呼OA 前台注入分析一
4
D3CTF-d3kshrm(预期&非预期)题解
5
Tomcat解析XML引入的新颖webshell构造方式
近期热点
一周
月份
季度
1
2025ISCC练武区域赛和决赛pwn以及擂台pwn合集
2
通过Elastic EDR看smbexec并进行二次开发Bypass
3
php代码审计篇 - 信呼OA 前台注入分析一
4
D3CTF-d3kshrm(预期&非预期)题解
5
Tomcat解析XML引入的新颖webshell构造方式
暂无相关信息
暂无相关信息
优秀作者
1
一天
贡献值:18800
2
T0daySeeker
贡献值:18700
3
1174735059082055
贡献值:15000
4
Yale
贡献值:14000
5
1674701160110592
贡献值:13000
6
LeeH
贡献值:10000
7
MeteorKai
贡献值:9000
8
姓*户
贡献值:8600
9
熊猫正正
贡献值:8000
10
lufei
贡献值:8000
目录
AI-Sense AI 对敏感文件自动识别之模型准确率提升
前言
训练过程
训练方法
前向传播
计算损失
反向传播
更新参数
评估模型
数据集
个人信息
政治/暴力/色情
机密数据
配置信息
寻找数据集
Kaggle
Github
Google Dataset Search
Hugging Face Datasets
最终集成
转载
标题
作者:
你好
http://www.a.com/asdsabdas
文章
转载
自
复制到剪贴板