AI-Sense AI 对敏感文件自动识别之模型准确率提升-先知社区

AI-Sense AI 对敏感文件自动识别之模型准确率提升

前言

我们之前已经把大框架完成了，但是对于AI的精准率我们还需要去训练提高，下面会详细介绍一下训练的基础和如何根据敏感文件的训练，提高AI对敏感的识别度和准确率

训练过程

给出我的代码

训练方法

主要聚焦于我们的

前向传播

这个是比较难理解的，特点就是返回预测值

前向传播是神经网络从输入到输出的计算过程，核心目的是生成预测值（logits）

大概处理就是

输入数据处理

通过 Transformer 计算特征

分类头（Fully Connected 层）计算 logits

返回 logits 作为预测值

那么预测就是

计算损失

这个也是我们模型的一个判断标准

然后使用 Softmax 计算

之后就是计算损失值了

这个值如果越小，代表我们的模型准确率越高

反向传播

这个我们只需要知道目的就是

计算损失 loss 对模型参数（权重、偏置）的梯度。

让模型知道「哪些权重需要调整」。

更新参数

使用 loss.backward() 计算出的梯度，更新模型参数，让模型更接近正确预测。

评估模型

和训练的区别在于

训练 = 计算损失 + 反向传播 + 参数更新

评估 = 仅计算准确率，不更新参数

数据集

寻找数据集也是非常重要的，首先我们需要确定什么敏感

简单说几个

个人信息

但是我们就要给出反例让 AI 学习

姓名: 小明

年龄: 25

职业: 程序员

比如这个没有泄露敏感的个人信息我们就需要标记为 0

政治/暴力/色情

这个的话也是非常敏感的，我们也需要检测

这个就不好举例子了

机密数据

我们常见的比如 API 的 key

当然我们并不能有前面的名称就判断是敏感

比如

后面的内容根本就是相当于占位符的意思，我们就需要标记为 0

配置信息

比如我们的数据库配置

在 java 中

还有 ssh 的密钥

一些凭据

SMTP 服务的数据

经常看见造成漏洞默认 JWT 密钥

常见的是在我们的代码中

还有一些硬编码的密码

当然也要区别为占位符

标记为 0

寻找数据集

首先就是我们常见的数据集网站了，不过也可以生成，比如常见的我们让 AI，都可以生成

当然 AI 生成的数据也是可以多一些，特征是比较明显的，这种属于强有效数据，但是训练的话需要大量的数据集

这里我们就可以直接去找数据集了

Kaggle

Kaggle 公司是由联合创始人兼首席执行官 AnthonyGoldbloom2010 年在墨尔本创立的，主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。这一平台已经吸引了许多科学家和开发者的关注，他们也纷纷入驻这一平台。这些科学家和开发者资源正是谷歌看中他们的地方。

Kaggle 是一个数据科学社区，旨在通过数据挖掘竞赛、数据集和代码分享来推动机器学习的发展。它于 2010 年成立，被谷歌于 2017 年收购。在 Kaggle 上，数据科学家和机器学习工程师可以参与竞赛和项目，分享和发现数据集，建立和参与数据科学团队。Kaggle 上的竞赛涵盖各种主题，包括自然语言处理、计算机视觉、预测分析、图像处理等等。

这上面有许多的数据集

比如钓鱼的数据集

Github

当然有些也会放在这里，不过 github 主要是什么内容都有

比如找到了这个项目

https://github.com/DhilipSanjay/Detection-of-Sensitive-Data-Exposure-in-Images

这种一般也会给出数据集

我们看一些例子

我们直接拿这种训练也是 ok 的

Google Dataset Search

Dataset Search 是一个搜索引擎，旨在统一检索网络上的数据集。它利用 schema.org 元数据对数据集进行索引，目前包含了 4600 多个域名的 3100 多万个数据集，主要集中在地球科学、社会科学和生物学等领域。尽管存在数据集的可发现性和引用问题，但谷歌通过提供 DOI 和开放许可信息等方式提高了数据集的重用性。

我们也可以用来搜寻敏感的信息

Hugging Face Datasets

这个是专门为大模型训练使用的数据集

ok 然后我是需要 csv 格式，只需要整合一下就好了

最终集成

我们开始训练

emmmm，数据越大训练就越久，而且你的 CPU 会一直拉满，所以还是建议租借去训练

一轮就需要 10 个小时，而且得训练很多轮去了

一般我们还需要更换数据集或者训练多次准确率会有提高