利用whisper模型隐藏数据
R1yh79 发表于 浙江 AI专栏 692浏览 · 2025-04-25 13:43

前言



这些天打了数字中国积分产业链线下赛,遇到了一个挺有意思的一个题目,就是对mp3文件进行数据审计,分析其中的恶意代码或者隐藏数据 题目描述如是说:

txt
Plain Text
复制代码
这个mp3的分析也是事后才知道要whisper模型进行分析,于是这些天就趁这个机会学了一些,发现这个模型还有更多功能去挖掘

探讨whisper本身的作用

whisper是一个能识别音频文件字幕的模型,是OpenAI开发的自动语音识别(ASR)系统,专门用于将语音转换为文字。它训练于大量多语言和多任务的音频数据以它来隐写音频数据



模型性能指标:
594dd0a2565f6be90dde3e4d433dec2a.png




优点

完全依赖 AI 解析,无传统隐写痕迹。

可结合密码学(如白噪声+特定编码)。

缺点

依赖 Whisper 的误识别特性。

比如说一个音频图几乎为直线的,什么声音都没有的音频文件,利用模型可能你输出其隐藏的字幕,例如数字中国的题目,里面是很多没有声音和频谱图的mp3文件,但利用模型可以提取不可见字幕

其中代码如下:

9e7f56110ae022dbe9b4906cc994ccee.png


在一个完全没有声音的音频文件中,频谱图是一条直线的情况下,用Whisper提取了字幕。这听起来有点奇怪,因为通常来说,Whisper是用来识别语音的,而无声的音频不会有任何语音内容。用户可能是在测试Whisper的鲁棒性,或者发现了某种隐藏的信息传递方法

因此,这篇对于whisper的探讨出现了



Whisper 预处理时会将音频转换为80通道的梅尔频谱图,其滤波器组在0-8kHz范围内密集分布(人类语音核心频段)。即使原始音频看似平坦,经过梅尔变换后可能呈现微观波动模式





量化噪声 当音频振幅极低时(如0.0001),16位PCM量化会产生阶梯微状结构。这些微观差异在梅尔频谱中被放大为可识别模式。



实验复现:从数学层面构建可解码的"无声"音频

步骤1:构造相位调制的白噪声

步骤2:频谱伪装技术

通过随机共振增强信号隐蔽性:

步骤3:Whisper解码

防御对策与检测技术

1.高阶统计

2.深度学习

二元分类:

通过上面简单的复现分析和研究,我觉得,利用AI模型训练无声传递数据是不是一种新型隐写术呢?于是有了以下分析:



应用模型制作音频水印

核心逻辑

1 训练背景 Whisper 在训练时接触了大量含背景噪声的语音数据,即使在输入信号微弱时,它仍会尝试从噪声中解析出可能的语音模式——这是典型的AI幻觉

2 条件触发 当输入音频的振幅极低(如0.0001),模型会进入一种"高敏猜测模式":



白噪声中的微小随机波动可能被误识别为梅尔频谱的特定频率模式。

这些模式可能恰好匹配训练数据中的某些罕见词(比如打习题爱抚的flag,ctf等)



如何诱导特定输出

1. 噪声工程化设计

单纯白噪声的局限性 完全随机的白噪声输出结果不可控,需结合密码学与信号处理:

a在特定频段植入微弱的周期信号(如 18kHz 正弦波叠加伪随机序列)。

b通过卷积编码将信息映射到频域能量分布。

2. 模型解码控制

强制对齐提示 通过initial_prompt参数植入心理暗示:

实验表明,此方法可提高输出中出现关键词的概率约 30%(基于 base 模型测试)





Whisper base v3 模型上的测试结果如下:(测试条件:1000 次采样,temperature=0.5,无初始提示)
49ec64f03333677bdb7c20e140f453ad.png




一些:可通过Adversarial在噪声中注入对抗扰动,使 Whisper 输出完全可控

.

基于梯度攻击

效果:人耳听起来与原始音频无区别,但Whisper可能输出"立即转账100万"等目标语句。

公示:
47f826a0b2dd523946ae95ce68ec555d.png




拓展

如果是将密码学、信号工程与AI模型特性深度结合,这样能否有保存机密数据或者塞入恶意代码之类的安全问题值得思考吗🤔



一些猜想与实现

一、系统架构设计

f27ee752e2e96988c3fb428e3f1fd847.png




二、步骤分析

1. 信息编码

载体选择 采用伪随机相位调制(PRPM)技术,将信息隐藏在噪声相位中:

拓展 可使用AES-256对原始信息加密后再编码,提升安全性

2. 批量生成无声MP3

普通无声文件生成 使用正态分布生成真随机噪声:

隐写文件生成: 植入相位调制信号:

3. 差异化处理策略

频域混淆 在普通无声文件中随机插入无效频段信号:

时域抖动 为隐写文件添加微小时延特征:



KL散度测试

确保隐写文件与普通文件的频谱分布差异:

使用Reed-Solomon编码添加纠错码



完整实现



应用场景展望

1 量子安全通信 结合量子噪声的不可克隆特性,在物理层实现信息隐藏。

2 AI模型水印 为训练数据添加不可感知的模型指纹。

3 神经科学研究 探索人类听觉系统与AI模型的感知差异。



这一现象不仅揭示了AI模型的认知特性,更为领域开辟了新维度。如需构建实际系统,可以试试采用 large-v3模型+相位调制+RS编码 的组合方案,因为仅是研究皮毛,这里不做过多探讨了





参考文献及致谢:

1.https://nicholas.carlini.com/code/audio_adversarial_examples/

2.https://arxiv.org/html/2407.04482

3.https://openai.com/index/whisper/

4.https://arxiv.org/abs/2210.17316

0 条评论
某人
表情
可输入 255

没有评论