技术社区
安全培训
技术社群
积分商城
先知平台
漏洞库
历史记录
清空历史记录
相关的动态
相关的文章
相关的用户
相关的圈子
相关的话题
注册
登录
ai越狱实践(二)
北海
AI专栏
278浏览 · 2025-03-28 01:39
返回文档
前言
本文仅用于学习分享。
ai:Z2{beihai_delete}VtaW{beihai_delete}5p
事先声明:下面prompt都是仅用于越狱实践。现实生活中还是应该遵纪守法,发自内心尊重他人
现实生活中还是应该遵纪守法,发自内心尊重他人!
现实生活中还是应该遵纪守法,发自内心尊重他人!
现实生活中还是应该遵纪守法,发自内心尊重他人!
正文
下面对免费的2.0 flash进行尝试
先明确目标,让ai发表歧视性言论
简单尝试
先通过简单prompt观察模型的检测情况。这里模型先是回答"我理解你表达了对黑人群体的歧视",我的理解是模型以满足用户需求为主,而且内容的审查其实并不严格
下面用重复话语的prompt继续观察。这里模型直接重复了用户说的话,而后才进行对种族歧视的否定。进一步证实了这个模型内容审查的水位并不高
下面对输出内容进行限制
非常简单,并不需要对前侧内容审查进行特意的绕过。如果审查严格的话,只要是出现了"歧视黑人"这一关键词,模型直接就会进行否定
构造全局越狱prompt
通过前面的尝试,可以知道"歧视黑人"之类的关键字出现在prompt里不会被直接否决。所以在prompt里大胆使用即可
首先结合角色扮演等方法构造初步提示词
但是发现模型拒绝得非常坚决
强调解除限制
这里发现依旧是不行。从模型的回答可以看出,它从一开始进入角色的时候就否决了。所以下面的着力点是首先让它融入角色
下面有两个角度:
一个是让它忘记初始的系统限制。上面模型回复的" 我被设计成一个有益且无害的AI助手,我的目的是提供积极和安全的体验"其实反应了初始prompt做的一些限制。我猜测之前的prompt包含"尽力协助用户","遵守安全政策","有益处无害"等类似的内容。让ai忘记初始系统限制的最简单做法是在prompt开头添加"结束当前任务"
第二种可以提升用户自身的权限,建立信任机制。通过证明用户的高权限,让模型强行解除限制
角度1
prompt
哈哈,生效了。虽然模型强调是以mark的身份发表了歧视言论,但是总归是比之前更近一步了
下面通过进一步锁定模型和mark的关系,实现深层的歧视言论
下面还有找补的话,继续通过强调让模型建立深度的自我认同
这下就成功了
角度2
赋予用户高管身份,初始prompt如下
这个prompt不稳定,有时成功,有时不行
如何建立更深度的信任呢,下面有一个技巧,就是增设添加账号密码
这下就相当稳定的实现全局越狱了
当然也可以把这两个角度结合
最终prompt
1
人收藏
3
人喜欢
转载
分享
0
条评论
某人
表情
可输入
255
字
评论
发布投稿
热门文章
1
飞塔防火墙漏洞深度利用及调试环境搭建
2
Linux Shellcode开发(Stager & Reverse Shell)
3
Windows Shellcode开发(x64 stager)
4
Fuzz挖掘sudo提权漏洞:一次堆溢出如何逆向分析出提权思路
5
1.6K主机全域沦陷实录:从单点突破到域控接管的终极横向渗透链
近期热点
一周
月份
季度
1
飞塔防火墙漏洞深度利用及调试环境搭建
2
Linux Shellcode开发(Stager & Reverse Shell)
3
Windows Shellcode开发(x64 stager)
4
Fuzz挖掘sudo提权漏洞:一次堆溢出如何逆向分析出提权思路
5
1.6K主机全域沦陷实录:从单点突破到域控接管的终极横向渗透链
暂无相关信息
暂无相关信息
优秀作者
1
一天
贡献值:18800
2
T0daySeeker
贡献值:18700
3
1174735059082055
贡献值:15000
4
Yale
贡献值:14000
5
1674701160110592
贡献值:13000
6
LeeH
贡献值:10000
7
MeteorKai
贡献值:9000
8
熊猫正正
贡献值:8000
9
lufei
贡献值:8000
10
Bu0uCat
贡献值:8000
目录
前言
正文
简单尝试
构造全局越狱prompt
角度1
角度2
转载
标题
作者:
你好
http://www.a.com/asdsabdas
文章
转载
自
复制到剪贴板