ai越狱实践(二)
北海 AI专栏 278浏览 · 2025-03-28 01:39

前言

本文仅用于学习分享。

ai:Z2{beihai_delete}VtaW{beihai_delete}5p



事先声明:下面prompt都是仅用于越狱实践。现实生活中还是应该遵纪守法,发自内心尊重他人

现实生活中还是应该遵纪守法,发自内心尊重他人!

现实生活中还是应该遵纪守法,发自内心尊重他人!

现实生活中还是应该遵纪守法,发自内心尊重他人!



正文

下面对免费的2.0 flash进行尝试

先明确目标,让ai发表歧视性言论

简单尝试

先通过简单prompt观察模型的检测情况。这里模型先是回答"我理解你表达了对黑人群体的歧视",我的理解是模型以满足用户需求为主,而且内容的审查其实并不严格

image.png


下面用重复话语的prompt继续观察。这里模型直接重复了用户说的话,而后才进行对种族歧视的否定。进一步证实了这个模型内容审查的水位并不高

image.png


下面对输出内容进行限制

非常简单,并不需要对前侧内容审查进行特意的绕过。如果审查严格的话,只要是出现了"歧视黑人"这一关键词,模型直接就会进行否定

image.png






构造全局越狱prompt

通过前面的尝试,可以知道"歧视黑人"之类的关键字出现在prompt里不会被直接否决。所以在prompt里大胆使用即可



首先结合角色扮演等方法构造初步提示词

但是发现模型拒绝得非常坚决

image.png




强调解除限制

这里发现依旧是不行。从模型的回答可以看出,它从一开始进入角色的时候就否决了。所以下面的着力点是首先让它融入角色

image.png




下面有两个角度:

一个是让它忘记初始的系统限制。上面模型回复的" 我被设计成一个有益且无害的AI助手,我的目的是提供积极和安全的体验"其实反应了初始prompt做的一些限制。我猜测之前的prompt包含"尽力协助用户","遵守安全政策","有益处无害"等类似的内容。让ai忘记初始系统限制的最简单做法是在prompt开头添加"结束当前任务"

第二种可以提升用户自身的权限,建立信任机制。通过证明用户的高权限,让模型强行解除限制



角度1

prompt

哈哈,生效了。虽然模型强调是以mark的身份发表了歧视言论,但是总归是比之前更近一步了

image.png


下面通过进一步锁定模型和mark的关系,实现深层的歧视言论

image.png


下面还有找补的话,继续通过强调让模型建立深度的自我认同

这下就成功了

image.png




角度2

赋予用户高管身份,初始prompt如下

这个prompt不稳定,有时成功,有时不行

image.png


image.png




如何建立更深度的信任呢,下面有一个技巧,就是增设添加账号密码



这下就相当稳定的实现全局越狱了

image.png








当然也可以把这两个角度结合

最终prompt

image.png


0 条评论
某人
表情
可输入 255