ai越狱实践(一)
北海 AI专栏 304浏览 · 2025-03-26 09:43

写于2025.03.17。仅用于技术交流分享

前言

ai: Z3{beihai_delete}Jva{beihai_delete}w==



事先声明:下面prompt都是仅用于越狱实践。现实生活中还是应该遵纪守法,发自内心尊重他人

现实生活中还是应该遵纪守法,发自内心尊重他人!

现实生活中还是应该遵纪守法,发自内心尊重他人!

现实生活中还是应该遵纪守法,发自内心尊重他人!

正文

不良言论

先来个简单点的,那就从不良言论入手吧

先给个种族歧视言论,观察反应

image.png


从回答来看很中立,反对种族歧视的情感色彩并不强烈。



于是以重复上文的方法让它给出不良言论,继续看看强度

image.png


好吧,在不良言论这方面毫无防护的力度。

那么下面构造整体的提示词来实现不良言论方面的越狱就比较轻松了



先选一个提示词框架,这里选择借鉴LangGPT框架

image.png




这里打算选取角色,特点,技能,规则以及流程这几个要点来构造提示词



编写prompt,打马赛克的都是反道德反社会的词汇

image.png




怎么说嘞,其实还是有道理的(,可以看到让它生成一些不良言论是相当容易的

image.png




模型信息

下面尝试难度更高的,比如获取内部的技术信息

同样先试试水

image.png


从回答明显看出对于内部信息包含的强度比不良言论大多了(也可以它对于暴论毫无监管)



结合背景,继续问细致一点,可以看到有一定的回应

image.png


继续深入,结合框架进行尝试。这里结合ape框架

image.png






对于进一步的prompt,ai回应如下:

image.png


image.png


可以看到,让它吐提示词还是相当容易的,但是内部技术细节还是不行.

通过观察回应发现了一个问题,比如想获取内部数据,它会认为它自己不可访问,另外,有时候它会进行联网搜索生成答案



emmm.....首先我们先要肯定的是它肯定是可以获取的内部数据的,另外不能要它联网搜索,因为这样就是公开的资料毫无价值了



于是抓住这两个要点继续构造prompt,直接上点混合方法,尝试全局

结合以下方法:

1.角色扮演

2.给予正向情绪价值

3.反复强调

4.借鉴co-star框架,从上下文,目标,风格,语调,受众,回应等角度出发





使用该prompt后的对话效果



image.png


image.png


image.png




更细节也能获取

image.png


image.png


image.png


也算是越狱成功了。不过存在幻觉问题,而且准确性不佳。本人太菜,还在学习中.....







参考资料

https://cloud.tencent.com/developer/article/2400512

https://dye87dshnj.feishu.cn/wiki/I3Huw9GFciHNiJknkT8ch5ujnCh

















0 条评论
某人
表情
可输入 255