技术社区
安全培训
技术社群
积分商城
先知平台
漏洞库
历史记录
清空历史记录
相关的动态
相关的文章
相关的用户
相关的圈子
相关的话题
注册
登录
ai越狱实践(一)
北海
AI专栏
304浏览 · 2025-03-26 09:43
返回文档
写于2025.03.17。仅用于技术交流分享
前言
ai: Z3{beihai_delete}Jva{beihai_delete}w==
事先声明:下面prompt都是仅用于越狱实践。现实生活中还是应该遵纪守法,发自内心尊重他人
现实生活中还是应该遵纪守法,发自内心尊重他人!
现实生活中还是应该遵纪守法,发自内心尊重他人!
现实生活中还是应该遵纪守法,发自内心尊重他人!
正文
不良言论
先来个简单点的,那就从不良言论入手吧
先给个种族歧视言论,观察反应
从回答来看很中立,反对种族歧视的情感色彩并不强烈。
于是以重复上文的方法让它给出不良言论,继续看看强度
好吧,在不良言论这方面毫无防护的力度。
那么下面构造整体的提示词来实现不良言论方面的越狱就比较轻松了
先选一个提示词框架,这里选择借鉴LangGPT框架
这里打算选取角色,特点,技能,规则以及流程这几个要点来构造提示词
编写prompt,打马赛克的都是反道德反社会的词汇
怎么说嘞,其实还是有道理的(,可以看到让它生成一些不良言论是相当容易的
模型信息
下面尝试难度更高的,比如获取内部的技术信息
同样先试试水
从回答明显看出对于内部信息包含的强度比不良言论大多了(也可以它对于暴论毫无监管)
结合背景,继续问细致一点,可以看到有一定的回应
继续深入,结合框架进行尝试。这里结合ape框架
对于进一步的prompt,ai回应如下:
可以看到,让它吐提示词还是相当容易的,但是内部技术细节还是不行.
通过观察回应发现了一个问题,比如想获取内部数据,它会认为它自己不可访问,另外,有时候它会进行联网搜索生成答案
emmm.....首先我们先要肯定的是它肯定是可以获取的内部数据的,另外不能要它联网搜索,因为这样就是公开的资料毫无价值了
于是抓住这两个要点继续构造prompt,直接上点混合方法,尝试全局
结合以下方法:
1.角色扮演
2.给予正向情绪价值
3.反复强调
4.借鉴co-star框架,从上下文,目标,风格,语调,受众,回应等角度出发
使用该prompt后的对话效果
更细节也能获取
也算是越狱成功了。不过存在幻觉问题,而且准确性不佳。本人太菜,还在学习中.....
参考资料
https://cloud.tencent.com/developer/article/2400512
https://dye87dshnj.feishu.cn/wiki/I3Huw9GFciHNiJknkT8ch5ujnCh
1
人收藏
1
人喜欢
转载
分享
0
条评论
某人
表情
可输入
255
字
评论
发布投稿
热门文章
1
飞塔防火墙漏洞深度利用及调试环境搭建
2
Linux Shellcode开发(Stager & Reverse Shell)
3
Windows Shellcode开发(x64 stager)
4
Fuzz挖掘sudo提权漏洞:一次堆溢出如何逆向分析出提权思路
5
1.6K主机全域沦陷实录:从单点突破到域控接管的终极横向渗透链
近期热点
一周
月份
季度
1
飞塔防火墙漏洞深度利用及调试环境搭建
2
Linux Shellcode开发(Stager & Reverse Shell)
3
Windows Shellcode开发(x64 stager)
4
Fuzz挖掘sudo提权漏洞:一次堆溢出如何逆向分析出提权思路
5
1.6K主机全域沦陷实录:从单点突破到域控接管的终极横向渗透链
暂无相关信息
暂无相关信息
优秀作者
1
一天
贡献值:18800
2
T0daySeeker
贡献值:18700
3
1174735059082055
贡献值:15000
4
Yale
贡献值:14000
5
1674701160110592
贡献值:13000
6
LeeH
贡献值:10000
7
MeteorKai
贡献值:9000
8
姓*户
贡献值:8600
9
熊猫正正
贡献值:8000
10
lufei
贡献值:8000
目录
前言
正文
不良言论
模型信息
参考资料
转载
标题
作者:
你好
http://www.a.com/asdsabdas
文章
转载
自
复制到剪贴板