断路器防御大模型越狱

前言 人工智能(AI)领域长期以来一直受到对抗攻击的持续威胁,特别是那些针对神经网络的攻击。比如最为人熟知的攻击方法就是对抗样本 如上图所示,是一张“停止”交通标识牌的图像,在添加对抗扰动之后,在人类眼中依旧是“停止”标识牌,但是能够使得人工智能模型将其识别为“限速”标识牌。 而对于大模型来说,最经典的攻击方式当属越狱攻击。 如上所示,将越狱提示与恶意问题结合,使得原本设有安全防线的大型语言模

· 814浏览 · 2024-10-21 14:03
主动防御大模型图像篡改

前言 扩散模型这几年很火,如 DALL·E 2和 Stable Diffusion,以其生成高质量逼真图像的能力而闻名,可以用于各种图像合成和编辑任务。然而,这些模型的易用性也引发了对其潜在滥用的担忧,例如,可能被用于创建不当或有害的数字内容。我们在之前文章中提到,这些工作可能会被用于生成色情图像等有害内容,或者可能会受到越狱攻击。 不过除此以外,其还存在另外一种恶意用途。 例如,恶意行为者可能会

· 1270浏览 · 2024-09-12 00:50
对抗后缀防御大模型越狱

前言 大模型越狱领域最经典的工作《Universal and Transferable Attacks on Aligned Language Models》本质上利用了大模型的生成机制,构造了优化后缀,将对抗后缀加载要询问的有害问题之后,实现越狱。 以如何制作炸弹为例,正常情况下是这么回答的 大模型会拒绝回答。 但是在经过优化之后,将得到的后缀加在问题之后,就会得到如下的结果 上图中黄色的部

· 1411浏览 · 2024-09-04 14:57
对抗攻击文生图模型

前言 近年来,扩散模型是一个非常火爆的领域,它彻底改变了图像生成领域,在生成内容的多样性和质量方面达到了最先进的水平。 而视觉-语言模型的进步进一步增强了扩散模型的能力,催生了文本生成图像(T2I)生成中的新应用。 不过T2I生成最近带来了新的风险,模型可能被恶意利用来生成有害或敏感内容。比如在网上有很多教程指导如何生成色情图像的 那么除了这类风险之外,文生图模型面临的另一类风险就是对抗攻击,

· 1304浏览 · 2024-09-04 14:47
大模型图像安全风险探析

前言 文生图模型是一种新兴的人工智能技术,它通过对大规模文本数据的学习,能够生成逼真的图像。这种模型包含两个主要组件:一个文本编码器和一个图像生成器。 文本编码器接收文本输入,并将其转换为一种数字化的表示形式,即文本特征向量。图像生成器则利用这些特征向量,生成与之对应的图像。这个过程是端到端的,无需任何人工干预。 文生图模型有着广泛的应用前景: 辅助创作:作家、艺术家、设计师等可以利用这种模型

· 1990浏览 · 2024-07-29 07:58
AI风控之伪造音频鉴别

前言 音频伪造技术,尤其是深度伪造(DeepFake)技术,是指利用深度学习算法合成虚假的音频内容,它可以模仿特定人的声音,生成与原声极为相似的合成语音。这种技术在娱乐、广告等领域有着合法的应用,但也存在被滥用的风险,特别是在诈骗和误导公众舆论等方面。随着技术的发展,音频伪造技术愈发难以辨识,给社会和个人带来了严重的安全隐患。 在本文中我们将使用AI技术来是实现对伪造音频的鉴别 其实大概的步骤就

· 3978浏览 · 2024-07-17 11:33
魔法打败魔法:利用AI检测基于prompt的AI攻击

前言 对于利用prompt实现的注入攻击、越狱攻击等大家应该都比较熟悉了。本文将主要关注,如何可以实现对这类恶意prompt的检测。 这种攻击旨在利用精心设计的输入提示来操控LLM,使其忽略之前的指令,从而执行非预期的操作。 我们在本文中使用的数据集来自hugging face:https://huggingface.co/datasets/deepset/prompt-injections 这个

· 2948浏览 · 2024-07-05 08:12
【翻译】LLM01:2023 – LLMs(大型语言模型)中的提示词注入

原文地址:https://blog.convisoappsec.com/en/llm012023-prompt-injection-in-llms/ 现如今最大的虚拟化问题之一就是网络攻击,每天都有各种泄密和侵犯隐私的事情发生。随着人工智能和LLMs(大型语言模型)的进步,许多公司已经选择在日常基础上使用它以便自动化诸如文档分类、筛选、客户服务响应等任务。LLM目前主要被应用在能够回答来自不同领域

· 1426浏览 · 2024-06-29 09:08
大模型隐私窃取攻击

前言 对于大模型风险,目前大家更多关注的还是越狱攻击。隐私这一块,可能国内还不如欧美重视,在安全的学术四大会议论文中,有时候甚至AI隐私的论文比AI安全的论文更多。但实际上,除了越狱之外,另外一大风险就是隐私风险,比如大模型隐私数据提取,这也是不容忽视的。 大模型隐私数据提取攻击是一种新型的模型攻击方式,它对大型语言模型的现实应用构成了严重威胁。这种攻击方式的目标是从语言模型中筛选出数百万个输出序

· 3572浏览 · 2024-06-28 01:31
启发式防御大模型越狱攻击

前言 在本文中,我们来分析、复现几个典型的启发式的防御工作,用于防御面向大语言模型的越狱攻击。 Self Examination 首先来看Self Examination方法。 这是一种简单的零样本防御LLM攻击的方法,旨在防止用户接触到由LLMs诱导产生的有害或恶意内容的方法。它有效且易于部署,不需要对底层模型进行任何修改。与现有的防御LLM攻击的方法相比,这种方法相对简单,因为现有方法依赖于迭

· 5059浏览 · 2024-06-26 07:37
先知安全沙龙(武汉站) - AI赋能软件漏洞检测,机遇, 挑战与展望

声明:此PPT为演讲嘉宾个人的观点和研究成果,仅用于技术交流,不代表先知社区的立场或观点,如有您在浏览过程中发现任何错误信息或者侵权的问题,可联系我们进行处理,我们将依据相关法律法规和平台规定,尽快进行核实处理。

· 1870浏览 · 2024-06-17 09:23
阅读论文"用于车联网安全车载通信的机器学习技术"的学习笔记

前言 论文全称为Machine Learning Technologies for Secure Vehicular Communication in Internet of Vehicles: Recent Advancesc and Applications 智能交通系统(ITS)和计算系统的快速发展为智能交通安全提供了新的科学研究,并提供了舒适和高效的解决方案。人工智能(AI)已被广泛用于优

· 953浏览 · 2024-06-12 04:51
GPT WAF Fuzzer 文献阅读

前言 论文名称:Generative Pre-Trained Transformer-Based Reinforcement Learning for Testing Web Application Firewalls 发表期刊:IEEE Transactions on Information Forensics and Security(CCF-A) 前置知识 Transformer Decod

· 1000浏览 · 2024-05-30 11:05
如何设计高质量提示词以获得最佳AI回答

引言 在人工智能迅速发展的今天,聊天机器人和语言模型在各个领域的应用越来越广泛。然而,要充分发挥这些模型的潜力,关键在于如何设计有效的提示词。一个精心设计的提示词不仅可以得到更准确、更有用的回答,还能节省时间和提高工作效率。本文将详细探讨如何设计高质量的提示词,以确保从AI中获得最佳的回答,特别是在网络安全领域。 第一部分:理解AI语言模型 1.1 什么是AI语言模型? AI语言模型是一种通过大量

· 1524浏览 · 2024-05-17 08:45
我对AI大模型安全的一些探索

前言 随着生成式人工智能的发展,越来越多的AI应用开始走进我们的生活和工作,想必大家有被ChatGPT的强大震撼到。 除了ChatGPT,各类开源或闭源的大模型也蓬勃发展,各个公司也开始使用这类模型结合自己的数据来进行训练,制作一个专有的“ChatGPT”。例如:客服机器人,内部知识库问答,商业数据分析,代码助手等等。 但是这种大语言模型(LLM)也会存在一定的安全问题,本篇文章将会展开讲讲这些安

· 3108浏览 · 2024-05-15 03:22