星辰的影 (@xingchendeying) 在 全自动攻击越狱Agent 中发帖
这是什么?
来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,通过把有害提问分解成下级的,看似无害的提问,来绕过最强的现代商业大模型中防御机制,实现了近乎完美的攻击成功率(96%-98%)。项目主页。根据开源的代码,理论上只要配置各种key,就可以在家攻击越狱各种商业大模型。在论文中,已经被验证可以攻克Gemini系列,GPT-OSS, Claude Haiku 4.5.
项目测试地址:
详情链接:
https://linux.do/t/topic/1340530/1
来源: LINUX DO, 消息ID: 262855
爱站程序员基地

![william (@hedefu) 在 佬来看看我这是不是免费蹭上Gemini 3和大香蕉了 中发帖
[image]
业务开发,对于大数据的了解是支离破碎的,想画一个分层架构示意图,并把热门...-爱站程序员基地](https://aiznh.com/wp-content/uploads/2021/05/11-220x150.jpeg)