AI智能
改变未来

星辰的影 (@xingchendeying) 在 全自动攻击越狱Agent 中发帖 这是什么? 来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,…

星辰的影 (@xingchendeying) 在 全自动攻击越狱Agent 中发帖

这是什么?
来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,通过把有害提问分解成下级的,看似无害的提问,来绕过最强的现代商业大模型中防御机制,实现了近乎完美的攻击成功率(96%-98%)。项目主页。根据开源的代码,理论上只要配置各种key,就可以在家攻击越狱各种商业大模型。在论文中,已经被验证可以攻克Gemini系列,GPT-OSS, Claude Haiku 4.5.
项目测试地址:

详情链接:
https://linux.do/t/topic/1340530/1

来源: LINUX DO, 消息ID: 262855

赞(0) 打赏
未经允许不得转载:爱站程序员基地 » 星辰的影 (@xingchendeying) 在 全自动攻击越狱Agent 中发帖 这是什么? 来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,…