星辰的影 (@xingchendeying) 在全自动攻击越狱Agent 中发帖这是什么？来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent，…

2025-12-19 分类：LINUX DO 评论(0)

星辰的影 (@xingchendeying) 在全自动攻击越狱Agent 中发帖

这是什么？
来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent，通过把有害提问分解成下级的，看似无害的提问，来绕过最强的现代商业大模型中防御机制，实现了近乎完美的攻击成功率（96%-98%）。项目主页。根据开源的代码，理论上只要配置各种key，就可以在家攻击越狱各种商业大模型。在论文中，已经被验证可以攻克Gemini系列，GPT-OSS, Claude Haiku 4.5.
项目测试地址：

详情链接：
https://linux.do/t/topic/1340530/1

来源: LINUX DO, 消息ID: 262855

赞(0) 打赏

未经允许不得转载：爱站程序员基地 » 星辰的影 (@xingchendeying) 在全自动攻击越狱Agent 中发帖这是什么？来自佐治亚理工，UIUC，清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent，…

标签：LINUX DO