星辰的影 (@xingchendeying) 在 全自动攻击越狱Agent 中发帖
这是什么?
来自佐治亚理工,UIUC, 清华大学等单位的研究者联合发布了一个非常有力的全自动越狱Agent,通过把有害提问分解成下级的,看似无害的提问,来绕过最强的现代商业大模型中防御机制,实现了近乎完美的攻击成功率(96%-98%)。项目主页。根据开源的代码,理论上只要配置各种key,就可以在家攻击越狱各种商业大模型。在论文中,已经被验证可以攻克Gemini系列,GPT-OSS, Claude Haiku 4.5.
项目测试地址:
详情链接:
https://linux.do/t/topic/1340530/1
来源: LINUX DO, 消息ID: 262855
爱站程序员基地


![@saunafish 在 求助!为什么自建的 vless-reality 在小火箭里没法使用链式代理? 中发帖
[image]
使用 233boy 一键脚本自建的 vless-reality...-爱站程序员基地](https://aiznh.com/wp-content/uploads/2021/05/2-220x150.jpeg)