Open-AutoGLM:让你的手机秒变 AI 助理
开源项目亮点
Open-AutoGLM
是一个专为移动端设计的智能助理框架,它基于 AutoGLM 构建,能够多模态理解手机屏幕内容,并通过自动化操作实现用户意图。只需一句自然语言命令,系统便能分析当前界面、规划操作路径,并模拟人类点击、滑动、输入等行为,高效完成任务。
无论是“打开小红书搜索美食”或“查找微信联系人”,Phone Agent 都能准确理解指令,自动执行流程,并在敏感环节触发人工确认或接管机制,确保使用安全。
全流程自动化体验
系统通过 Android Debug Bridge (ADB) 控制设备,配合视觉语言模型进行界面感知,再结合任务规划模块,完整执行从识别到点击的每一个步骤。支持 WiFi 网络远程调试,让你随时随地控制设备,开发者亦可通过 API 接入,快速构建智能操作场景。
多语言模型,适配多类应用
提供两款模型可选:
-
AutoGLM-Phone-9B
:专为中文应用优化 -
AutoGLM-Phone-9B-Multilingual
:支持英文等多语言应用场景
模型下载地址:
覆盖50+主流App场景
Phone Agent 支持包括社交、电商、外卖、出行、娱乐等在内的50多个常用应用,例如:
-
社交通讯
:微信、QQ、微博 -
购物平台
:淘宝、京东、拼多多 -
外卖平台
:美团、饿了么、肯德基 -
出行工具
:滴滴出行、携程、12306 -
视频音频
:抖音、B站、爱奇艺、网易云音乐 -
本地生活
:大众点评、高德地图、小红书、知乎等
运行
python main.py --list-apps
即可查看完整支持清单。
支持的操作能力
Phone Agent 可执行包括点击、输入、滑动在内的常见手机操作:
| 操作类型 | 功能描述 |
|---|---|
| Launch | 启动指定App |
| Tap | 点击坐标点 |
| Type | 自动输入文字内容 |
| Swipe | 上下左右滑动屏幕 |
| Back | 返回上一步 |
| Home | 返回手机桌面 |
| Long Press | 模拟长按操作 |
| Double Tap | 模拟双击动作 |
| Wait | 页面加载等待 |
| Take_over | 请求人工接管(如验证码) |
开源地址与应用场景
项目仓库地址:
GitHub – Open-AutoGLM
无论你是开发者、AI爱好者,还是在寻找自动化方案的运营者,Open-AutoGLM 都能帮助你打造一个真正智能、可控的手机自动化助手。
爱站程序员基地

