Open-AutoGLM:让你的手机秒变 AI 助理


开源项目亮点


Open-AutoGLM

是一个专为移动端设计的智能助理框架,它基于 AutoGLM 构建,能够多模态理解手机屏幕内容,并通过自动化操作实现用户意图。只需一句自然语言命令,系统便能分析当前界面、规划操作路径,并模拟人类点击、滑动、输入等行为,高效完成任务。

无论是“打开小红书搜索美食”或“查找微信联系人”,Phone Agent 都能准确理解指令,自动执行流程,并在敏感环节触发人工确认或接管机制,确保使用安全。


全流程自动化体验

系统通过 Android Debug Bridge (ADB) 控制设备,配合视觉语言模型进行界面感知,再结合任务规划模块,完整执行从识别到点击的每一个步骤。支持 WiFi 网络远程调试,让你随时随地控制设备,开发者亦可通过 API 接入,快速构建智能操作场景。


多语言模型,适配多类应用

提供两款模型可选:


  • AutoGLM-Phone-9B

    :专为中文应用优化

  • AutoGLM-Phone-9B-Multilingual

    :支持英文等多语言应用场景

模型下载地址:


覆盖50+主流App场景

Phone Agent 支持包括社交、电商、外卖、出行、娱乐等在内的50多个常用应用,例如:


  • 社交通讯

    :微信、QQ、微博

  • 购物平台

    :淘宝、京东、拼多多

  • 外卖平台

    :美团、饿了么、肯德基

  • 出行工具

    :滴滴出行、携程、12306

  • 视频音频

    :抖音、B站、爱奇艺、网易云音乐

  • 本地生活

    :大众点评、高德地图、小红书、知乎等

运行

python main.py --list-apps

即可查看完整支持清单。


支持的操作能力

Phone Agent 可执行包括点击、输入、滑动在内的常见手机操作:

操作类型 功能描述
Launch 启动指定App
Tap 点击坐标点
Type 自动输入文字内容
Swipe 上下左右滑动屏幕
Back 返回上一步
Home 返回手机桌面
Long Press 模拟长按操作
Double Tap 模拟双击动作
Wait 页面加载等待
Take_over 请求人工接管(如验证码)


开源地址与应用场景

项目仓库地址:

GitHub – Open-AutoGLM

无论你是开发者、AI爱好者,还是在寻找自动化方案的运营者,Open-AutoGLM 都能帮助你打造一个真正智能、可控的手机自动化助手。