来源: Open-AutoGLM – 智谱开源的手机端AI Agent框架 | AI工具集
Open-AutoGLM 是智谱开源的手机端智能助理框架,基于 AutoGLM 构建,能通过自然语言指令实现手机操作的自动化。Open-AutoGLM通过 Phone Use 能力框架,将自然语言指令转化为实际操作,如点击、滑动、输入等,可在外卖、社交、客服等场景中自动完成任务。框架借助云手机技术保障隐私安全。Open-AutoGLM 开源目的是推动行业共同进步,保护用户隐私,加速 Agent 技术爆发。目前支持 50 多款主流中文应用,提供完整工具链和详细文档,助力开发者快速上手和二次开发。
Open-AutoGLM的主要功能
-
自然语言理解与任务执行:用户能用自然语言描述需求,AI 自动解析意图、执行操作。
-
多模态界面理解:通过视觉语言模型理解手机屏幕内容,识别界面元素进行操作。
-
自动化操作:支持点击、滑动、输入文本、长按、双击等多种操作,模拟真实用户行为。
-
敏感操作确认与人工接管:在涉及隐私或敏感操作时,AI 会请求人工确认或接管,确保安全性。
-
远程调试与控制:支持通过 WiFi 或网络进行远程 ADB 调试,无需物理连接设备即可操作。
-
支持多款应用:覆盖 50 多款主流中文应用,包括社交通讯、电商购物、美食外卖、视频娱乐等场景。
-
云手机环境部署:在云端虚拟设备中运行,保障用户隐私和数据安全。
如何使用Open-AutoGLM
- 准备工作
- 安装 Python:确保电脑上安装了 Python(推荐 3.10 及以上版本)。
- 安装 ADB:下载并安装 ADB https://developer.Android.com/studio/releases/platform-tools。安装完成后,将 ADB 的路径添加到系统环境变量中。
- 配置安卓设备:确保安卓设备已启用开发者模式和USB调试,并连接到电脑。
- 下载和安装
- 下载 Open-AutoGLM:
- 访问 Open-AutoGLM GitHub 仓库 https://github.com/zai-org/Open-AutoGLM。
- 点击页面右上角的 “Code” 按钮,选择 “Download ZIP”,下载项目代码。
- 解压下载的文件到本地一个方便的目录(如
C:\Open-AutoGLM或~/Open-AutoGLM)。
- 安装依赖:
- 打开命令行工具(Windows 的命令提示符或 PowerShell,Mac/Linux 的终端)。
- 切换到解压后的项目目录:
cd path/to/Open-AutoGLM- 输入以下命令安装依赖:
pip install -r requirements.txt
- 启动模型服务:
- 输入以下命令启动模型服务(这是必须的步骤,但不需要理解代码):
python3 -m vllm.entrypoints.openai.api_server --model zai-org/AutoGLM-Phone-9B --port 8000- 如果看到服务启动成功的提示,就可以进行下一步。
- 下载 Open-AutoGLM:
- 运行任务:打开一个新的命令行窗口,输入以下命令执行任务(只需要替换任务描述即可):
python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "任务描述"
Open-AutoGLM的项目地址
- GitHub仓库:https://github.com/zai-org/Open-AutoGLM
- HuggingFace模型库:https://huggingface.co/zai-org/AutoGLM-Phone-9B
Open-AutoGLM的应用场景
- 外卖点餐:用户只需用自然语言描述需求,Open-AutoGLM 能自动打开美团应用、搜索肯德基、选择全家桶套餐并完成下单操作。
- 社交媒体互动:在微信、微博等社交应用中,用户可指令 AI“点赞好友的最新动态”或“评论抖音视频”,AI 将自动识别相关内容,执行点赞、评论等互动操作。
- 办公自动化:在办公软件(如 WPS、Microsoft Office)中,用户通过语音或文字指令“创建一个名为‘项目计划’的文档并写入会议内容”,AI 能完成文档创建和内容编辑。
- 智能家居控制:通过智能家居应用(如小米智能家居),Open-AutoGLM 能精准识别、控制相应设备,实现家居场景的自动化切换。
- 交通出行:在地图或打车应用(如高德地图、滴滴出行)中,AI 将实时规划路线,完成叫车操作,方便快捷。
Mikel
