📖 MonkeyBot 新手入门指南

欢迎使用 MonkeyBot!本文档将帮助你快速了解并上手

检测服务状态...

🤖 如何管理机器人?

机器人是 MonkeyBot 的核心,每个机器人都有独特的性格和能力。你可以创建多个机器人用于不同场景。

1机器人工作空间

每个机器人都有独立的工作空间,用于存储文件、配置和运行数据。点击机器人详情页的 "工作空间" 进入。

工作空间目录结构

工作空间功能

💡 使用提示

工作空间文件可以在对话中让机器人直接读取和编辑。例如:
• "读取 skills/ 目录下的文件"
• "帮我修改 config.json 文件"
• "上传的文档内容是什么?"
• "请分析 assets/mobile-recordings/ 里的这段手机录屏"

2沙箱与桌面

机器人在沙箱环境中运行,确保安全隔离。沙箱桌面提供可视化操作界面。

沙箱状态说明

沙箱桌面功能

桌面环境用途

⚠️ 注意事项

🧰 如何给机器人添加技能?

技能是机器人的扩展能力,通过安装技能插件,机器人可以执行更多操作,如搜索文件、生成图片、执行代码等。

1进入技能管理

在机器人详情页,点击 "技能" 标签,可以查看和安装技能。

2安装技能

  1. 在高级模式中找到需要的技能管理入口(即将上线)
  2. 点击 "安装""添加到机器人"
  3. 根据技能要求配置相关参数(如 API 密钥等)

常用技能介绍

🔍
网页搜索
搜索互联网获取最新信息
🖼️
图片生成
通过文字描述生成图片
📁
文件操作
读取、写入、编辑工作空间文件
💻
代码执行
在沙箱环境中运行代码
📊
数据库查询
执行 SQL 查询操作
🌐
网页抓取
抓取网页内容并总结

3管理已安装技能

在机器人技能页面可以:

💬 如何和机器人聊天?

与机器人聊天是 MonkeyBot 最核心的功能。你可以像和朋友发消息一样与 AI 交流。

1选择机器人

在首页点击机器人卡片,或在聊天页面从机器人列表中选择要对话的机器人。

2发送消息

在输入框中输入你的问题或请求,按 Enter 或点击发送按钮即可。

📝 聊天示例

3查看回复

机器人会实时流式输出回复,你可以看到文字逐字出现,就像真人在打字一样。回复中可能包含:

4对话管理

💡 聊天技巧

🧬 机器人记忆与经验

MonkeyBot 具有记忆系统,机器人可以在对话中记住重要信息,越用越智能。

记忆类型

会话记忆
当前对话的上下文,保持对话连贯性
💾
工作空间
机器人的文件、数据库等持久化存储
📚
经验库
保存重要对话作为经验参考
📝
SOP 流程
标准作业流程,可重复执行

1经验管理

在经验页面可以:

2SOP 流程

SOP(Standard Operating Procedure)是可重复执行的标准化流程:

🧠 使用建议

📱 手机 SOP:录屏生成与真机执行

如果你想让 Robot 根据一段手机操作录屏生成 SOP,并继续在真机上自测、回归和修复,可以直接使用 手机 SOP Builder。这一套流程当前分成两个对象:

你会看到的入口

1先准备设备或录屏素材

这一步先决定你是走“在线录制”还是“上传现成录屏”:

📌 建议做法

2打开“手机 SOP Builder”创建任务

进入机器人详情页的 SOP 页面后,打开 手机 SOP Builder。页面顶部会按四步走:

  1. 填写任务标题:例如“北京交警办理进京证”
  2. 开始录制:选择设备在线录制,或展开高级入口导入已有 session / 上传录屏
  3. 预览草稿:先看识别出来的步骤、警告和生成方式
  4. 审核保存:确认 Markdown / YAML 后保存到正式 SOP 列表

3两种生成路径怎么用

路径 A:在线录制生成

  1. 在 Step 2 选择一台设备
  2. 点击 "开始手机录制"
  3. 在手机上按真实业务流程操作
  4. 结束后点击 "结束录制并生成草稿"

路径 B:上传录屏生成

  1. 在 Step 2 展开 "高级方式"
  2. "上传录屏文件" 里选择 MP4
  3. 点击 "上传录屏并生成草稿"
  4. 系统会先把文件放到工作空间 assets/mobile-recordings/,再创建一个 video_upload job
⏱️ 生成中会发生什么

生成完成前,Job 会经历“排队 / 处理中 / 已完成或失败”等状态。你不需要一直停留在当前页;后续可以从历史列表重新打开同一个 Job。

4先复核草稿,再决定是否保存

Step 3 的“预览草稿”是最重要的人工检查点。这里建议重点看:

确认无误后,在 Step 4 点击保存。保存后,这条记录会进入正式 SOP 列表,同时当前 mobile job 会被标记为已审核。

5怎么看 Job、Execution 和运行产物

生成完成后,你会在页面里看到一组和执行相关的入口:

当前版本里,Execution 一般由系统自动自测、Robot 工作流或后端执行接口触发;一旦开始执行,结果会回流到当前页面和工作空间任务面板。

另外,机器人工作空间页的任务面板会把这些执行展示成 MobileExecution。如果某一轮执行已经开始,你可以直接从任务面板点击回到对应 Job 或 Execution。

如何理解执行来源

6执行失败后怎么看、怎么继续

手机 SOP 的执行失败并不等于整条链路失败。正确的排查方式是:

  1. 先看当前 Execution 的 执行状态当前步骤结果信息
  2. 再打开 "运行结果""产物目录",检查截图、点击位置、输入前后状态是否合理
  3. 如果系统已经触发 repair_validation,继续查看新的一轮 Execution,不要只盯着第一轮失败结果
  4. 如果问题是业务数据写死、文案不稳定、控件描述太弱,返回草稿页补 YAML/Markdown 后重新验证
✅ 当前版本最重要的使用建议

🎯 使用场景示例

以下是机器人结合工作空间、技能和沙箱的典型使用场景:

📁 场景一:代码项目助手

在机器人工作空间的 repos/ 目录中克隆你的代码仓库,机器人可以读取、分析和修改代码。通过代码执行技能,机器人能在沙箱环境中运行测试、执行构建命令。你可以让机器人"帮我检查这个项目的测试覆盖率"、"重构这个函数"、"为新功能编写单元测试"。所有代码修改都保存在独立的工作空间中,不影响宿主机环境。

📊 场景二:数据分析助手

将数据文件上传到机器人工作空间,使用数据库技能在沙箱中执行 SQL 查询分析。机器人可以生成图表、导出分析报告到 downloads/ 目录。支持处理 CSV、JSON、Excel 等格式数据。例如:"分析这份销售数据,找出增长最快的产品类别"、"用 SQL 查询上个月的订单统计"。沙箱环境确保数据分析的安全隔离。

🌐 场景三:信息采集助手

配置网页搜索和网页抓取技能,机器人可以自动搜索互联网信息、抓取网页内容并保存到工作空间。结合定时任务,可以定期采集行业新闻、竞品动态等。抓取的内容存储在 downloads/ 或自定义目录,方便后续分析。例如:"每天早上抓取科技新闻并生成摘要"、"监控竞品网站的价格变化"。

📝 场景四:文档处理助手

上传文档到工作空间,机器人可以读取、总结、翻译或改写文档内容。支持 Markdown、PDF、Word 等格式。处理后的文档保存回工作空间,可随时下载。结合 SOP 功能,可以定义标准的文档处理流程。例如:"将这份技术文档翻译成英文"、"生成这份报告的摘要"、"按照模板格式整理这些会议记录"。

🤖 场景五:自动化运维助手

通过沙箱桌面环境,机器人可以操作浏览器执行自动化任务,如登录系统查看状态、定时检查服务健康、自动化填报等。工作空间中存储脚本和配置文件,定时任务按计划自动执行。安卓设备绑定后,还可以自动化操作手机 APP。例如:"每天检查服务器状态并发送报告"、"自动化完成月度报表填报"、"监控 APP 的新版本发布"。

🧠 机器人架构(进阶了解)

MonkeyBot 采用仿生学设计,每个机器人有以下"器官":

🧠
NeuralCenter
神经中枢,负责安全检查、流量控制和情感分析
🫁
Cerebellum
小脑,负责反射动作(系统1),快速自动响应
🧩
Cerebrum
大脑,负责深度思考(系统2),LLM 推理规划
👄
Mouth
嘴巴,负责输出格式化,将结果呈现给你

📋 状态说明

机器人在不同状态下会有不同表现:

❓ 常见问题

Q: 如何修改机器人的模型?

进入机器人详情页,点击"编辑",可以在模型配置中更改使用的 LLM 模型。

Q: 支持哪些模型?

支持 OpenAI (GPT-4/GPT-4o)、Claude、智谱 GLM、通义千问、DeepSeek、月之暗面等主流大语言模型,也支持通过 OpenAI 兼容接口接入本地模型(如 Ollama)。

Q: 为什么回答有时候很慢?

深度思考和执行复杂任务需要更长时间。如果机器人正在执行技能(如搜索、文件操作),响应时间会更长。

Q: 如何提升响应速度?

1. 选择更快的模型(如 GPT-4o-mini)
2. 简化提示词,减少不必要的上下文
3. 减少同时启用的技能数量

Q: 如何配置凭证?

在机器人详情页的"凭证"标签中,可以添加各种 API 密钥。支持多种凭证类型,机器人会根据需要自动使用对应的凭证。

Q: 数据安全吗?

所有对话数据存储在本地数据库中,API 密钥等敏感信息会加密存储。建议不要在对话中透露密码等敏感信息。

Q: 如何接入飞书/微信?

在机器人详情页的"频道绑定"中,可以配置飞书或微信的机器人对接。需要先在飞书/微信开放平台创建应用并获取凭证。

🔧 技术信息

加载中...

WebSocket 协议

MonkeyBot 使用 ACP (Agent Communication Protocol) 协议进行实时通信。主要方法包括:

机器人运行模式

🏠
本地模式
机器人在主进程中运行
🐳
沙箱模式
机器人在 Docker 容器中隔离运行
🖥️
桌面模式
机器人可以操作桌面环境
🆘 需要帮助?

如果遇到问题,可以:
1. 查看浏览器控制台日志
2. 检查服务器日志
3. 访问 GitHub 提交 Issue