计算机控制
CLI-JAW 通过浏览器 CDP 集成和基于 Codex 的视觉点击管线支持桌面自动化。代理可以截取屏幕截图、点击元素、输入文本和导航——既支持浏览器,也支持桌面。
两种方式
| 方式 | 方法 | 最适用于 |
|---|---|---|
| CDP (Chrome DevTools Protocol) | 通过 src/browser/ 进行浏览器自动化 | 网页、精确的 DOM 交互 |
| Computer Use (CU) | 通过 Codex employee 进行桌面自动化 | 原生应用、桌面 UI 交互 |
CDP 浏览器自动化
CLI-JAW 通过 CDP 启动并控制 Chrome:
# Start browser
jaw browser start
# Take a screenshot
jaw browser screenshot
# Take a DOM snapshot with ref attributes
jaw browser snapshot
# Click an element by ref
jaw browser click ref123
# Type text into an element
jaw browser type ref456 "Hello World" --submit
# Navigate to a URL
jaw browser navigate https://example.com
# Get page text
jaw browser text
视觉点击管线
当 DOM ref 属性和直接坐标都不适用时,视觉点击管线使用 AI 视觉来定位并点击 UI 元素:
jaw browser vision-click "Submit button" --provider codex
管线流程:截图 → AI 视觉提取坐标 → DPR 校正 → 点击 → 验证。
提示中的
$computer-use 令牌会触发 Codex employee 执行桌面级自动化任务。macOS TCC 权限
在 macOS 上,桌面自动化需要屏幕录制和辅助功能权限。CLI-JAW 内置了 TCC 权限检查器:
# Check TCC permissions
jaw doctor --tcc
您可能需要在"系统偏好设置" > "隐私与安全性" > "屏幕录制"和"辅助功能"中授予权限。
Safari 提示
要进行 Safari 自动化,请在 Safari 的"开发"菜单中启用"允许远程自动化"。不过,通过 CDP 使用 Chrome 是推荐的最佳支持路径。
浏览器 API 端点
| 方法 | 路径 | 描述 |
|---|---|---|
| POST | /api/browser/start | 启动浏览器 |
| POST | /api/browser/stop | 停止浏览器 |
| GET | /api/browser/status | 浏览器状态 |
| GET | /api/browser/snapshot | 带 ref 的 DOM 快照 |
| POST | /api/browser/screenshot | 截取屏幕截图 |
| POST | /api/browser/act | 点击、输入、按键、悬停 |
| POST | /api/browser/vision-click | 基于视觉的点击 |
| POST | /api/browser/navigate | 导航到 URL |
运行时诊断
# Check browser runtime health
jaw browser status
# Doctor check for orphan processes
GET /api/browser/doctor
# Cleanup orphan runtimes
POST /api/browser/cleanup-runtimes