计算机控制

CLI-JAW 通过浏览器 CDP 集成和基于 Codex 的视觉点击管线支持桌面自动化。代理可以截取屏幕截图、点击元素、输入文本和导航——既支持浏览器,也支持桌面。

两种方式

方式方法最适用于
CDP (Chrome DevTools Protocol)通过 src/browser/ 进行浏览器自动化网页、精确的 DOM 交互
Computer Use (CU)通过 Codex employee 进行桌面自动化原生应用、桌面 UI 交互

CDP 浏览器自动化

CLI-JAW 通过 CDP 启动并控制 Chrome:

# Start browser
jaw browser start

# Take a screenshot
jaw browser screenshot

# Take a DOM snapshot with ref attributes
jaw browser snapshot

# Click an element by ref
jaw browser click ref123

# Type text into an element
jaw browser type ref456 "Hello World" --submit

# Navigate to a URL
jaw browser navigate https://example.com

# Get page text
jaw browser text

视觉点击管线

当 DOM ref 属性和直接坐标都不适用时,视觉点击管线使用 AI 视觉来定位并点击 UI 元素:

jaw browser vision-click "Submit button" --provider codex

管线流程:截图 → AI 视觉提取坐标 → DPR 校正 → 点击 → 验证。

提示中的 $computer-use 令牌会触发 Codex employee 执行桌面级自动化任务。

macOS TCC 权限

在 macOS 上,桌面自动化需要屏幕录制和辅助功能权限。CLI-JAW 内置了 TCC 权限检查器:

# Check TCC permissions
jaw doctor --tcc

您可能需要在"系统偏好设置" > "隐私与安全性" > "屏幕录制"和"辅助功能"中授予权限。

Safari 提示

要进行 Safari 自动化,请在 Safari 的"开发"菜单中启用"允许远程自动化"。不过,通过 CDP 使用 Chrome 是推荐的最佳支持路径。

浏览器 API 端点

方法路径描述
POST/api/browser/start启动浏览器
POST/api/browser/stop停止浏览器
GET/api/browser/status浏览器状态
GET/api/browser/snapshot带 ref 的 DOM 快照
POST/api/browser/screenshot截取屏幕截图
POST/api/browser/act点击、输入、按键、悬停
POST/api/browser/vision-click基于视觉的点击
POST/api/browser/navigate导航到 URL

运行时诊断

# Check browser runtime health
jaw browser status

# Doctor check for orphan processes
GET /api/browser/doctor

# Cleanup orphan runtimes
POST /api/browser/cleanup-runtimes