컴퓨터 사용
CLI-JAW는 브라우저 CDP 통합과 Codex 기반 비전 클릭 파이프라인을 통해 데스크톱 자동화를 지원합니다. 에이전트는 스크린샷 촬영, 요소 클릭, 텍스트 입력, 탐색을 브라우저와 데스크톱 모두에서 수행할 수 있습니다.
두 가지 접근 방식
| 접근 방식 | 방법 | 적합한 용도 |
|---|---|---|
| CDP (Chrome DevTools Protocol) | src/browser/를 통한 브라우저 자동화 | 웹 페이지, 정밀한 DOM 상호작용 |
| Computer Use (CU) | Codex employee를 통한 데스크톱 자동화 | 네이티브 앱, 데스크톱 UI 상호작용 |
CDP 브라우저 자동화
CLI-JAW는 CDP를 통해 Chrome을 실행하고 제어합니다:
# Start browser
jaw browser start
# Take a screenshot
jaw browser screenshot
# Take a DOM snapshot with ref attributes
jaw browser snapshot
# Click an element by ref
jaw browser click ref123
# Type text into an element
jaw browser type ref456 "Hello World" --submit
# Navigate to a URL
jaw browser navigate https://example.com
# Get page text
jaw browser text
비전 클릭 파이프라인
DOM ref 속성이나 직접 좌표 지정이 적합하지 않은 경우, 비전 클릭 파이프라인은 AI 비전을 사용하여 UI 요소를 찾고 클릭합니다:
jaw browser vision-click "Submit button" --provider codex
파이프라인 흐름: 스크린샷 촬영 → AI 비전으로 좌표 추출 → DPR 보정 → 클릭 → 검증.
프롬프트에서
$computer-use 토큰을 사용하면 데스크톱 수준의 자동화 작업을 위해 Codex employee가 트리거됩니다.macOS TCC 권한
macOS에서는 데스크톱 자동화를 위해 화면 녹화 및 손쉬운 사용 권한이 필요합니다. CLI-JAW에는 TCC 권한 확인 도구가 포함되어 있습니다:
# Check TCC permissions
jaw doctor --tcc
시스템 환경설정 > 개인정보 보호 및 보안 > 화면 녹화 및 손쉬운 사용에서 권한을 부여해야 할 수 있습니다.
Safari 팁
Safari 자동화를 사용하려면 Safari의 개발자 메뉴에서 "원격 자동화 허용"을 활성화하세요. 다만, CDP를 통한 Chrome이 권장되는 최적의 경로입니다.
브라우저 API 엔드포인트
| 메서드 | 경로 | 설명 |
|---|---|---|
| POST | /api/browser/start | 브라우저 시작 |
| POST | /api/browser/stop | 브라우저 중지 |
| GET | /api/browser/status | 브라우저 상태 확인 |
| GET | /api/browser/snapshot | ref가 포함된 DOM 스냅샷 |
| POST | /api/browser/screenshot | 스크린샷 촬영 |
| POST | /api/browser/act | 클릭, 입력, 키 누르기, 호버 |
| POST | /api/browser/vision-click | 비전 기반 클릭 |
| POST | /api/browser/navigate | URL로 이동 |
런타임 진단
# Check browser runtime health
jaw browser status
# Doctor check for orphan processes
GET /api/browser/doctor
# Cleanup orphan runtimes
POST /api/browser/cleanup-runtimes