컴퓨터 사용

CLI-JAW는 브라우저 CDP 통합과 Codex 기반 비전 클릭 파이프라인을 통해 데스크톱 자동화를 지원합니다. 에이전트는 스크린샷 촬영, 요소 클릭, 텍스트 입력, 탐색을 브라우저와 데스크톱 모두에서 수행할 수 있습니다.

두 가지 접근 방식

접근 방식방법적합한 용도
CDP (Chrome DevTools Protocol)src/browser/를 통한 브라우저 자동화웹 페이지, 정밀한 DOM 상호작용
Computer Use (CU)Codex employee를 통한 데스크톱 자동화네이티브 앱, 데스크톱 UI 상호작용

CDP 브라우저 자동화

CLI-JAW는 CDP를 통해 Chrome을 실행하고 제어합니다:

# Start browser
jaw browser start

# Take a screenshot
jaw browser screenshot

# Take a DOM snapshot with ref attributes
jaw browser snapshot

# Click an element by ref
jaw browser click ref123

# Type text into an element
jaw browser type ref456 "Hello World" --submit

# Navigate to a URL
jaw browser navigate https://example.com

# Get page text
jaw browser text

비전 클릭 파이프라인

DOM ref 속성이나 직접 좌표 지정이 적합하지 않은 경우, 비전 클릭 파이프라인은 AI 비전을 사용하여 UI 요소를 찾고 클릭합니다:

jaw browser vision-click "Submit button" --provider codex

파이프라인 흐름: 스크린샷 촬영 → AI 비전으로 좌표 추출 → DPR 보정 → 클릭 → 검증.

프롬프트에서 $computer-use 토큰을 사용하면 데스크톱 수준의 자동화 작업을 위해 Codex employee가 트리거됩니다.

macOS TCC 권한

macOS에서는 데스크톱 자동화를 위해 화면 녹화 및 손쉬운 사용 권한이 필요합니다. CLI-JAW에는 TCC 권한 확인 도구가 포함되어 있습니다:

# Check TCC permissions
jaw doctor --tcc

시스템 환경설정 > 개인정보 보호 및 보안 > 화면 녹화 및 손쉬운 사용에서 권한을 부여해야 할 수 있습니다.

Safari 팁

Safari 자동화를 사용하려면 Safari의 개발자 메뉴에서 "원격 자동화 허용"을 활성화하세요. 다만, CDP를 통한 Chrome이 권장되는 최적의 경로입니다.

브라우저 API 엔드포인트

메서드경로설명
POST/api/browser/start브라우저 시작
POST/api/browser/stop브라우저 중지
GET/api/browser/status브라우저 상태 확인
GET/api/browser/snapshotref가 포함된 DOM 스냅샷
POST/api/browser/screenshot스크린샷 촬영
POST/api/browser/act클릭, 입력, 키 누르기, 호버
POST/api/browser/vision-click비전 기반 클릭
POST/api/browser/navigateURL로 이동

런타임 진단

# Check browser runtime health
jaw browser status

# Doctor check for orphan processes
GET /api/browser/doctor

# Cleanup orphan runtimes
POST /api/browser/cleanup-runtimes