핵심 개념
프로바이더 & 모델
이미지 생성은 세 프로바이더 경로 중 하나로 실행됩니다: 로컬 Codex/ChatGPT OAuth 로그인, 설정된 OpenAI API key, 또는 번들 Grok/progrok xAI 경로.
프로바이더 경로
provider: "oauth"— 로컬 Codex OAuth 프록시를 사용합니다. 기본 경로이며 API key가 필요 없습니다.provider: "api"— 호스티드image_generation도구로 OpenAI Responses API를 호출합니다.OPENAI_API_KEY가 필요합니다.provider: "grok"— 번들progrok을 시작하고, 필수 xAI Web Search와grok-4.3planner를 거친 뒤 xAI Images API를 호출합니다.
OAuth, API key, Grok 생성은 Classic, Node, Agent Mode를 지원합니다. Agent Mode는 웹 UI 전용이고, Classic과 Node는 CLI도 있습니다.
요청 단위 오버라이드
생성 명령은 --provider <auto|oauth|api|grok>를 받습니다:
| 값 | 동작 |
|---|---|
auto | 라우트 기본 동작 유지; 현재는 OAuth로 해석됩니다. |
oauth | 로컬 OAuth 프록시 경로 강제. |
api | API key Responses 경로 강제; 설정된 key가 필요합니다. |
grok | 127.0.0.1:18645의 번들 xAI 경로 강제. 최초 1회 ima2 grok login으로 인증합니다. |
모델
앱은 빠른 로컬 반복을 위해 gpt-5.4-mini를 기본값으로 씁니다. 가장 안전한 균형
워크플로에는 gpt-5.4로 전환하세요.
| 모델 | 용도 |
|---|---|
gpt-5.4-mini | 현재 기본값. 더 빠른 초안 모델. |
gpt-5.4 | 권장 균형 선택지. |
gpt-5.5 | Codex CLI/OAuth 백엔드가 지원할 때 가장 강한 품질. 할당량을 더 쓰거나 Codex CLI 업데이트가 필요할 수 있습니다. |
grok-imagine-image | 기본 Grok 이미지 모델. |
grok-imagine-image-quality | 고품질 Grok 이미지 모델. Grok Node high quality 요청에서도 선택됩니다. |
grok-imagine-video | 기본 Grok 비디오 모델 (T2V/I2V). |
grok-imagine-video-1.5-preview | 개선된 품질의 프리뷰 Grok 비디오 모델. |
앱은 품질(low, medium, high)과 moderation(auto,
low) 컨트롤도 제공합니다. reasoning effort는 none, low, medium, high, xhigh를 받습니다.
ima2 defaults set model gpt-5.5와
ima2 defaults set reasoning high는 OAuth와 API 프로바이더 기본 키를 모두 기록해,
"기본 모델"이 두 경로에서 하나의 개념으로 유지됩니다.
Grok 파이프라인
Grok Classic, Node, Agent 요청은 세 단계로 동작합니다: 필수 xAI Web Search,
영어 최종 이미지 프롬프트를 만드는 grok-4.3 planning, 그리고 xAI 이미지 생성.
텍스트만 있는 요청은 /v1/images/generations를 쓰고, 레퍼런스 이미지·Node 부모 이미지·Agent 현재 이미지가 있으면
image-to-image 문맥을 유지하기 위해 /v1/images/edits를 씁니다. 이 경로의 입력 이미지는 총 세 장까지입니다.
ima2는 OpenAI식 size를 xAI aspect_ratio와 resolution 컨트롤로 매핑합니다.
Grok mask edit은 이번 릴리스에 연결되지 않았고 GROK_MASK_UNSUPPORTED를 반환합니다.
Grok 비디오
Grok 비디오 생성은 grok-imagine-video(기본) 또는
grok-imagine-video-1.5-preview를 사용합니다. 세 가지 모드가 레퍼런스 수에서 자동
감지됩니다: text-to-video (0개), image-to-video (1개), reference-to-video (2–7개, 최대 10초).
컨트롤: 길이(1–15초), 해상도(480p, 720p), 화면비. 엔드포인트
POST /api/video/generate는 SSE 이벤트를 스트리밍합니다: planning → submitted →
progress → done. CLI: ima2 video "prompt" --duration 5 --resolution 720p.
API 프로바이더 기본값
API 경로를 명시적 옵션 없이 사용하면 다음 기본값이 적용됩니다:
| 변수 | 기본값 |
|---|---|
IMA2_API_IMAGE_MODEL_DEFAULT | gpt-5.4-mini |
IMA2_API_REASONING_EFFORT | low |
IMA2_API_IMAGE_SIZE | 1024x1024 |
IMA2_API_ALLOW_WEB_SEARCH | true |
전체 환경 변수 표는 설정을 보세요.