핵심 개념

프로바이더 & 모델

이미지 생성은 세 프로바이더 경로 중 하나로 실행됩니다: 로컬 Codex/ChatGPT OAuth 로그인, 설정된 OpenAI API key, 또는 번들 Grok/progrok xAI 경로.

프로바이더 경로

  • provider: "oauth" — 로컬 Codex OAuth 프록시를 사용합니다. 기본 경로이며 API key가 필요 없습니다.
  • provider: "api" — 호스티드 image_generation 도구로 OpenAI Responses API를 호출합니다. OPENAI_API_KEY가 필요합니다.
  • provider: "grok" — 번들 progrok을 시작하고, 필수 xAI Web Search와 grok-4.3 planner를 거친 뒤 xAI Images API를 호출합니다.

OAuth, API key, Grok 생성은 Classic, Node, Agent Mode를 지원합니다. Agent Mode는 웹 UI 전용이고, Classic과 Node는 CLI도 있습니다.

요청 단위 오버라이드

생성 명령은 --provider <auto|oauth|api|grok>를 받습니다:

동작
auto라우트 기본 동작 유지; 현재는 OAuth로 해석됩니다.
oauth로컬 OAuth 프록시 경로 강제.
apiAPI key Responses 경로 강제; 설정된 key가 필요합니다.
grok127.0.0.1:18645의 번들 xAI 경로 강제. 최초 1회 ima2 grok login으로 인증합니다.

모델

앱은 빠른 로컬 반복을 위해 gpt-5.4-mini를 기본값으로 씁니다. 가장 안전한 균형 워크플로에는 gpt-5.4로 전환하세요.

모델용도
gpt-5.4-mini현재 기본값. 더 빠른 초안 모델.
gpt-5.4권장 균형 선택지.
gpt-5.5Codex CLI/OAuth 백엔드가 지원할 때 가장 강한 품질. 할당량을 더 쓰거나 Codex CLI 업데이트가 필요할 수 있습니다.
grok-imagine-image기본 Grok 이미지 모델.
grok-imagine-image-quality고품질 Grok 이미지 모델. Grok Node high quality 요청에서도 선택됩니다.
grok-imagine-video기본 Grok 비디오 모델 (T2V/I2V).
grok-imagine-video-1.5-preview개선된 품질의 프리뷰 Grok 비디오 모델.

앱은 품질(low, medium, high)과 moderation(auto, low) 컨트롤도 제공합니다. reasoning effort는 none, low, medium, high, xhigh를 받습니다.

영속 기본값. ima2 defaults set model gpt-5.5ima2 defaults set reasoning high는 OAuth와 API 프로바이더 기본 키를 모두 기록해, "기본 모델"이 두 경로에서 하나의 개념으로 유지됩니다.

Grok 파이프라인

Grok Classic, Node, Agent 요청은 세 단계로 동작합니다: 필수 xAI Web Search, 영어 최종 이미지 프롬프트를 만드는 grok-4.3 planning, 그리고 xAI 이미지 생성. 텍스트만 있는 요청은 /v1/images/generations를 쓰고, 레퍼런스 이미지·Node 부모 이미지·Agent 현재 이미지가 있으면 image-to-image 문맥을 유지하기 위해 /v1/images/edits를 씁니다. 이 경로의 입력 이미지는 총 세 장까지입니다.

ima2는 OpenAI식 size를 xAI aspect_ratioresolution 컨트롤로 매핑합니다. Grok mask edit은 이번 릴리스에 연결되지 않았고 GROK_MASK_UNSUPPORTED를 반환합니다.

Grok 비디오

Grok 비디오 생성은 grok-imagine-video(기본) 또는 grok-imagine-video-1.5-preview를 사용합니다. 세 가지 모드가 레퍼런스 수에서 자동 감지됩니다: text-to-video (0개), image-to-video (1개), reference-to-video (2–7개, 최대 10초). 컨트롤: 길이(1–15초), 해상도(480p, 720p), 화면비. 엔드포인트 POST /api/video/generate는 SSE 이벤트를 스트리밍합니다: planning → submitted → progress → done. CLI: ima2 video "prompt" --duration 5 --resolution 720p.

API 프로바이더 기본값

API 경로를 명시적 옵션 없이 사용하면 다음 기본값이 적용됩니다:

변수기본값
IMA2_API_IMAGE_MODEL_DEFAULTgpt-5.4-mini
IMA2_API_REASONING_EFFORTlow
IMA2_API_IMAGE_SIZE1024x1024
IMA2_API_ALLOW_WEB_SEARCHtrue

전체 환경 변수 표는 설정을 보세요.