핵심 개념

생성 모드

ima2-gen은 이미지를 만들고 다듬는 다섯 가지 방식을 제공합니다. 작업 흐름에 맞게 고르세요.

Classic

한 프롬프트, 한 장의 강한 프레임. 프롬프트를 쓰고, 레퍼런스를 다섯 장까지 붙이고, 모델·품질·크기·포맷·moderation을 고른 뒤 생성합니다. 복사·다운로드하거나, 결과에서 이어가거나, Canvas Mode로 보냅니다.

Node

한 프레임, 열 갈래. 기준 이미지를 고정하고 색감·구도·카피로 자식을 펼칩니다. 각 노드는 자기 프롬프트와 결과를 가집니다; 루트 노드는 로컬 레퍼런스를 붙이고 자식 노드는 부모 이미지를 소스로 씁니다. 완료된 작업은 request ID로 노드에 다시 매칭되므로, 새로고침이나 그래프 버전 충돌에서도 완료 결과를 복구할 수 있습니다.

Multimode

하나의 프롬프트에서 여러 후보. Classic 모드에서 시퀀스를 실행하고, 슬롯별 진행을 보면서 필요할 때 취소하고, 가장 강한 결과에서 이어갑니다. CLI에서는 phase, partial, image 이벤트를 스트리밍합니다.

Canvas Mode

마음에 든 프레임 정리하기. 확대된 이미지를 선택과 분리해 이동하고, 수정 지점을 표시하고, 미리보기 마스크로 배경을 정리한 뒤 투명(alpha) 또는 matte 버전으로 export합니다. 저장된 canvas 버전은 갤러리에서 숨겨지지만 다음 레퍼런스로 다시 쓸 수 있습니다.

Video

텍스트, 단일 이미지, 또는 여러 레퍼런스 이미지에서 짧은 비디오를 생성합니다. Grok 비디오 모델 (grok-imagine-video, 정식 grok-imagine-video-1.5; preview는 alias)을 사용합니다. 모드는 자동 감지됩니다: 0개 ref → text-to-video, 1개 ref → image-to-video, 2–7개 ref → reference-to-video (최대 10초). 컨트롤: 길이(1–15초), 해상도(480p, 720p, 1.5 단일 이미지/프레임 I2V의 1080p), 화면비. CLI는 SSE progress 이벤트를 스트리밍하고, UI는 in-flight 큐에서 planning → generating → X% 진행을 표시합니다.

Grok 플래너(기본 grok-4.3, 비디오 설정 또는 --planner-model로 변경)가 웹 검색 맥락과 함께 프롬프트를 재작성한 뒤 생성합니다. 다인물 장면에서는 플래너가 이름 대신 외형(의상, 체형, 위치, 소품)으로 화자를 식별해 클립 간 대사 귀속을 일관되게 유지합니다.

비디오 결과에는 First, Mid, Last 프레임 버튼이 있어 키프레임을 추출·복사하고, 스토리보드 체인이나 레퍼런스 첨부에 쓸 수 있습니다.

스토리보드

컴포저에서 스토리보드 모드를 켜면 순차 프레임 간 인물·장면 연속성을 유지합니다. 이미지 키프레임은 영상 제작용으로 구성되고, 영상 클립은 캐릭터·환경 잠금 규칙을 이어받습니다. 이미지· 영상 생성 모두에서 동작합니다. CLI에서는 ima2 video(및 ima2 video continue)에 --storyboard를 전달하세요.

Agent

원하는 걸 설명하면 에이전트가 반복합니다. Agent 모드는 대화형 이미지 워크스페이스입니다: 각 세션은 현재 이미지, 턴 기록, 스타일/주제 잠금, durable 큐를 유지해 병렬·자동 생성 작업이 재연결에도 살아남습니다. 슬래시 명령과 /question을 지원하며 웹 UI에서 동작합니다 (ima2 agent CLI 명령은 없습니다). provider: "grok"일 때 Agent Mode는 Classic·Node와 같은 search + planner + xAI Images API 경로를 사용합니다.

프롬프트 라이브러리 & 가져오기

프롬프트 라이브러리를 로컬 파일, GitHub 폴더, 추천 소스, GPT-image hint pack에서 채웁니다. 가져온 프롬프트는 로컬에 인덱싱되어 매 세션 다시 가져오지 않아도 검색·랭킹이 동작합니다. 컨트롤 단위 설명은 Prompt Studio 매뉴얼을 보세요.

아키텍처 프로바이더 & 모델