예전에는 AI 이미지 생성기를 보면 딱 이런 느낌이 있었어.
“와, 그림은 그럴듯한데… 글자는 왜 이렇게 외계어지?”
특히 메뉴판, 포스터, 앱 화면, 안내문처럼 텍스트가 중요한 작업에서는 더 그랬지.
예쁜 배경은 잘 만들었는데 정작 핵심 문구가 “enchuita”, “burrto”, “margartas”처럼 이상하게 나와서 결국 사람이 다시 포토샵을 열어야 했어. 그런데 이번에 OpenAI가 공개한 ChatGPT Images 2.0은 이 흐름을 꽤 크게 바꿔버렸어.
이제는 단순히 “그림 잘 그리는 AI”가 아니라, 텍스트까지 이해하고, 배치하고, 스스로 점검하는 수준으로 올라왔거든.
한마디로 말하면, 이미지 생성기가 아니라“멀티모달 저작 도구”가 되어가고 있다는 이야기야.

예전엔 밈이었던 메뉴판, 이제는 그냥 출력해도 된다
두 해 전만 해도 AI에게 멕시칸 레스토랑 메뉴판을 만들어달라고 하면 거의 인터넷 밈 수준의 결과가 나왔어.
타코는 타코가 아닌 것 같고, 브리또는 burrto가 되고, 마가리타는 margartas가 되어버렸지. 그래서 업계에서는 늘 이런 말이 있었어.
“아직은 사람이 마지막 마무리를 해야 해.” 그런데 ChatGPT Images 2.0은 여기서 확실히 달라졌어.
같은 메뉴판을 시켜도 텍스트 정렬, 폰트 느낌, 가격 배치, 정보 구조가 꽤 자연스럽고 실제로 바로 인쇄해서 써도 될 정도라는 평가가 나오고 있어. 물론 13.50달러짜리 세비체를 보면 “이거 너무 싼 거 아닌가?” 싶은 의심은 들 수 있어.
하지만 적어도 맞춤법 때문에 웃을 일은 거의 없어졌다는 게 핵심이야. 이건 생각보다 엄청 큰 변화야.
왜냐하면 실무에서는 ‘이미지 퀄리티’보다 ‘텍스트 신뢰도’가 더 중요할 때가 많거든.
왜 AI는 그동안 글자를 그렇게 못 썼을까
이건 모델 구조 때문이야. 기존 이미지 생성 모델 대부분은 디퓨전(diffusion) 방식이었어. 쉽게 말하면 노이즈 덩어리에서 점점 이미지를 복원해가는 구조야. 문제는 여기서 글자는 이미지 전체에서 차지하는 비중이 너무 작다는 거야.
모델 입장에서는
- 사람 얼굴
- 음식
- 배경
- 조명
- 질감
이런 큰 패턴이 훨씬 중요해.
반면 글자는 작은 픽셀 조각에 가까워. 그러니까 자연스럽게 “글자는 나중 문제”가 되어버린 거지. 그래서 이미지는 멋졌는데
텍스트는 늘 망가졌던 거야.
이제는 이미지도 LLM처럼 생각한다
2024년부터 연구자들이 주목하기 시작한 방식이 오토리그레시브(autoregressive) 모델이야.
이건 이미지를 그냥 그림이 아니라 하나의 시퀀스, 즉 순서 있는 토큰처럼 보는 방식이야. 쉽게 말하면 LLM이 문장을 한 단어씩 예측하듯
이미지도 한 칸씩 예측하는 거야. 이 방식은 텍스트와 훨씬 잘 맞아.
예전에는 “이미지를 복원”했다면 지금은 “의미를 예측”하는 느낌에 가까워.
정리하면 이거야.
예전에는 이미지 중심 사고였다면
지금은 이미지와 텍스트를 같은 언어처럼 다루기 시작한 거야.
그래서 이제는 이미지 모델을 따로 보는 게 아니라 거의 LLM의 확장판처럼 느껴지는 거지.
OpenAI는 이걸 ‘생각하는 이미지 모델’이라고 부른다
이번에 흥미로운 부분은 OpenAI가 이걸 단순한 이미지 엔진이라고 부르지 않는다는 거야.
직접 “thinking image model” 즉 생각하는 이미지 모델이라고 표현했어. 이게 왜 중요하냐면, 그냥 그림 생성이 아니라 판단과 검토가 들어간다는 뜻이거든. 대표적으로 이런 기능들이 있어.
웹 검색 기반 생성
이미지를 만들기 전에 웹에서 정보를 찾아보고 반영할 수 있어.
예를 들어 특정 브랜드 스타일, 최신 트렌드, 실제 정보 기반 디자인 같은 걸 더 잘 맞출 수 있다는 뜻이야.
하나의 프롬프트로 여러 버전 생성
예를 들면 이런 거지. “여름 프로모션 캠페인용 배너 만들어줘” 가로형 배너, 세로형 포스터, SNS 카드뉴스, 썸네일 이미지 등을 한 번에 뽑아낼 수 있어. 이건 진짜 마케터들이 좋아할 기능이야.
결과물 자기 점검
이게 꽤 중요해. 모델이 만든 결과를 “내가 요청 조건을 제대로 지켰나?” 스스로 다시 확인하는 루프가 있다는 거야.
그래서 작은 텍스트, 아이콘, UI 요소, 촘촘한 레이아웃 같은 부분에서 정확도가 확 올라갔어.
이건 단순 생성보다 훨씬 실무적인 접근이야.
이제 진짜 디자인 파이프라인에 들어갈 수 있다
예전에는 AI가 만든 포스터를 보면 배경은 쓸만했지만 결국 텍스트 수정, 폰트 정리, 레이아웃 조정, 은 사람이 다시 해야 했어.
즉, 초안만 가능했지.
그런데 지금은 텍스트까지 포함된 완성형 소재를 통째로 뽑아낼 수 있는 수준으로 가고 있어.
특히
- 멀티 패널 코믹
- 웹툰 스타일 구성
- 광고 크리에이티브
- 다양한 비율의 캠페인 소재
같은 작업에서 체감이 커. 물론 생성 속도는 텍스트 채팅보다 느려. 하지만 사람이 몇 시간 걸릴 작업을 몇 분 안에 만들 수 있다면 충분히 게임이 달라지는 거야.
한국어 지원 강화, 이게 진짜 중요하다
국내 사용자 입장에서 가장 반가운 건 비라틴 문자 지원 강화야.
OpenAI는 한국어, 일본어, 힌디, 벵골어 등과 같은 언어의 텍스트 렌더링 정확도가 크게 개선됐다고 했어.
이건 생각보다 엄청 중요해. 그동안 한국어로
- 카페 메뉴판
- 아파트 안내문
- 앱스토어 스크린샷
- 서비스 소개 카드뉴스
를 만들면 글자가 깨지고 자모가 섞이고 뜻이 이상해지는 일이 너무 많았거든. 실제로 써보면 “와 거의 됐다”가 아니라
“아직 멀었네…”였어. 이번에는 그 간극이 꽤 줄어들었다는 게 핵심이야. 이제는 진짜 실무 투입을 고민할 수 있는 단계가 된 거지.
기획자와 블로거에게 더 재미있는 이유
나는 이 부분이 더 중요하다고 봐. 이제 이미지 생성은 디자이너만의 도구가 아니야. 서비스 기획자나 PM에게도 엄청 강력한 무기가 될 수 있어.
신규 서비스 UI 시안
“핀테크 앱 온보딩 화면 3종 - 한국어 포함 미니멀 스타일” 이렇게 던지면 피그마 들어가기 전에 방향 감을 바로 잡을 수 있어.
블로그 썸네일 + 본문 삽화
긴 글을 쓰다 보면 설명을 한 장의 이미지로 압축하고 싶을 때가 있잖아.
그걸 빠르게 만들 수 있어. 특히 기술 블로그에서는 ‘시각적 메타포’가 엄청 중요하거든.
발표자료용 아키텍처 이미지
“서비스 구조를 설명하는 일러스트 한국어 라벨 포함” 이런 것도 훨씬 빨라져. 기획자는 결국 설명하는 사람이니까.
이건 엄청 강력한 생산성 도구가 돼.
결국 이건 이미지 모델이 아니라 크리에이티브 자동화 엔진이다
이번 업데이트를 “AI가 이제 맞춤법 잘 쓴다” 정도로 보면 너무 아쉬워.
진짜 중요한 건 이미지 모델이 이제 기획, 카피, 디자인, 검수 를 함께 다루는 멀티모달 저작 도구가 되었다는 점이야.
텍스트 → 이미지 → 다시 점검 이 흐름이 하나의 대화 안에서 끝나기 시작했어. 이건 포토샵 플러그인 수준이 아니라 크리에이티브 생산 방식 자체가 바뀌는 이야기야.
그래서 앞으로 어떻게 써먹어야 할까
개인적으로는 단순히 “와 신기하다”에서 끝내면 아깝다고 생각해.
오히려 중요한 건 실험이야.
예를 들면
- AI에게 브랜드 전체를 맡겨보기
- 한국어 메뉴판 품질 비교하기
- 실제 서비스 기획안으로 UI 시안 만들기
- 투자자 발표자료 이미지 자동 생성하기
이런 식으로 실무에 붙여봐야 진짜 가치가 보여. 앞으로 블로그도 뉴스 요약보다 “실무자가 직접 써본 기록” 이 훨씬 더 강해질 거야.
한 줄 정리
ChatGPT Images 2.0은 이제 그림을 잘 그리는 AI가 아니라
텍스트까지 이해하고 디자인을 구성하고 스스로 검토하는 진짜 크리에이티브 파트너에 가까워졌어.
특히 한국어 지원 강화는 국내 실무자에게 꽤 큰 변곡점이 될 가능성이 높아.
이제 질문은 “AI가 디자이너를 대체할까?”가 아니라 “누가 이걸 먼저 제대로 workflow에 넣을까?”가 아닐까 싶어.
'AI' 카테고리의 다른 글
| 이제 전쟁도 AI 멀티벤더 시대 (0) | 2026.05.10 |
|---|---|
| AI가 대신 흥정하는 시대, 이미 시작됐어 (0) | 2026.05.01 |
| Codex vs Claude Code, 이제 IDE 싸움 아니다 (0) | 2026.04.21 |
| 위험하다고 하면서왜 다들 앤트로픽을 놓지 못할까 (0) | 2026.04.20 |
| 로컬 LLM 속도, 모델이 아니라 서빙 엔진에서 갈린다 (0) | 2026.04.15 |