AI가 이미지 속 글자를 틀리던 시대는 끝났다 — ChatGPT Images 2.0

2년 전 AI 이미지 생성기에 멕시코 음식 메뉴판을 만들어달라고 했을 때 나온 결과물에는 “enchuita”, “churiros”, “burrto” 같은 존재하지 않는 음식 이름들이 가득했어요. AI 이미지 도구를 써본 사람이라면 텍스트가 이상하게 나온 경험이 한 번쯤 있을 거예요.

OpenAI가 4월 21일 출시한 ChatGPT Images 2.0은 그 불편함을 정면으로 건드렸어요.


2년 만에 이렇게 달라졌다

같은 멕시코 메뉴판 요청에 TechCrunch 기자는 Images 2.0이 만들어낸 결과물이 실제 식당에서 바로 써도 될 수준이라고 평가했어요. 직접 확인해보고 싶어서 저도 한국어로 같은 요청을 해봤는데, 이런 결과물이 나왔어요.

ChatGPT Images 2.0으로 직접 생성한 한국어 멕시코 메뉴판

타코, 부리또, 나초, 케사디야 – 음식 이름, 설명, 가격 전부 한 글자도 틀리지 않았어요. 도입부에서 언급한 “enchuita”, “churiros” 같은 오류가 하나도 없어요.

기존 이미지 생성 모델들이 텍스트에 약했던 건 기술 구조 때문이었어요. 이미지 전체에서 더 많은 픽셀을 차지하는 패턴에 집중해서 학습하다 보니, 글자처럼 작은 영역은 정확하게 만들어내기 어려웠어요. OpenAI는 Images 2.0에 어떤 구조를 적용했는지 공개하지 않았지만, 결과물이 그 변화를 직접 보여주고 있어요.


이미지를 만들기 전에 먼저 생각한다

텍스트 개선만큼 주목할 변화가 또 있어요. Images 2.0에는 추론 기능이 추가됐어요. 이미지를 만들기 전에 웹을 검색하고, 하나의 프롬프트에서 여러 이미지를 만들어본 뒤, 결과물을 스스로 검토해요.

다만 알아둘 점이 있어요. 추론 과정이 들어가는 만큼 생성 속도가 일반 ChatGPT 질문보다 느려요. 복잡한 이미지도 몇 분 안에 나오긴 하지만 즉각적인 결과를 기대하면 다를 수 있어요.

한국어, 일본어, 힌디어, 벵골어 같은 비라틴 문자 처리도 이번에 크게 개선됐어요. 위 메뉴판처럼 한국어 텍스트가 들어간 이미지를 이제 한 번에 만들 수 있어요. 지금까지는 AI로 배경을 만들고 Canva에서 텍스트를 따로 올리는 두 단계가 필요했는데, 그 번거로움이 줄어드는 거예요.

현재 모든 ChatGPT와 Codex 사용자가 접근할 수 있고, 유료 사용자는 추론 기능 등 더 고급 기능을 쓸 수 있어요. gpt-image-2 API도 별도 출시될 예정이에요.


AI 이미지 도구가 ‘진짜 도구’가 되는 시점

솔직히 말하면 지금까지 AI 이미지 생성은 반쪽짜리 도구였어요. 배경이나 분위기는 잘 만들어주는데, 텍스트가 들어가는 순간 손이 더 가는 경우가 많았으니까요.

Images 2.0이 텍스트를 제대로 처리하기 시작했다는 건 의미 있는 변화예요. 아직 모든 상황에서 완벽하지는 않겠지만, 이 기술이 2년 사이에 얼마나 빠르게 바뀌었는지 보면 앞으로의 방향이 느껴져요.

여러분은 AI로 이미지를 만들다가 텍스트 때문에 포기하거나 다른 툴로 넘어간 경험이 있으신가요?

“AI가 이미지 속 글자를 틀리던 시대는 끝났다 — ChatGPT Images 2.0”에 대한 1개의 생각

  1. 핑백: AI 이미지 확인 — OpenAI가 직접 만든 검증 도구 - neulbai.com

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다