본문 바로가기

AI

구글 딥마인드의 Genie 3, 텍스트 한 줄로 세계를 만든다고?

2025년 8월 5일, 구글 딥마인드가 또 한 번 판을 흔들었어. 이름하여 Genie 3. 이건 단순한 AI 모델이 아니라, 말 그대로 "세계를 만드는 AI"야. 한 문장으로도 3D 가상 세계를 뚝딱 만들어내고, 그 안에서 실시간 상호작용까지 가능하다는 거.

이젠 그냥 상상하는 게 아니라, 상상한 걸 직접 체험할 수 있는 시대가 온 거지.

 

이게 무슨 소리냐고?

예를 들어서, "거실에서 고양이가 창밖을 보고 있는 장면을 보여줘"라고 입력하면? 고양이가 있는 가상 거실이 뿅 하고 생기고, 걔가 창밖을 진짜로 바라보고 있어. 벽에 낙서를 해도, 다시 돌아오면 그대로 남아 있고. 이건 게임도 아니고 영상도 아니고, 진짜 AI가 프레임 하나하나를 그때그때 만들어내는 세계야.

그리고 이게 진짜 혁신적인 건, Genie 3가 물리 엔진을 하드코딩한 게 아니라 스스로 물리 법칙을 학습했다는 점이야.

유리잔이 테두리에 있으면 떨어질 것 같다는 감각을 Genie 3도 갖고 있다는 거지. 인간처럼 직관적으로 세상을 이해한다고 봐도 무방해.

 

[이미지출처: Gemini에서 이미지 생성]

 

진짜 많이 발전했네

이전 버전인 Genie 2는 10초~20초 분량밖에 못 만들었는데, Genie 3는 이제 몇 분 동안 일관된 세상을 유지해. 프레임도 720p에 24fps로, 영화급 화질에 실시간 반응까지. 심지어 1분 정도의 시각적 기억까지 남겨두는 기능도 있어서, 예전에 있었던 이벤트도 기억해.

또 놀라운 기능이 바로 Promptable World Events. "비가 와"라고 하면 비가 내리고, "캐릭터 하나 추가해줘" 하면 새로운 캐릭터가 생겨. 가상 세계의 신이 된 기분이랄까?

 

어디에 쓸 수 있을까?

딥마인드는 이걸 교육, 재난 훈련, 과학 실험, 역사 재현 같은 데에 활용할 수 있다고 보고 있어.

예를 들어 위험한 상황에서 훈련을 반복하거나, 고대 로마 시대를 체험하는 교육을 만든다든가 말이지.

이거 진짜 메타버스랑은 완전 차원이 다른 이야기야.

그리고 Genie 3는 SIMA 같은 AI 에이전트를 훈련시키는 데도 딱 좋아. 텍스트 기반으로 명령하고 그걸 수행하는 방식이라서, 앞으로 AGI로 가는 데 중요한 역할을 할 수도 있어.

 

아직은 제약도 있어

물론 Genie 3도 완벽하진 않아. 지속 상호작용은 아직 수 분 정도로 제한돼 있고, 가능한 행동들도 아직 좀 제한적이야.

텍스트 렌더링도 명시적으로 지시해야만 명확하게 보이고, 복잡한 다중 에이전트 상호작용은 아직 어렵지.

하지만 이건 시작에 불과하다고 봐. 지금의 Genie 3는 그냥 티저고,

앞으로는 이 모델이 우리가 생각하는 "가상 세계"라는 개념을 다시 정의하게 만들 거야.

 

내 생각은 말이지…

이거, 진짜 무섭고도 기대돼. 텍스트로 세계를 만들 수 있다는 건, 창작자, 개발자, 심지어 일반 유저까지도 완전히 새로운 방식으로 콘텐츠를 만들 수 있다는 뜻이야. 이제는 상상력과 아이디어만 있으면, 누구나 자신만의 세계를 만들 수 있는 시대가 된 거지.

근데 동시에, 현실과 가상의 경계가 점점 흐려지는 게 좀 무섭기도 해. 이게 교육, 게임, 훈련까지는 좋은데, 만약 누가 악의적으로 사용한다면? 예를 들어 조작된 현실을 만들어서 사람을 속이거나, 진짜 현실과 구분 못할 정도로 몰입시키면…? 딥마인드가 연구자한테만 제한적으로 공개한 것도 그런 이유 아닐까 싶어.

그래도 결국 기술은 어떻게 쓰느냐에 따라 무기가 되기도 하고, 도구가 되기도 하잖아. Genie 3는 분명히 AI 역사에서 중요한 이정표야. 앞으로 이 기술이 어디까지 발전할지, 그리고 우리가 이걸 어떻게 써야 할지, 이제 진짜 고민해봐야 할 때가 온 것 같아.