이제 뭐… 진짜 멀티모달로 가는 거 맞네 싶다.

138K271 2026. 2. 19. 12:37

요즘 AI 흐름 보면서 드는 생각 하나. "이제 뭐… 진짜 멀티모달로 가는 거 맞네 싶다."

Google 이 Gemini 앱에 음악 생성 기능 붙여버렸거든. 텍스트 챗봇이 슬슬 “크리에이티브 제작툴” 영역으로 넘어오는 구간 진입한 느낌.

말 한마디면 노래 완성되는 시대

이제 앱에서 그냥 이렇게 말하면 된다. “잔잔한 밤 감성 로파이 만들어줘”, “퇴근길 위로해주는 팝 발라드 하나”

그러면 끝. 뒤에서 DeepMind 의 Lyria 3 가 돌아가면서 결과를 통째로 만들어줘~

한 번에 나오는 구성 꽤 야무짐.

그냥 미니 싱글 패키지 바로 생성임. 심지어 이미지나 영상 던져놓고 “이 분위기에 맞는 음악 만들어줘”도 가능.

이거 릴스, 쇼츠, 틱톡 만드는 사람들 workflow 완전히 바뀔 포인트야~

이번 모델이 강조하는 건 현실감이랑 제어력. 프롬프트로 꽤 세밀하게 지정 가능해 보여.

그리고 바로 들어보고 수정 반복. 이 구조가 핵심이야~
AI가 음악 만들어주는 게 아니라, “음악 제작 인터페이스”가 된 거지.

여기서 중요한 확장 포인트 하나. YouTube 의 Dream Track 에도 같은 모델 들어가~

예전엔 일부 지역만 가능했는데 이제 글로벌 확장. 이게 의미하는 흐름은 명확해 보여. 영상 → 음악 제작 → 업로드
전부 한 플랫폼 안에서 해결~ 콘텐츠 제작 pipeline이 점점 “내부 생성형”으로 수렴 중.

공식 입장은 명확해 보여. 특정 가수 스타일 그대로 복제는 불가하고 느낌 참고 수준만 허용해.

그리고 모든 생성 음악에는 SynthID 워터마크가 박혀~ AI 생성 여부 나중에 검증 가능하게~

업계 논쟁 많은 거 생각하면 “최소한 구분은 가능하게 하자” 쪽 전략으로 보여!

플랫폼들은 이미 움직이는 중이야~

Spotify 같은 곳은 AI 음악 수익화 구조 실험 중이고 Deezer 는 AI 음악 식별 기능 강화 중이야!

즉 분위기 한 줄 요약하면 막을 수는 없고 관리하려는 단계라고 할까?

이건 기능 추가 뉴스가 아니라 서비스 설계 패턴이 바뀌는 신호야!

앞으로 기본 가정이 이렇게 바뀔 것 같아.. 텍스트 → 이미지 → 영상 → 음악
전부 생성 가능 즉 멀티모달은 옵션이 아니라 기본 전제. 특히 실무에서 바로 체감될 포인트 몇 개.

기획자 입장에서 제일 큰 변화는 이거. 콘텐츠 제작을 외부 리소스가 아니라 “시스템 기능”으로 설계해야 하는 시점 도착.

이제 진짜 AI랑 같이 만드는 시대 들어온 느낌.