AI 시장에 요즘 제일 뜨거운 단어가 뭔지 알아? 바로 “Rubin CPX”.
엔비디아가 갑자기 “우리 이제 프리필 전용 GPU 하나 더 냈어~” 하고 내놓은 칩인데, 이게 그냥 라인업 추가가 아니라 AI 추론 시장의 판도를 갈아엎을 수도 있는 전략 카드야. 특히 중요한 포인트는 하나야 "HBM 없이도 구글 TPU에 맞선다. 그것도 GDDR7"
이거, 진짜 게임이 달라질 수도 있다?

왜 하필 지금 Rubin CPX가 튀어나왔을까?
솔직히 말해서, 엔비디아 입장에서는 구글 TPU의 성장 속도가 좀 부담스러웠을 거야.
- TPU는 더 이상 구글만 쓰는 게 아니라 메타에도 공급
- AWS에도 팔겠다고 선언
- 특히 추론 시장에서 너무 빠르게 성장
학습은 한 번 하면 끝이지만, 추론은 유저가 늘어날수록 필요하잖아?
즉, 돈이 계속 들어오는 시장이 바로 추론. 그 시장을 TPU가 막 잠식하기 시작하니까 엔비디아가 “어? 이대로 두면 안 되겠는데?” 하고 준비해둔 비장의 카드를 꺼낸 거지.
그게 바로 Rubin CPX.
LLM 추론, 사실 두 조각으로 나뉘는 거 알고 있었어?
Rubin CPX가 왜 의미 있는지 먼저 추론 구조를 알아야 해.
프리필(Prefill): 입력된 문장·문서·이미지·영상 같은 덩치 큰 데이터를 한 번에 쫙 훑어보는 단계
- 연산이 미친 듯이 많아 메모리는 상대적으로 덜 필요. 토큰 병렬 처리 가능
디코드(Decode): 이제 답변을 생성하는 단계. 한 단어씩 앞에 나온 걸 보면서 순차적으로 진행
- 메모리가 더 중요. HBM이 반드시 필요. KV Cache 때문에 메모리 사용량이 시퀀스 길이에 따라 폭증
즉, 두 단계는 완전히 다른 성능 조합을 요구해.
그런데 지금까지는 GPU 하나가 두 역할을 다 해야 했던 거야.
Rubin CPX의 혁명 포인트: “그냥 떼자! 분리하자!”
엔비디아가 한 일은 단순해 보이지만 엄청난 변화를 뜻해.
- 프리필 = GDDR7 기반 Rubin CPX
- 디코드 = 기존 HBM 기반 GPU (Rubin 메인 GPU)
이렇게 물리적으로 분리하면 생기는 장점이 뭐냐면…
| 구분 | 프리필 | 디코드 |
| 병목 | 연산 | 메모리 |
| 필요한 메모리 | GDDR로 충분 | HBM 필수 |
| 엔비디아 전략 | CPX로 해결 | Rubin HBM GPU로 해결 |
즉, CPX는 프리필 전용 GPU고, HBM은 디코드에만 집중한다는 전략이야.
이게 추론 구조를 완전히 효율적으로 재배치하는 거지.
Rubin CPX 스펙, 솔직히 말해 말도 안 됨
- NVFP4 기준 30 PFLOPS / 128GB GDDR7 / 어텐션 가속 GB300의 3배 / 2026년 말 출시
여기서 핵심은 “GDDR7”이야. 왜냐면 HBM보다 훨씬 싸고, 공정도 훨씬 쉽거든.
HBM 대신 GDDR7? 엔비디아가 이걸 택한 이유
HBM은 강력한데 문제는…비싸고, 생산량 적고, 패키징 난이도 높고, 수율 관리가 어렵고, CoWoS 같은 첨단 공정 필요
반면 GDDR7은? 가격 20~25배 저렴, 일반 GPU 라인에서 생산 가능, 수요 폭발해도 확장 가능, 삼성·SK가 이미 주력으로 만드는 제품이야~
엔비디아가 “프리필은 GDDR7로 충분해”라고 선언한 순간, 메모리 생태계 자체가 또 한 번 재편될 가능성이 있어.
Rubin CPX는 단품으로 의미 없음, 진짜는 NVL144 시스템
Rubin CPX의 완전체는 따로 있어.
바로 Vera Rubin NVL144 CPX라는 렉 단위 시스템.
구성은 이렇게 돼
- Rubin CPX 144개
- Rubin HBM GPU 144개
- Vera CPU 36개
- 100TB 메모리에 1.7PB/s 대역폭
- 총 8 엑사플롭스 연산 성능
요청이 들어오면 엔비디아의 Dynamo가 워크로드를 알아서 라우팅해서 프리필→디코드를 업로드하고 내려주고, 내부에서 KV Cache 넘겨주는 구조. 이거 완전 엔드투엔드 추론 공장이지.
구글 TPU vs Rubin CPX: 어디가 더 센데?
TPU 강점
- 확장성 미쳤음, 효율성 높음, 구글이 직접 운영 최적화
- 실제 모델 활용률(MFU)이 GPU보다 높게 나오는 경우 많음
Rubin CPX 강점
- 쿠다 생태계 유지, 프리필/디코드 완전 분리, 비용 구조 최적화
- 다양한 기업이 활용 가능한 범용성
TPU는 “수직 통합 끝판왕”, 엔비디아는 “워크로드 분리로 비용 최적화”.
양쪽 전략이 너무 달라서 오히려 재밌는 경쟁이 시작된 느낌이야.
산업적으로 보면?
HBM 업체 (SK하이닉스, 삼성)
- 디코드는 여전히 HBM 필수!! 즉, HBM 시장이 무너지는 건 아님. 다만 성장이 완만해질 가능성 있음
GDDR7 업체
- 드디어 AI 시장에서 역할이 커짐. 삼성은 24Gb GDDR7 개발해서 거의 독점 포지션, CPX 생산량 고려하면 수혜 확실
ASIC 스타트업들
Groq, Tenstorrent, Dmetrix 등은 프리필·디코드 분리한 구조로 승부하던 회사들인데,
엔비디아가 “그거 우리도 할게” 하고 본격적으로 들어오면…솔직히 말해 힘들어질 가능성이 있음.
앞으로 3~5년, 뭐가 바뀔까?
1) FLOPs 경쟁 시대가 끝난다
이제는 “컨텍스트 길이”, “토큰당 비용” 이 두 가지가 AI 추론 경쟁의 핵심이 될 거야.
2) 메모리 구조가 바뀐다
HBM + GDDR7 구조가 정착되면, AI GPU 설계 방식이 완전히 새 틀을 갖출 거야.
3) AI 서비스 단가가 확 떨어진다
엔비디아는 1억 달러 투자하면 50억 달러 토큰 매출 가능하다고 말했는데,
물론 과장된 마케팅일지라도 그만큼 투입 대비 효율이 좋아진다는 뜻이겠지.
Rubin CPX는 엔비디아의 “방어 + 재편 전략”이야.
- TPU가 추론 시장에서 무섭게 커지자
- 프리필을 떼어내 GDDR7 기반으로 따로 최적화해서
- 원가 낮추고 생산량 늘리면서
- 쿠다 생태계를 유지한 채
- AI 추론 시장에서 주도권을 지키려는 카드
결국 이 시장은 이제 FLOPs 경쟁이 아니라, 추론 비용 경쟁으로 흘러갈 거야.
그리고 Rubin CPX는 그 싸움에서 엔비디아가 택한 가장 현실적이고도 공격적인 무기지.
앞으로 2~3년? AI 반도체 시장은 진짜 재밌어질 거야
'Study' 카테고리의 다른 글
| 구글이 또 하나의 실험을 던졌다: 브라우저 탭을 통째로 ‘웹앱’으로 바꿔버리는 Disco (0) | 2025.12.17 |
|---|---|
| 엔비디아가 또 판을 뒤집었다! (0) | 2025.12.07 |
| HBM만 난리 난 줄 알았더니… DDR4가 들썩인다? (0) | 2025.12.04 |
| Microsoft Foundry 기업용 에이전트 개발이 ‘진짜’ 시작된다 (0) | 2025.11.30 |
| 음모론은 왜 이렇게 달콤할까? (0) | 2025.11.28 |