본문 바로가기

AI

메타 라마4의 실패… 오픈소스 AI의 빛과 그림자

요즘 AI 업계에서 슬슬 수근거리는 이름이 있어. 바로 메타의 라마(LLaMA).

원래는 “오픈소스의 희망”, “GPT의 대항마” 같은 타이틀로 한껏 주목 받았던 모델이었는데, 최근엔 상황이 180도 달라졌어.

라마 4의 출시 이후 평가가 급락하면서 “실패한 AI 모델”이라는 꼬리표가 붙고 있지.

그래서 오늘은, 라마 4가 왜 망했는지, 그 안에 숨겨진 진짜 문제는 뭔지, 그리고 우리에겐 어떤 시사점을 주는지 정리해볼게.

 

성능이... 그냥 안 나와

람다 4, 아니 라마 4의 성능부터 보자.
최근 독립 벤치마크 테스트(LiveBench)에서 라마 4는 추론 점수 43.83점.

같은 시기 나온 구글의 제미니 2.5 프로는 거의 두 배 가까운 80점대였지.

더 충격적인 건 코딩 점수 37.43점. 개발자들이 많이 쓰는 GPT-4 Turbo나 Claude에 비하면 거의 처참한 수준이야.
심지어 환각률(Hallucination)이 48%. 두 개 중 하나는 틀린 말을 한다는 소리야.

이 정도면 “AI가 아니라 사이비다”라는 말까지 나올 지경.

 

벤치마크 조작 논란? 그건 치트야…

메타가 처음 라마 4 성능을 발표했을 땐, 모두가 박수를 쳤어. 그런데 알고 보니 공개된 모델과 벤치마크에 사용된 모델이 달랐다는 거야.
이거 완전 시험 볼 땐 공부 잘한 쌍둥이 보내놓고, 성적표는 본인이 받은 꼴이지.

결과는 어땠냐고?
LM 아레나에서 순위 2위 → 32위 급락. 이건 무슨 주가 폭락도 아니고...

 

핵심 인재는 다 떠났다

이건 진짜 치명적이야.
라마 4 논문 저자 14명 중, 현재 메타에 남아 있는 사람은 단 3명.
나머지는 다 미스트랄(Mistral)이나 다른 경쟁사로 갔고, AI 분야에서 영향력 있는 조엘 피노도 떠났어.

AI는 결국 사람이 만드는 기술인데, 그 핵심 인력이 다 빠져나간 거야.
회사 내 분위기가 어땠는지는 말 안 해도 알겠지?

 

중국 오픈소스의 역습

이 와중에 중국의 ‘딥시크(DeepSeek)’ 같은 오픈소스 모델은 쑥쑥 성장 중이야.
딥시크 V3는 파라미터 수에서 라마 3.1보다 1.5배 크고, 개발비는 라마 대비 1/100.
메타는 6억 4천만 달러 썼는데, 딥시크는 고작 557만 달러.
결국 돈 쓴다고 좋은 AI 나오는 시대는 끝났다는 거지.

 

오픈소스 AI, 정말 공짜가 아니야

메타는 라마를 “누구나 쓸 수 있는 오픈소스 AI”로 포지셔닝했지만, 정작 수익화는 전혀 안 됐어.
구글이나 오픈AI처럼 구독형 SaaS 모델도 없고, API 수익도 미미.
그러다 보니 투자자들 사이에선 “이걸 왜 공개했냐”는 의문까지 생긴 거지.

결국 “공짜로 풀면 다 좋을 줄 알았지?”라는 말이 괜히 나오는 게 아니야.

 

정리하면, 라마는 왜 망했을까?

  • 성능은 구려졌고
  • 평가는 조작 논란이 있었고
  • 사람은 다 나가고
  • 경쟁자는 싸고 강하고
  • 돈은 많이 쓰고 못 벌고

이쯤 되면 실패 안 하는 게 이상하지.

 

그리고 지극히 개인적인 생각... 

솔직히 말해서, 라마의 실패는 메타만의 문제가 아니야.
요즘 AI 업계 전체가 겪고 있는 “오픈소스 vs 수익화”의 딜레마를 압축해서 보여주는 사례라고 생각해.

특히 다음 세 가지는 우리가 주목해야 해

  1. 오픈소스의 로망, 현실은 자본의 논리야
    아무리 좋은 기술도, 돈 안 되면 투자도, 인재도, 미래도 사라져.
    AI도 결국 비즈니스 모델이 있어야 살아남는 시대야.
  2. 진짜 성능이 답이다
    벤치마크 조작이나 과장 마케팅은 잠깐 눈속임은 될지 몰라도, 실제 제품에서 다 들통나.
    기업이 도입할 땐 “신뢰성”이 전부라는 거, 잊지 말자.
  3. 인재는 제품보다 더 중요하다
    사람 없으면 모델도 없다. 핵심 인력 유출은 곧 회사의 붕괴로 이어진다는 걸 메타가 잘 보여줬어.

 

결국... AI의 미래, 다시 본질로 돌아가자

라마의 실패는 오픈소스 AI의 미래가 어떻게 흘러갈지에 대한 경고 같아.
이제는 “누가 더 크냐, 누가 더 많이 깠냐”보다,
누가 진짜 쓸모 있고, 신뢰할 수 있고, 지속가능한 구조를 갖췄냐가 더 중요해졌다는 거지.

앞으로 AI 모델을 고를 때는 이게 그저 ‘뜨는 기술’인지,
아니면 진짜로 우리 비즈니스에 도움이 되는 기술인지 냉정하게 판단할 필요가 있어.
AI는 ‘놀이터’가 아니라 ‘전장’이니까.