본문 바로가기

AI

작은 AI 모델과 AGI의 미래, 그리고 우리에게 주는 힌트

요즘 AI 업계 분위기를 보면, 진짜 끝을 향해 달려가는 느낌이야.

초거대 모델과 AGI(범용 인공지능)를 둘러싼 경쟁이 매일매일 전투 수준이잖아?

근데 그 와중에 ‘작고 똑똑한 모델’의 가치가 점점 더 부각되고 있다는 게 너무 흥미롭더라고. 나도 공부하면서... ㅜㅜ 용어도 어렵고... 사실 블로그를 하는 이유 중에 하나가... 한번더 생각하기 위해서인데... ㅜㅜ 쉽지 않네...

 

소형 모델, Teacher가 꼭 필요할까?

예전엔 큰 모델(Teacher)이 작은 모델(Student)에게 “이렇게 따라 해”라고 가르치는 방식, 즉 지식 증류(Knowledge Distillation)가 표준이었어. 근데 이 방식은 Teacher로 쓰는 모델이 너무 크면(예: GPT-4) 비용도 많이 들고, 아키텍처가 다르면 호환도 잘 안 되고, 속도도 느린 게 단점이야.

그래서 최근에는 Teacher 없이도 학습할 수 있는 증류 기법이 엄청 주목받고 있어.

예를 들어 DLB(Distillation from Last Mini-Batch)는 이전 미니배치 결과를 Teacher처럼 사용하고, DynSDPB(Dynamic Self-Distillation via Previous Mini-Batches)는 불확실성에 따라 학습 강도를 조절하는 식이야.

마치 AI가 자기 자신을 스스로 코치하는 느낌? 신기하지!

또 TA-DFKD(Teacher-Agnostic Data-Free KD)는 원본 데이터 없이 생성한 샘플로 학습하고, Tf-FD(Teacher-free Feature Distillation)는 내부 특징을 스스로 참고해서 배우는 방식이야.

이거 보면 진짜 ‘나 혼자 산다’ AI 버전 느낌 나지?ㅋㅋ

 

  • 증류(Knowledge Distillation): 큰 모델의 지식을 작은 모델에 ‘우려내어’ 학습시키는 방법.
  • DLB(Distillation from Last Mini-Batch): 이전 미니배치의 예측 결과(로그잇)를 Teacher처럼 사용해서 스스로 배우는 방식이야. 즉, ‘이전 내 모습’을 보면서 현재를 개선하는 셀프 코칭 느낌!
  • DynSDPB(Dynamic Self-Distillation via Previous Mini-Batches): 이전 미니배치를 기반으로 학습 강도를 동적으로 조절하는 방법이야. 예측의 불확실성에 따라 유연하게 배우는 거라, 마치 기분 따라 운동 강도 조절하는 것 같지?
  • TA-DFKD(Teacher-Agnostic Data-Free Knowledge Distillation): 원본 데이터 없이, 생성된 샘플을 사용해 학습하는 기법이야. 데이터가 민감하거나 구하기 힘들 때 매우 유용하지.
  • Tf-FD(Teacher-free Feature Distillation): Student 모델 내부의 채널이나 계층 정보를 스스로 참고해 학습하는 방법이야. 내 몸의 근육 움직임을 느끼면서 운동 자세를 개선하는 것과 비슷한 느낌!
  • 미니배치(Mini-Batch): 데이터를 작은 덩어리로 나눠 학습할 때 사용하는 단위.

 

왜 작은 모델이 각광받을까?

솔직히 다들 큰 모델이 멋있어 보여서 쓰고 싶어 해.

근데 현실적으로는 작고 빠른 모델이 훨씬 실용적이야. 스마트폰, 자동차, 로봇, 웨어러블… 다 반응 속도랑 전력 소모가 생명이거든.

그리고 요즘 LLM API 가격이 무섭게 올라가고 있잖아. 기업들이 자체 소형 모델로 넘어가려는 이유가 여기 있어. 작은 모델은 단순히 ‘싼 맛’이 아니라, 앞으로 AI가 우리 일상에 스며드는 핵심 무기가 될 거라고 봐.

 

메타의 AGI 정글과 도전과제

메타는 AGI 개발한다고 선언했는데, 솔직히 지금은 아직 ‘정글’ 같아. 연구랑 제품 조직을 분리해도 인재 관리 어렵고, 기존 모델(Llama 시리즈)에 대한 내부 불만도 있고, 안전·윤리 기준은 점점 복잡해지고… 게다가 규제 리스크까지 따라와.

내 생각엔 메타든 어디든 간에, 조직 구조를 확실히 하고 안전 기준을 투명하게 공개해야 사용자 신뢰를 얻을 수 있다고 봐.

AGI는 단순한 기술 싸움이 아니라, 사회적 합의와 신뢰를 바탕으로 해야 완성될 수 있는 거니까.

 

작지만 강한 모델의 시대

앞으로는 작고 똑똑한 모델이 진짜 주인공이 될 거라고 믿어.

Teacher 없이 스스로 배우는 증류 기법은 점점 더 실용적으로 발전할 거고, 결국 우리 손에 들어오는 AI 서비스로 이어질 거야.

메타의 AGI 도전도 멋있지만, 일단 우리 일상에서 직접 만나는 작은 AI가 더 중요한 것 같아. 작은 모델부터 잘 써보고, 점점 발전시키는 게 건강한 AI 생태계를 만드는 진짜 방법 아닐까?

AI에 관심 있는 친구들이라면 무조건 큰 모델만 바라보지 말고,

소형화 전략이나 증류 기법도 같이 봐보길 추천해! 나도 계속 공부하고 더 정리해서 공유할 테니까, 우리 같이 달려보자고! 🙂