AI 에이전트 결론부터 말하면 아직은 ‘일 잘하는 인턴’ 수준이야!!
요즘 어디 가나 이런 말 나오지. “이제 AI 에이전트가 일 다 해준다”, “사람 필요 없어지는 거 아님?”
핵심 질문은 이거야. “AI 에이전트, 진짜 회사 업무에 넣어도 되냐?”
새로 나온 벤치마크 APEX-Agents 결과를 보면,답은 꽤 솔직하게 나와~ 👉 아직은 아니다.
[참조: https://arxiv.org/abs/2601.14242]
왜 기존 테스트로는 부족했을까?
기존 AI 벤치마크들 보면 이런 느낌이야. 퀴즈 잘 풀어? 일반 상식 알아? 문장 이해해?
근데 회사 일은 그런 게 아니잖아. 예를 들어 슬랙 뒤지고 구글 드라이브 문서 찾고 메일 맥락 맞춰 보고 법, 내부 규정 같이 고려하고 “이거 해도 되는지” 판단해야 함... 도구도 사용하고 거버넌스도 있고 결국 스스로 해야 한다는 개념인데....
이번에 나온 APEX-Agents는 실제 컨설팅, IB, 법무 업무에서 뽑아온 태스크로 테스트를 했다는 게 핵심이야.
즉, “똑똑해 보이냐?”가 아니라 “회사에서 사고 안 치고 일할 수 있냐?”를 본 거지.
결과는 좀 충격적임
결과부터 말하면 이거야. 👉 대부분의 AI 모델, 거의 다 실패
- 최고 성적도 정답률 25% 안 됨
- 평균은 20% 전후
- 네 번 시키면 세 번은 틀린다는 얘기
제일 잘한 모델도, 현업 기준으로 보면 딱 이런 느낌이야.
“열심히는 하는데, 계속 옆에서 봐줘야 하는 인턴”
특히 약한 게 뭐냐면, 툴과 문서를 넘나들면서 맥락을 이어가는 능력이야.
슬랙에서 나온 말이 구글 문서 어디랑 연결되는지 이걸 아직 AI가 잘 못해.
문제 예시가 진짜 ‘회사 일’이다
APEX-Agents 문제 중에 이런 게 있어.
EU 서버 장애 로그를 미국 분석 벤더에 전달했는데 이게 GDPR 규정에 맞는지 회사 내부 정책까지 고려해서 판단해라
이건 단순 지식 문제가 아니야.
- 법 조항 이해
- 상황 맥락 파악
- 회사 기준 적용 이걸 동시에 해야 돼.
사람 기준으로도 “주니어 혼자 판단하기엔 부담되는 일”이야.
AI가 여기서 틀렸다는 건, 되게 솔직한 결과라고 봐야 해.
그럼 AI 에이전트, 쓸모없는 거냐?
전혀 아님. 오히려 반대야. 작년만 해도 이런 테스트에서 정답률이 5~10% 수준이었대. 지금은 20% 넘는다? 이건 성장 속도가 미친 수준이라는 뜻이야. 문제는 이거지. 사람들이 AI를 이렇게 기대해버렸다는 거야.
“전문가 대체”
현실은 이거야.
“실수 잦은 인턴 + 속도 빠른 보조자”
그래서 실무에서 어떻게 써야 하냐면
지금 AI 에이전트 설계의 정답은 이거야.
완전 자동화 꿈 버려
사람 없이 돌리면 사고 난다. 법무, 재무, 정책 얽힌 건 특히 더.
코파일럿 구조로 써
여기까지만 맡겨. - 자료 수집 - 초안 작성 - 체크리스트 정리 - 옵션 정리
판단은 사람
최종 OK 버튼은 사람이 눌러야 한다. 이건 최소 1~2년은 더 갈 거다. Human in the loop
GDPval이랑 뭐가 다른데?
기존 GDPval은 이런 느낌이야. “이 AI, 이것저것 얼마나 아냐?” APEX-Agents는 완전 다르다. “이 AI, 특정 직업 하나를 맡길 수 있냐?”
범위는 좁지만, 실무에선 훨씬 잔인한 테스트야. 그래서 점수가 낮아도 이 벤치마크가 더 의미 있어.
AI 에이전트, 과대평가도 아니고 과소평가도 아님
- 지금은 딱 회사에 막 들어온 인턴 단계
- 혼자 두면 사고 치고
- 잘 쓰면 생산성 폭발
그리고 이 상황에서 제일 중요한 사람은 누구냐면, AI가 아니라 이걸 설계하는 사람이야.
“어디까지 맡기고, 어디서 끊을지” 이걸 감으로 아는 사람이 살아남는다. AI가 일자리를 없애는 게 아니라, 일을 설계할 줄 모르는 사람을 먼저 없앨 뿐이야. 지금은 그 갈림길 한가운데고.
'AI' 카테고리의 다른 글
| 앤트로픽 Opus 4.6, 이제 AI도 혼자 일 안 한다 (0) | 2026.02.06 |
|---|---|
| SF 작가와 코믹콘이 생성형 AI에 브레이크를 건 이유 (0) | 2026.02.05 |
| Anthropic Cowork 등장 (0) | 2026.01.26 |
| Humans&는 AI 스타트업이 아니라 조직 실험에 가깝다 (0) | 2026.01.25 |
| BioticsAI는 어떻게 ‘데모 회사’에서 ‘의료 인프라’가 됐을까 (0) | 2026.01.24 |