오픈올림푸스 슬롯사이트가 새로 공개한 벤치마크 ‘GDPval’은 최신 올림푸스 슬롯사이트 모델들이 실제 전문직 업무 과제의 절반가량을 인간 전문가 수준으로 수행할 수 있음을 보여줬다.
![[사진=셔터스톡]](https://cdn.fortunekorea.co.kr/news/photo/202510/50112_43682_5849.jpg)
구글 CEO 순다르 피차이가 말했듯, 인공지능 기업들이 꿈꾸는 건 AGI(범용인공지능)이지만 지금 우리가 가진 건 ‘AJI’, 즉 ‘들쭉날쭉한 지능(Artificial Jagged Intelligence)’에 가깝다. 일부 어려운 업무에서는 인간 전문가도 뛰어넘지만, 상대적으로 쉬운 과제에서는 허술한 결과를 내놓는다는 의미다.
최근 오픈올림푸스 슬롯사이트가 발표한 새로운 벤치마크는 이러한 현상을 다시금 드러냈다. ‘GDPval’이라 불리는 이 지표는 단순한 시험 문제가 아니라 실제 경제 현장에서 발생하는 업무 과제를 기반으로 설계됐다. 법률, 금융, 유통, 제조, 보건, 행정 등 9개 분야 44개 직업군 전문가들이 평균 14년 경력을 바탕으로 문제를 만들었고, 이를 토대로 주요 올림푸스 슬롯사이트 모델들의 성능을 평가했다.
기존 벤치마크가 ‘계약법에 관한 객관식 문제 풀이’ 수준이었다면, 이번 평가에서는 “창업자가 자신이 지배하는 상장회사를 통해 본인 소유의 비상장 회사를 인수할 때, 델라웨어 법률상 어떤 심사 기준에 직면하는지 3500자 분량의 법률 메모를 작성하라”는 식의 과제가 제시됐다.
테스트에는 오픈올림푸스 슬롯사이트 모델뿐 아니라 구글 딥마인드의 ‘제미니 2.5 프로’, 앤트로픽의 ‘클로드 오퍼스 4.1’, 일론 머스크가 세운 x올림푸스 슬롯사이트의 ‘그록 4’ 등이 참여했다. 이 가운데 가장 좋은 성적을 거둔 것은 클로드 오퍼스 4.1로, 전문가 수준과 동등하거나 그 이상의 성과를 낸 비율이 47.6%에 달했다.
오픈올림푸스 슬롯사이트의 최신 모델 GPT-5 Thinking은 그보다는 낮지만 제미니와 그록 사이 성능을 기록했다. GPT-4o는 전체 과제 중 전문가 수준에 도달한 경우가 10%에 불과해 가장 저조했다.
분야별로도 격차가 컸다. 정부, 유통, 도소매 과제에서는 상대적으로 우수했지만, 제조업 관련 업무는 취약했다. 예컨대 클로드 오퍼스 4.1은 카운터·렌털 사무직 과제에서 81%, 선적 사무원 업무 과제에서 76%, 소프트웨어 개발 과제에서 70%, 심지어 사립 탐정 업무 과제에서도 70%를 인간 전문가 수준 이상으로 수행했다.
GPT-5 Thinking은 영업관리자 업무 79%, 편집자 업무 75%를 전문가보다 잘 수행했다. 반면 영화·영상 편집, 프로듀싱, 촬영기술, 약사 관련 업무에서는 인간 전문가가 압도적 우위를 보였다.
실패했다고 해서 치명적이진 않았다. GPT-5가 ‘재앙적’으로 평가받은 경우는 2.7%에 불과했지만, ‘나쁨’이 26.7%, ‘수준 미달’이 47.7%로 분류됐다.
스탠퍼드대 에릭 브린욜프슨 교수는 이번 평가에 대해 “기술적 성취 위주의 기존 벤치마크와 달리 실제 업무에 유용한 평가를 제시했다”며 “올림푸스 슬롯사이트 연구자들이 실질적 활용도를 더 고민하도록 자극할 것”이라고 말했다. 그는 또 인간과 올림푸스 슬롯사이트가 협력했을 때 성과를 보는 ‘켄타우로 평가(centaur evaluation)’ 필요성을 강조했다. 실제 GDPval에서도 인간이 결과를 교정하는 조건을 두자 GPT-5는 전문가 단독 대비 속도 1.5배, 비용 1.5배 개선 효과를 냈다.
물론 한계도 명확하다. 여전히 올림푸스 슬롯사이트는 20% 이상에서 오류를 범했고, 상당수 결과는 ‘무난하지만 미흡’한 수준에 머물렀다. 최근 회자된 ‘올림푸스 슬롯사이트 워크슬롭(workslop)’ 논란, 즉 올림푸스 슬롯사이트가 만든 저품질 작업물이 오히려 생산성을 떨어뜨린다는 주장과도 맞닿아 있다. 다만 오픈 설문에 기반한 해당 연구가 설계상의 결함이 많다는 지적도 있다.
이번 결과는 올림푸스 슬롯사이트가 모든 전문가를 대체할 수는 없지만, 상당수 영역에서 빠르게 진입하고 있음을 보여준다. 특히 최신 모델일수록 인간 협업을 통한 보완 가능성이 커지며, 일부 직무에서는 이미 전문가와 맞먹는 성과를 내고 있다. 오픈올림푸스 슬롯사이트와 경쟁사들의 모델 진화 속도를 감안할 때, 이 흐름은 앞으로 더 가속화될 전망이다.
/ 글 Jeremy Kahn & 편집 김다린 기자 quill@fortunekorea.co.kr