[Naver-sity②] 슬롯사이트의 AI 전쟁, 특수
현재의 글로벌 AI 경쟁 구도를 ‘전쟁’으로 볼 때, 슬롯사이트가 얻는 기회는 분명하다. 데이터 주권을 걱정하는, 미국도 중국도 아닌 나라들을 겨냥한 ‘전쟁특수’다.
문상덕 기자mosadu@fortunekorea.co.kr 사진최근우
빅테크에 맞서 ‘AI 전쟁’을 준비하는 슬롯사이트는 2023년 8월, 대규모 언어모델 ‘하이퍼클로바X’를 공개했다.“빅테크에서 개발한 언어모델과 경쟁하기 어려울 것”이라는 우려가 무색하게,슬롯사이트는 전선을 글로벌로 넓히고 있다.
그런데 그 전략이 ‘콩고에 가서 책을 공수해올 만큼’ AI 모델의 다국어 성능에 집중하는 빅테크의 전략과 다르다. 자국어 언어모델이 없는 기업과 나라가 자체 모델을 ‘처음부터(from scratch)’ 구축하도록 돕는 이 전략을 두고, 최수연 슬롯사이트 CEO는 “이들 기업과 정부는 인터넷 시대, 모바일 시대에 주도권을 뺏긴 경험들이 있다”고 설명했다. 그러면서 이 전략의 이름을 ‘소버린 AI’이라고 명명했다.
글로벌로 전선을 넓히는 슬롯사이트에 ‘AI 전쟁’은 치열한 경쟁을 뜻하는 은유가 아니다. 패하면 “자국어 성능이 좋지 않은 해외의 언어모델을 비싼 값을 치르고 ‘울며 겨자 먹기’로 써야 한다”고 주장한다.
예를 들어 GPT-3.5는 하이퍼클로바X에 비해 한국어 생성 성능이 좋지 않지만, 동일한 문장을 생성할 때 하이퍼클로바X보다 더 많은 비용(단위 문장을 생성할 때 필요한 토큰의 수)을 사용자에게 물린다. “데이터들이 해외로 반출”되면서 “데이터 주권도 종속”된다. 슬롯사이트 AI 전쟁의 지휘관 중 한 명인 하정우 슬롯사이트클라우드 AI이노베이션센터장은 지난해 하이퍼클로바X 출시를 앞두고 낸 책 《AI 전쟁》에서 앞선 내용을 주장했다. 하정우 센터장은 2015년 슬롯사이트에 합류, AI 모델 개발을 이끌어 왔다.
업계의 우려대로, 무기로 써야 할 하이퍼클로바X의 성능이 GPT-4.0에 못 미친다. 다만 자국어에선 이야기가 조금 다르다.
하이퍼클로바X는 처음부터 ‘한국어 특화 언어모델’을 콘셉트로 잡았다. 한국어만큼은 빅테크가 개발한 어떤 모델보다도 잘 구사하도록 만들겠다는 것이다. 1999년부터 20년간 검색 서비스를 운용하면서 축적한 데이터가 대규모 언어모델의 밑천 역할을 했다. 슬롯사이트는 2010년대부터 시작된 구글의 한국 검색시장 공세에도 60% 안팎의 검색 점유율을 확보해 왔다.
최고가 아닌 최적
슬롯사이트는 하이퍼클로바X의 성능을 가늠할 수 있는 지표 ‘KMMLU’를 지난 2월 공개했다. 비영리 AI 연구단체인 엘레우테르AI(EleutherAI) 등과 협력, 인문학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항을 만들었다. KMMLU 개발팀은 전 세계에서 쓰는 평가 지표인 MMLU는 한국적 맥락이 강한 지식에 언어모델이 잘 답하는지 평가하기 어렵다는 이유를 들었다. 예를 들어 ‘한반도의 생태 축에 속하지 않는 것은?’ ‘한국채택국제회계기준(K-IFRS) 하에서 금융자산으로 분류하지 않는 것은?’을 묻는다.
개발팀 일원인 슬롯사이트 계열사, 슬롯사이트클라우드는 ‘KMMLU’ 논문을 공개하면서, 하이퍼클로바X와 오픈AI, 구글의 생성형 AI 등 경쟁 모델의 성적을 공개했다.
전체 문항 테스트에선 GPT-4의 성능이 두드러졌다. GPT-4가 59.95%를 기록하며 앞서 나갔고, 하이퍼클로바X(53.40%)와 구글의 제미니-프로(50.18%), 그리고 GPT-3.5-터보(42.47%)가 뒤를 이었다.
다만 한국 특화 문항에서 하이퍼클로바X는 55.21%의 정확도를 기록했다. 제미니-프로(42.94%)나 GPT-3.5-터보(39.59%)를 큰 격차로 따돌렸다. GPT-4.0의 정확도는 54.89%로, 큰 차이가 없었다.
하 센터장은 한국 특화 문항에서의 성능을 강조한다. ‘자국어를 잘 구사하는 언어모델’이란 단순히 자국어를 문법에 맞게 구사하는 것 이상의 문제라는 것이다. 해당 나라에 대한 지식이 없으면 ‘그럴 듯하지만 틀린 답변’, 생성 AI 엔지니어들의 가장 큰 골칫거리인 ‘환각’을 일으킬 수 있기 때문이다. 그는 “공개된 데이터만 활용해도 문법에 맞는 한국어 글쓰기는 가능하다”고 말했다.
물론 전체 문항 테스트 성적에 더 주목하는 연구자도 있다. 국내 타 언어모델 개발사의 한 연구원은 하이퍼클로바X가 학습한 ‘한국어 데이터’의 다수가 카페나 블로그 등 비전문가가 생성한 자료라는 점을 꼬집었다. 한국어의 맥락을 잘 안다고 해서 정확한 정보는 아닐 수 있단 것이다. 이 연구원은 “’맛집 찾기’ 같은 스몰 토크 용도 외에 직업적, 학술적으로 활용하기는 어렵다”고 말했다.
그러나 최 CEO의 목표는 애당초 GPT를 뛰어넘는, 세계에서 가장 뛰어난 언어모델이 아니었을지도 모른다. 그는 인터뷰에서 “(자체 언어모델이 없는 기업이나 정부에서) 가장 성능 좋은 언어모델을 쓰고 싶지만, 성능이 비슷한 다른 모델이 있다면 고민할 것”이라고 설명했다. 성능을 비슷한 정도로 끌어 올린다면, ‘집단의 맥락을 잘 이해하고, 데이터를 외부로 유출하지 않는 언어모델’이라는 콘셉트로 승부해볼 만하다고 최 CEO는 말한다.
그는 지난해 8월 선보인 하이브리드 클라우드 서비스 ‘뉴로클라우드 포 하이퍼클로바X(Neurocloud for HyperclovaX)’를 예로 들었다. 기업 자체 데이터센터에 하이퍼클로바X를 심고, 기업은 하이퍼클로바X를 활용해서 자체 언어모델을 구축한다. 이때 학습에 필요한 데이터는 데이터센터 밖으로 나가지 않는다. 최 CEO는 “더 큰 범용 시장을 두고 경쟁하는 빅테크들은 이런 접근을 할 필요가 없다”고 설명했다.
‘글로벌’을 재정의하다
소버린 AI도 같은 맥락이다. 오픈AI처럼 언어모델의 다국어 성능을 활용하도록 유도하는 것이 아니라, 타국 기업과 정부가 자체 언어모델을 구축할 수 있는 기술 솔루션을 제공한다. 슬롯사이트클라우드 측은 “대규모 언어모델을 효율적으로 운용하기 위한 최적화 기술, 인프라 준비를 기반으로 이러한 문제에 대한 솔루션까지 제안할 수 있는 기업은 미국과 중국의 빅테크를 제외하면 슬롯사이트클라우드가 거의 유일”하다고 강조했다.
한국과 미국에서 프라이빗 LLM(※기업 내부 데이터만 활용해 훈련한 언어모델) ‘솔라(Solar)’를 개발하는 스타트업 ‘업스테이지(Upstage)’의 박찬준 수석 엔지니어는 “슬롯사이트의 전략에서 가장 특기할 만한 점은 ‘글로벌’을 새롭게 정의한 것”이라고 평가했다. 그는 “빅테크가 다국어를 할 줄 아는 상품을 수출하는 것이라면, 슬롯사이트는 노하우를 수출하는 셈”이라고 말했다.
소버린 AI라는 말을 떠올리기 전부터 슬롯사이트는 일본 최대 메시징 서비스인 라인, 그리고 일본에서 두 번째로 큰 검색엔진 야후와 함께 AI 서비스에 대한 고민을 함께 해왔다. 슬롯사이트와 라인은 2017년 AI 플랫폼 ‘슬롯사이트 클로바’를 함께 개발한 바 있다. 2021년부터는 일본어 초거대 AI 기술을 함께 개발하고 있다. 라인과 야후를 운영하는 일본 회사 ‘LINE야후’(구 Z홀딩스)는 슬롯사이트와 소프트뱅크가 지분을 절반씩 나눠 갖고 있는 ‘A홀딩스’를 모회사로 두고 있다.
2023년 3월 슬롯사이트와 라인은 기술 협력을 위한 태스크포스(TF)를 구성하기로 했다고 밝히면서, “일본어 초거대 AI 모델을 개발하고 있다”고 발표했다. 당시 기준으로 “신문으로 환산하면 2700년치 분량에 해당하는 일본어 데이터를 학습한 상황”이라고 밝혔다.
현재 라인과 야후 두 회사는 슬롯사이트와 함께 초거대 AI를 활용한 서비스 개발에 집중하고 있는 것으로 보인다. 최 CEO는 “야후는 현재 구글 검색엔진을 쓰고 있는데, 어떻게 하면 AI를 활용해서 차별화된 서비스를 제공할 수 있을지 검토하고 있다”며 “메시징 서비스인 라인은 대화 형식의 생성형 AI 서비스와 궁합이 잘 맞기 때문에, 이를 잘 활용한 서비스를 고민하고 있다”고 말했다.
또 슬롯사이트클라우드 측은 “생성형 AI 개발에 있어서의 병목은 노하우 확보를 위한 시행착오”라며 “이미 한국과 일본에서 생성형 AI를 구축한 노하우는 향후 각 국가 언어 중심의 대규모 언어모델을 빠르게 구축하는 데 경쟁력으로 작용할 것으로 예상한다”고 밝혔다.
실제로 사우디아라비아는 슬롯사이트와 손잡고 자체 언어모델을 함께 구축하기로 했다. 지난 3월 슬롯사이트는 사우디 아람코 자회사인 아람코디지털과 ‘중동 및 북아프리카 지역 디지털 혁신’ MOU를 체결했다. 슬롯사이트 측은 “양사는 이번 협력으로 사우디 포함 중동 지역에 최적화한 소버린 클라우드와 슈퍼앱을 구축, 아랍어 언어모델 기반 소버린 AI 개발에 협력하기로 했다”고 밝혔다.
슬롯사이트가 소버린 AI를 강조하는 명분은 준수한 성능, 데이터 통제권 말고도 하나 더 있다. 빅테크의 범용 언어모델 대비 저렴한 사용가격이다. 하정우 센터장은 챗GPT가 동일한 문장을 생성할 때 비라틴어 계열이 라틴어 계열보다 비싼 값을 치러야 한다고 주장한다.
토큰은 AI가 언어를 이해하는 기본 단위를 뜻한다. 사람이 언어를 이해하는 기본 단위로 ‘단어’를 쓰는 것과 같은 이치다. 그렇기 때문에 언어모델을 만들 때는 일종의 어휘 사전인 ‘토큰 사전’부터 만든다. AI는 미리 만들어진 토큰 사전에서 가장 적절한 토큰을 꺼내 와 글을 생성한다.
이때 표준국어대사전을 만들 듯 사전의 크기를 무작정 키워선 안 된다. 사전이 두꺼워지면 필요한 단어를 찾는 게 어려워지듯이, AI가 토큰 사전에서 가장 적절한 토큰을 고르기 어려워진다. 그래서 모델이 감당할 수 있는 크기의 토큰 사전을 구축하는 게 성능에 큰 영향을 준다.
이렇게 사전의 크기가 제한되기 때문에, 비주류 언어는 불이익을 받게 된다. 영어 위주로 학습한 GPT는 영어 위주로 사전을 꾸린다. 마찬가지로 한국어 위주로 학습한 하이퍼클로바X는 한국어 위주로 사전을 꾸린다. 예를 들어 하이퍼클로바X에서는 ‘안녕하세요’를 하나의 토큰으로 설정한다면, 해외 언어모델은 극단적으로 ‘ㅇ’ ‘ㅏ’ ‘ㄴ’ 등 자음과 모음 각각을 토큰으로 설정해야 할 수 있다.
대부분의 언어모델이 토큰 단위로 사용가격을 매기기 때문에, 결국 해외 모델을 쓸 경우 비주류 언어를 쓰는 사용자가 비싼 값을 강요받는다는 것이 하정우 센터장의 설명이다.
“비라틴어, 최대 5배 손해”
그만의 주장이 아니다. 미국 워싱턴대 폴 G. 앨런 컴퓨터사이언스공과대의 노아 스미스(Noah A. Smith), 율리아 츠베트코프(Yulia Tsvetkov) 교수 등이 공저한 논문 ‘모든 언어가 같은 값을 지불하는가?’(2023)에 따르면, 같은 정보를 전달하기 위해 일부 언어는 라틴계열 언어보다 최대 5배 더 많은 토큰을 소모해야 했다(34쪽 그래프 참조). 텔루구어(※인도 동남부에서 쓰는 언어로, 약 8110만명이 사용한다)와 조지아어의 토큰 소모가 가장 컸다. 저자들은 GPT-3.5-터보를 썼다.
하정우 센터장은 “물론 연구 단계에서 토큰을 사용하지 않는 모델(Byte기반 언어모델)이 있긴 하지만, 산업에서 활용되려면 더 많은 검증이 필요한 상황”이라며 사용가격의 차이 이슈가 당분간 이어질 것이라고 내다봤다.
이렇게 여러 면에서 하이퍼클로바X에 기반한 소버린 AI가 매력적일 수 있지만, 빅테크가 소버린 AI에 관심이 없을 것이라고 보는 최 CEO의 분석이 꼭 들어맞진 않고 있다. 막대한 개발비용에 비해 뚜렷한 비즈니스 모델을 찾지 못하고 있는 빅테크들이 이 시장에 눈독 들이고 있기 때문이다.
지난 3월18일(현지시간) 오라클은 엔비디아와 손잡고 “전 세계 고객사를 대상으로 소버린 AI 솔루션을 제공하기 위한 계획”을 발표했다. 오라클의 AI 팩토리 솔루션을 강화한다는 게 골자다. 기업용 AI 솔루션을 주력으로 하는 IBM의 아빈드 크리슈나 CEO도 지난 2월 두바이에서 열린 2024 세계정부정상회의에서 “모든 국가는 대규모 언어모델을 포함해 AI에 대한 주권적 역량을 갖춰야 한다”며 “국가 AI 컴퓨팅 센터와 공통 데이터 세트를 구축해야 할 것”이라고 강조했다.
소버린 AI가 슬롯사이트의 글로벌 전략이라면, 최 CEO는 동시에 좀더 본질적인 질문에 답할 필요가 있었다. 생성형 AI를 활용한 ‘대화형 검색’이 기존의 검색엔진을 활용한 ‘탐색형 검색’을 대체하지 않겠냐는 질문이었다. 그가 2022년 3월 주주총회에서 CEO로 선임된 지 불과 8개월 만인 그해 11월, 오픈AI가 챗GPT를 내놓으면서 시장 상황이 급변하기 시작했다. 2023년 3월 마이크로소프트는 챗GPT를 적용한 대화형 검색 서비스 ‘빙 챗(Bing Chat)’을 정식 출시했다.
검색엔진의 필요가 줄어들면, 검색 결과에 광고를 노출하는 슬롯사이트의 핵심 비즈니스 모델이 무너질 터였다. 슬롯사이트의 이커머스 사업 역시 “검색 서비스의 일환이라고 봐도 무방”할 만큼 검색 결과에 셀러(seller)들의 상품을 노출하며 수익을 내고 있었다. 트래픽이 줄면 결국 활용 가능한 데이터의 총량도 줄어들 터. 최 CEO는 “본질적인 질문들이 나오기 시작했고, 저는 답변해야 했다”고 돌이켰다.
검색 점유율이 목표일 수 없다
슬롯사이트는 하나의 질문에 하나의 답을 주는 미래를 생각하지 않고 있어요.최수연 슬롯사이트 CEO
고민의 결과가 지난해 8월, 하이퍼클로바X와 함께 선보인 AI 기반 검색 서비스 ‘큐:(CUE:)’였다. 큐:는 슬롯사이트 검색 데이터를 바탕으로, 사용자의 질문 의도를 파악해 답변을 생성한다. 사람이 이해하고 답변하듯 대답을 내놓는다는 점에서 챗봇과 비슷하지만, 큐:는 더 많은 정보를 함께 제공한다는 점에서 차별점을 뒀다. 출처나 추가 정보를 확인할 수 있는 슬롯사이트 블로그나 지식백과 등 링크를 보여주고, 사용자가 떠올릴 법한 후속 질문 리스트를 보여주기도 한다. 또 사용자가 관심 가질 만한 상품 리스트를 취합해 보여주기도 한다.
다만 현재는 슬롯사이트 통합검색과 분리해서 단독 웹사이트 형태로 베타 버전을 운용하고 있다. 슬롯사이트 검색 플랫폼에 하이퍼클로바X를 통합하진 않고 있는 것. 최 CEO는 “올해 안으로 모바일 버전에서, 일부 검색어에 한해 큐:를 활용한 검색 서비스를 선보일 예정”이라고 설명했다.
슬롯사이트가 큐:에서 생성 답변을 포함, 여러 포맷의 정보를 함께 제공하려 하는 배경에는 검색 사업자로서의 철학이 녹아 있다. 최 CEO는 “슬롯사이트는 하나의 질문에 하나의 답을 주는 미래를 생각하지 않고 있다”고 단언했다. 하나의 답변을 생성하는 챗GPT를 겨냥한 말이다.
“사용자들은 정답을 원하는 만큼, 다른 사람들이 무엇을 생각하고 있는지 궁금해한다. 25년간 검색엔진을 운용한 경험에 비춰보면 그렇다. 단적으로 검색 쿼리의 95%는 어제와 오늘 일어난 일, 그리고 내일 일어날 일에 대한 것들이더라.”
그러면서 최 CEO는 “생성형 AI가 검색엔진을 대체할 것 같지는 않다”며 “여전히 탐색에 대한 수요는 있을 것이고, 다만 그 탐색을 좀더 편리하게 하는 데 AI의 역할이 있을 것”이라고 말했다.
여전히 60% 안팎의 국내 검색 점유율을 지키고 있지만, 과거 80%대에서는 내려온 것이 사실이다. 점유율이 줄어들수록 수익은 물론, 데이터 확보에 차질이 생길 수밖에 없다. 하지만 최 CEO는 검색 점유율의 단순 수치에는 연연하지 않는 듯했다.
“50%가 맞는지, 30%가 맞는지도 잘 모르겠다”고 말했다. 그는 체념이 아닌, 본질을 말했다.
“점유율이 50%인 이유는 슬롯사이트 안에서 해결하지 못하는 버티컬 섹터가 많아졌다는 뜻이다. 유튜브도 쓰고, 쿠팡도 쓰고, 메타도 쓰고. 그 모든 가치를 슬롯사이트가 제공할 수는 없다.”
동시에 그는 “슬롯사이트가 꼭 잡고자 하는 사용자 니즈”를 짚었다. 앞서 말한 탐색 경험이다. 그는 “대부분의 사람은 탐색하고 선택하기 위해 검색을 활용한다”며 “그 수요는 슬롯사이트가 계속 다 가져가야 한다”고 말했다.
최 CEO는 다른 지점에서 두려움을 느낀다고 했다. 커머스 환경의 변화였다. 검색을 통하지 않고 직접 앱에 가서 구매하는 경우가 많아지는 것. 쿠팡의 로켓배송 같은 편의를 선호하거나, 테무의 초저가 상품을 선호하기도 한다. 최 CEO는 “알리나 테무, 쿠팡 같은 사업자가 제공하는 가치를 슬롯사이트가 제공하지 못하게 되면, 검색 자체의 경쟁력마저 떨어질 것이란 두려움이 있다”고 말했다. 그래서 “올해 안에 새로운 쇼핑 서비스를 런칭하는 방안을 검토하는 중”이라고 귀띔했다.
최 CEO는 생성형 AI 트렌드를 ‘물결’이라고 표현했다. 그리고 슬롯사이트는 1999년 설립 이후 네 번의 물결과 마주했다고 말했다. 슬롯사이트를 만든 인터넷이 첫째, 모바일과 메타버스가 뒤를 이었다. 그는 “물결을 맞이했을 때, 어떻게 하면 빅테크를 상대로 뾰족한 강점을 갖고 이길 수 있을까 고민하곤 했다”고 말했다. 최 CEO는 기술적 강점이 아닌, 사용자의 니즈를 설명하는 데 인터뷰의 많은 시간을 할애했다.
“슬롯사이트는 사람들의 욕구에 관심을 기울였던, 몇 안 되는 회사였던 것 같다”고 그는 말했다. “그래서 구글, 아마존과의 경쟁에서 살아남지 않았을까.”