이 스타트업의 파운데이션 온라인 슬롯, “강력한 언어온라인 슬롯에 대한 접근을 민주화한다”
[EYE ON AI] 신재민 트릴리온랩스 대표
그간 ‘한국어 특화 온라인 슬롯’은 ‘영어는 기대하기 어렵다’를 뜻했다. 하지만 신 대표는 “영어만큼 한국어도 잘해야 한국어 특화 온라인 슬롯’이라고 말한다.
문상덕 기자mosadu@fortunekorea.co.kr 사진강태훈
●신재민 트릴리온랩스 대표홍콩과학기술대(컴퓨터공학) 학, 석사 취득. 뤼이드와 네이버(하이퍼클로바X 연구 과학자)를 거쳐 2024년 트릴리온랩스를 창업했다.
한국에도 파운데이션 온라인 슬롯은 여럿 있다. 하지만 영어와 한국어 성능이 함께 좋은 온라인 슬롯은 없었다. GPT, 제미나이(Gemini) 등 영어권 온라인 슬롯보다 영어 성능은 다소 떨어지지만, 한국어 응답은 더 유창하단 점을 말하곤 했다. 한국어를 잘하는 AI 온라인 슬롯을 ‘한국어 특화 온라인 슬롯’이라고 한다면, 국내 주요 개발사들은 ‘소버린 AI’, 즉 주권을 확보하는 대신 성능을 다소간 양보해야 했던 셈이다.
영어에 비해 한국어 데이터가 부족할 수밖에 없는, 숙명적 한계일지 모른다. 하지만 신재민 대표는 환경이 아닌 접근법의 문제로 본다. 한국어 데이터가 적다면, 적은 데이터를 최대한 활용할 수 있는 방법론을 만들었어야 한다는 게 그의 생각이다. 신 대표는 국내 주요 온라인 슬롯의 방법론은 “다국어 학습에 적절하지 않은 접근”이라고 말했다.
신 대표는 네이버 ‘하이퍼클로바X’ 개발에 참여하다 지난해 파운데이션 온라인 슬롯 개발사 ‘트릴리온랩스’를 창업했다. 창업과 함께 580만 달러(약 90억 원)을 투자 받았다.
그는 “한국의 딥시크”를 말하지만, 방법론은 다르다. 딥시크는 영어와 중국어를 동등한 비율로 학습시켰다. 하지만 그만한 데이터를 확보할 수 없는 언어권에선 가능한 방법이 아니다. 신 대표는 영어와 그 외 다국어를 9 대 1의 비율로 학습시켰을 때, 양쪽 언어의 성능이 함께 올라가는 실마리를 찾았다. 이제 그는 자체 온라인 슬롯의 파라미터 규모를 점차 키우고 있다.
그의 접근이 적중했다면, 더 이상 온라인 슬롯의 국적과 성능은 앙자택일의 문제가 아니다. 또 한국어의 자리에, AI 붐에서 소외돼 있던 언어를 둘 수도 있다.
연구 결과를 담은 페이퍼(‘Trillion 7B Technical Report’)에서 그의 팀은 이렇게 설명했다.
“이 발견은 강력한 언어 온라인 슬롯에 대한 접근을 민주화한다. 다시 말해 막대한 연산 자원(GPU 등)과 데이터 없이도 고성능의 다국어 온라인 슬롯을 개발할 수 있는 길이 열렸다는 것이다.”
주권과 성능
Q ‘소버린 AI’라는 말에는 독소가 있습니다. ‘주권’ 뒤에 숨을 공간을 만들어요. 기존 온라인 슬롯의 API를 호출하는 서비스도, 기존 온라인 슬롯을 가져다가 파인 튜닝한 온라인 슬롯도 ‘독자 온라인 슬롯’이라고 주장해요.
우리는 파운데이션 온라인 슬롯을 만듭니다. 오픈AI나 네이버, LG, 알리바바, 환팡퀀트(딥시크) 같은 회사처럼요. 다른 점은 레시피예요. 기존 회사들은 중국에서 만든 방법론을 갖다 쓰는 경향이 있어요.
Q 그렇다면 ‘독자 온라인 슬롯’이라고 부를 수 있나요?
나쁜 건 아닙니다. 방법론은 수학 같은 것이니까요.
문제는 한국 실정에 맞는 온라인 슬롯을 만들기엔 부족해요. 중국은 미국만큼 데이터가 많습니다. 그러니 조금 무식한 방법을 써도 온라인 슬롯을 잘 만들 수 있어요. 중국어와 영어를 같은 비율로 넣어서 학습시키는 겁니다.
그런데 한국에는 그만한 한국어 데이터가 없습니다. 중국과 같은 방식으로 만드는데, 중국만큼 데이터가 없는 거예요. 그러면 온라인 슬롯 성능을 좋게 만들기 어렵죠. 영어 데이터가 아무리 많아도 한국어 데이터가 적어서 성능을 높이기 어려운 거예요.
결국 관건은 ‘한국어 데이터의 한계를 어떻게 극복하느냐?’예요. 한국어 데이터를 비교적 적게 쓰더라도, 영어권 온라인 슬롯과 성능이 비슷하게 나와야 ‘한국어 특화 온라인 슬롯’이라고 할 수 있습니다. 한국어 데이터를 많이 학습시켰다고 한국어 특화 온라인 슬롯은 아닙니다.
Q 어떤 방법이 있을까요?
오픈AI 온라인 슬롯은 학습 데이터의 99%가 영어예요. 1%가 그 외 다국어예요. 중국 온라인 슬롯은 자국어와 영어 비율이 반반이에요. 오픈AI는 영어 외 다국어 성능을 올리는 데 한계가 있고, 중국 온라인 슬롯은 다른 다국어 온라인 슬롯이 따라하긴 어려워요. 저는 (두 가지 접근) 사이에 답이 있다고 봐요. 영어 90%, 한국어 10%를 입력해도 양쪽 언어의 성능이 함께 개선되는 방법을 만들고 있어요. 만약 성공하면, (한국어의 자리에) 일본어, 동남아 국가 언어 등을 놓아도 되죠.
Q 영어로 된 글을 한국어로 잘 번역한 다음, 한꺼번에 학습시키면 어떨까요?
가장 좋은 품질의 데이터죠. 그런데 이런 데이터를 많이 만들기 어려워요. 번역을 일일이 해야 하는데, 비쌉니다. AI 온라인 슬롯에 번역을 맡기면, 좋은 품질의 결과를 못 만들어요. 애초에 한국어 온라인 슬롯이 안 좋으니까요. 그래서 다국어 문서 학습에 AI 번역을 아직 못 쓰고 있습니다.
인류가 AI에 대해 발견한 진실은 딱 하나예요. 확장성. 온라인 슬롯에 데이터를 때려 넣으면, 쉽게 말해 돈을 쓰는 만큼 해결이 됩니다. 인간이 학습과정에서 따로 지도하지 않아도 성능이 좋아지더라. 그런데 인간이 일일이 번역 과정에 개입해야 한다면 확장성이 없겠죠.
Q ‘인간이 개입하지 않는 다국어 학습’, 방법을 찾았습니까?
영어와 한국어의 의미가 완전히 같진 않아도, 혹은 (두 언어 간에) 아예 관련이 없더라도 양쪽 언어로 된 문서들을 대규모로 투입했더니 온라인 슬롯이 알아서 학습하더라. 학습할 때 양쪽의 언어를 동시에 참고할 수 있게 ‘어텐션’을 열었어요. 그랬더니 온라인 슬롯이 알아서, 수많은 문서를 보면서 관련 있는 단어끼리 묶고, 그렇지 않은 건 묶지 않더라는 거죠. 그게 ‘다국어 문서 어텐션(XLDA)’입니다.
Q 어텐션을 왜 열고 막습니까?
보통은 문서 간 어텐션을 막아요. 예를 들어 포춘과 다른 잡지가 있다고 해요. 서로 관련이 없는 잡지예요. 그러면 문서 간 어텐션을 막아야 서로를 참고하면서 예측(생성)하지 않아요.
그런데 우리는 ‘두 잡지 간 언어가 다르다면, 서로 참고하도록 해’라고 열어 둔 겁니다. 이렇게 열었더니, 게다가 대규모로 학습시켜도 성능이 더 좋아지더라는 겁니다.
트릴리온랩스는 지난 7월 허깅페이스에 파라미터 207억 개 규모의 온라인 슬롯 ‘트릴리온-21B’를 공개했다. 공개한 자료에 따르면, 해당 온라인 슬롯은 종합지식(MMLU), 한국어 언어 이해(KMMLU), 수학(MATH), 코딩(MBPP Plus) 등 고난도 추론 중심 벤치마크에서 알리바바의 큐원(Qwen)3, 메타 라마(LLaMA)3, 구글의 젬마(Gemma)3 등 해외의 중형 규모 온라인 슬롯에 버금가는 성능을 보였다(※그래프 참조.)
Q 가설을 갖고 만든 겁니까?
실수가 낳은 발견이에요. 어떤 연구든 항상 그래요.
처음 시작했을 때 가설은 이랬어요. 중국어, 한국어, 일본어는 한자 기반 언어이니까 (함께 학습시키면) 잘되지 않을까? 중국어를 조금 넣었을 때는 괜찮았는데 스케일을 키워도 성능이 안 좋아집니다. 왜 그럴까? 각 언어에서 같은 한자를 다른 뜻으로 써요. 그래서 사람이 일일이 매핑해 줘야 합니다. 그걸 큰 규모로 할 수 없잖아요. 사전 학습 단계에서 대규모로 쓸 수 없다면 의미가 없어요. 파인튜닝하고 특정 용도로 특화할 때는 그런 고급 데이터가 필요하죠. 그런데 저희가 연구하는 건 일반적인 지식, 비지도 학습을 하는 단계이니까요.
Q 개발한 방법론은 ‘게임 체인저’입니까?
아직은 아니에요. 게임 체인저라고 한다면 지금보다 돈을 100배 아껴도 같은 성능을 내야 하겠죠. 그래도 유의미한 한 걸음이라고 생각해요. 영어에서만 누릴 수 있는 성능을 다른 언어에서도 누릴 수 있는 가능성이 생겼으니까요. (Q 자국어를 학습시킨다고 해서 영어를 포기할 수는 없으니까요.) 그렇죠. 싸게, 그러면서 자국어 성능을 높이면서 지능을 포기하지 않는 길을 찾아냈어요.
IT와 AI
신 대표는 2023년 1월부터 약 1년간 네이버 하이퍼클로바X 팀에서 연구했다. 네이버는 그해 8월 하이퍼클로바X를 공개했다. ‘한국어 특화 언어온라인 슬롯’이 콘셉트였다. 한국어에서만큼은 어떤 온라인 슬롯보다도 높은 성능을 보여주겠다는 것. 하지만 신 대표는 결과를 아쉬워했다. 기성 온라인 슬롯과 비교할 때 학습 방법론이 크게 다르지 않았고, 그래서 주목할 만한 성능을 내지도 못했다고 봤다. 보다 근본적으론 “IT기업이 AI를 꼭 잘하는 건 아니”라고 진단했다. 전략의 문제였다.
Q 하이퍼클로바 개발에 참여했죠. 당시 한국어와 영어의 관계는 어땠나요?
‘부정적 간섭’이란 현상이 있습니다. 영어를 학습시킬 때 프랑스어를 같이 학습시키면 성능이 더 좋아집니다. 스페인어, 독일어, 이탈리어어 모두 도움이 돼요. 비슷한 언어라서 그렇습니다. 중국어까지도 괜찮아요. 그런데 한국어, 일본어는 성능을 떨어뜨려요.
Q 영어권에서 봤을 때 한국어 데이터는 ‘AI의 적’이네요.
그런 측면이 있죠. 영어와 한국어가 (언어학적으로) 워낙 거리가 먼 언어라서 그렇습니다.
Q 네이버는 하이퍼클로바가 한국어 데이터를 가장 많이 학습했다고 말합니다. 적어도 한국어 성능에서는 가장 낫다는 뜻이겠죠?
온라인 슬롯 성능이 한국어 데이터의 양에 제한을 받았을 것이고요. 그리고 한국어 데이터의 질이 좋지 않았어요. 지식인, 카페, 블로그 데이터가 많았어요. 결국 질 좋은 데이터는 영어로 된 것이 많아요. 많은 지식이 영어로 생산되니까요. 한국어 데이터를 억지로 넣으려고 하지 않아도, 영어와 함께 학습시키면서, 한국어 성능까지 올릴 수 있는 방법론을 그래서 고민한 겁니다.
‘한국어 특화 온라인 슬롯을 잘 만들면 다른 언어의 특화 온라인 슬롯도 잘 만들 수 있다.’ 네이버도 이렇게 말합니다. ‘소버린 AI’를 비영어권 언어 온라인 슬롯로 확장하는 철학으로 삼고 있어요. 대표님도 그렇고요.
집중도도 달라요. 구글이 한 실수를 네이버도 하고 있다고 봐요. AI가 검색을 죽일 거거든요. AI를 키우려면 검색을 죽여야 해요. 어떻게 이런 선택을 하겠어요? 구글이 그래서 늦었어요. 네이버도 검색을 죽이는 제품을 만들어야 했습니다. 그래야 네이버가 비로소 AI 회사가 된다고 생각해요.
또 AI 회사로 바뀐다는 건 사람이 바뀐다는 뜻이기도 해요. IT 회사와 AI 회사는 다릅니다. AI 온라인 슬롯을 만드는 사람은 수학자에 가까워요. (IT서비스를 만드는) SW 엔지니어와는 거리가 있어요.
태초에 말이 있었다
“빛이 있으라!” 그러자 빛이 생겼다(창세기 1장 3절).
가상공간도 ‘말씀’으로 만들어졌다. 인간의 언어를 바탕으로, AI가 언어와 코드, 이미지, 그리고 액션을 스스로 만들어내고 있다. 언어 온라인 슬롯을 놓치면, 그 이후도 따라갈 수 없다고 신 대표는 본다.
Q 많은 전문가가 AI 온라인 슬롯을 직접 개발하는 대신, 서비스에 집중해야 한다고 합니다.
‘퍼플렉시티(Perplexity)’ 인기가 많죠. 개발자들이 좋아하는 ‘커서(Cursor)’라는 툴도 있고요. 퍼플렉시티는 GPT와 구글 서치의 API를 갖고 와서 서비스해요. 커서는 클로드 API를 바탕으로 하고요. 그런데 그렇게 만든 서비스로 클로드와 경쟁합니다. (이렇게 API를 가져다 쓰는) 서비스들을 ‘GPT 래퍼(wrapper)’라고 불러요.
위험하죠. API를 막으면 방법이 없어요. 나중에 반독점법 적용을 받더라도 당장은 죽일 수 있어요. (지금 인기 있는 서비스들이) 검색, 코딩 영역을 다루잖아요. 결국 구글이 먹어야 하는 영역입니다. 구글은 우선 API를 제공하고. 래퍼들이 서비스 하게 둬요. 그러고 데이터를 모읍니다. 그러다가 직접 서비스를 내요. API를 막은 다음 인수하든지요. 시나리오가 아니에요. 커서는 오픈AI가 지원해서 성장했어요. 그런데 최근 오픈AI가 ‘원드서프’라는 커서 경쟁사를 인수한다고 해요. 뒤통수 때린 거죠. 커서는 지금 독자 온라인 슬롯을 만들고 있습니다.
(※이후 오픈AI의 원드서프 인수는 무산됐다. 주요 투자자인 MS와의 의견 차이 때문. 인수 무산 이후 구글은 윈드서프 공동 창업자 등 주요 인력을 스카우트했다.)
Q 이제 AI 성능 경쟁은 자본 싸움이 됐으니까요. 정면 돌파는 가능성이 없다고 볼 수도 있죠.
억만금이 있어야만 자체 온라인 슬롯을 만들 수 있느냐? 그 가설은 틀렸다고 생각해요. 딥시크가 잘 보여줬고요. 또 지금의 (트랜스포머) 방법론은 양자 컴퓨팅과 안 맞아요. 그러면 그 시대에 맞게 새로운 방법론이 필요해질 겁니다. 그런 미래를 준비해야 해요.
중요한 건, 언어 온라인 슬롯을 갖고 있지 않으면 다음을 생각하기 어렵단거예요.
Q 다음 경쟁은 어디서 벌어질까요?
영어 다음이 코딩이었어요. 역시 영어를 기반으로 했어요. 그다음은 역시 데이터가 많이 축적된 도메인으로 가겠죠. 그런 면에서 수학이 코딩과 비슷해요. 로보틱스는 시간이 걸릴 것 같아요. 물리적 세계에서의 데이터가 많지 않아요.
데니스 홍 교수님도 같은 말씀을 하셨습니다. 알아서 움직이는 로봇의 머리, 피지컬 AI를 만들기엔 데이터가 너무 없다고요. 시뮬레이션 데이터를 쓰기엔 현실 데이터보다 정밀하지 않고요.
맞아요. VLA(시각-언어-행동) 온라인 슬롯이라고 하는데요. 이미지와 텍스트 데이터를 학습해서 로봇이 적절한 행동을 하게 만드는 겁니다. 당장은 물리적 세계를 잘 모르니까, 가상 공간에서의 액션에 활용될 수 있을 거라고 봐요. 웹 브라우저를 알아서 움직이도록 한다든지, 모바일 디바이스 위에서 이뤄지는 동작을 제어할 수도 있겠죠. 그렇게 가상공간에서 쓰다 보면, 물리적 세계로 나가게 될 거예요. 테슬라 자율주행 초기 버전도 게임 안에서 학습했다고 해요.
중요한 건, 언어 온라인 슬롯을 갖고 있지 않으면 다음을 생각하기 어렵다는 거예요.
Q 대표님은 ‘한국의 딥시크’를 꿈꾸나요?
크게 다르지 않아요. 효율적으로 온라인 슬롯을 만들어 보자는 목적이 같아요. 접근 방식은 조금 다르죠. 중국은 GPU가 많지 않아도 데이터는 많거든요. 한국은 데이터도 그만큼 없어요. 그렇다면 적은 데이터로 어떻게 자국어 성능을 효과적으로 높일 수 있을까? 비단 한국어의 문제가 아니에요. 영어와 중국어를 제외한 모든 언어의 문제예요. 인도도 인구수는 많지만, 문맹률이 높아요.
Q 이 나라에서 사업하는 게 제약인가요, 기회인가요?
제약이 기회를 만든다고 생각해요. 딥시크도 중국이란 제약을 바탕으로 나온 것이고요. (업계에서) 우리가 하는 일을 ‘스타트업은 해낼 수 없다’라고 보시기도 해요. 그런데 저는 스타트업이기 때문에 시도해 볼 수 있다고 생각해요.
올바른 길은 항상 어려운 길이었어요. 어려운 길이라고 다 맞는 길은 아니지만, 맞는 길은 항상 어려웠습니다. 우리는 어려운 길을 가고 있습니다.
●파운데이션 온라인 슬롯대규모 데이터세트로 사전학습 시킨 범용 AI 온라인 슬롯.
●사전학습AI 온라인 슬롯을 실제로 쓰기 전, 대규모 데이터를 입력해 일반적인 언어 패턴과 지식을 먼저 학습하는 단계.
●강화학습온라인 슬롯이 시행착오를 겪으며 더 나은 답변에 대해 보상을 받는 방식으로 성능을 높이는 학습 단계. 사전학습 후 특정 작업에 맞춰 정밀 조정할 때 주로 사용된다.
●어텐션사람이 독해할 때 중요 단어에 집중하듯, 어떤 단어가 중요한지 판단, 가중치를 두며 이해하도록 하는 메커니즘. 이를 바탕으로 AI가 문맥을 이해할 수 있게 됨. LLM의 핵심 원리.
●트랜스포머어텐션을 기반으로 개발된 AI 온라인 슬롯 구조. 문장 전체를 한꺼번에 보고, 각 단어 사이의 연관성을 계산하도록 해 병렬 처리와 고속 연산이 가능하다. LLM의 기반 구조.
●부정적 간섭제2언어를 배울 때, 모국어의 구조, 규칙, 의미 해석 방식이 제2언어 학습에 부정적인 영향을 주는 현상.