![미라 무라티 오픈메이저 바카라 최고기술책임자(CTO)가 13일(현지 시간) 생중계에서 GPT-4o를 발표했다. [사진=오픈메이저 바카라 유튜브 캡처]](https://cdn.fortunekorea.co.kr/news/photo/202405/38193_28187_336.png)
챗GPT로 유명한 인공지능(메이저 바카라) 전문업체 ‘오픈메이저 바카라’가 최신 거대언어모델(LLM)인 ‘GPT-4o(포오)’를 공개했다. o는 ‘옴니(Omni)’라는 뜻. 모든 것을 포괄한다는 의미이다. 글로만 소통이 가능하던 기존 모델에서 한층 진일보해 이제는 사람의 말을 알아듣고 동작한다. 영화 속에서 주인공을 척척 보조하던 고성능 메이저 바카라가 현실이 됐다는 평가가 나온다.
이날 발표는 13일(현지시간) 온라인 신제품 발표행사를 통해 사전 예고 없이 갑작스럽게 진행됐다. 이는 경쟁사인 ‘구글’의 연례 개발자 콘퍼런스가 진행되기 하루 전에 이뤄진 것으로, 메이저 바카라 시장에서 우위를 점하려는 노력으로 읽힌다.
보고, 듣고 답하는 ‘음성형 멀티모달’
오픈메이저 바카라는 지난해 3월 ‘GPT-4’를, 11월 ‘GPT-4터보’를 공개하며 세상에 연이어 큰 쇼크를 준 바 있다. 7개월 만에 진행된 이번 대형 업데이트 역시 다양한 신기술로 무장했다. 이날 발표는 미라 무라티 오픈메이저 바카라 최고기술책임자(CTO)가 진행했다. 그에 따르면 GPT-4o는 기존 모델인 GPT4.0과 동등한 성능을 보여주면서도 훨씬 더 반응속도가 빠르며, 텍스트, 이미지, 영상을 분석할 수 있다. GPT-4o의 평균 응답 시간은 232㎳(밀리초)로, 평균 320㎳로 대답하는 인간의 응답 시간과 거의 같다. 이전 모델인 GPT-3.5의 평균 응답시간은 평균 2.8초, GPT-4은 5.4초가 걸렸던 것을 생각하면 대대적인 개선이 이뤄진 것으로, 답답함을 느끼지 않고 사람과 대화하는 것과 비슷한 느낌으로 사용할 수 있다.
GPT-4o의 놀라운 점은 이처럼 빠른 응답속도에 더해 고성능 멀티모달(문자, 이미지, 음향 등 다양한 콘텐츠를 하나의 메이저 바카라로 처리하는 능력)을 구현했다는 데 있다. 스마트폰 카메라로 사물을 인식하고, 주위 소리도 알아듣는다. 이 모든 감각을 종합해 사람처럼 보고 들으면서 동시에 대화를 나눌 수 있다. 예를 들어 카메라 화면으로 주위 모습을 비추기만 해도 메이저 바카라가 진짜 사람처럼 이를 인식하고 원하는 방식의 답을 제공한다는 것이다. 사람의 얼굴표정을 보고 기분을 읽어내는 일도 가능해진다.

추론능력 향상돼 대화 자연스러워… 향후 50개 언어 지원
GPT-4o는 고성능 인공지능의 기본인 ‘추론능력’도 크게 향상됐다. 수학 등 57개 분야에서 메이저 바카라역량을 평가하는 ‘과목다중언어작업이해(MMLU)’ 테스트에서 88.7%의 정답률을 기록하며 최고 기록을 갱신했다. GPT-4터보의 86.5%와 구글 제미나이 울트라의 83.7%를 넘어서는 수준이다.
이런 추론 능력은 실제로 자연스러운 대화로 이어졌다. 음성 대화 모드를 실행하고, “수학 문제를 풀건데, 정답을 알려주지 말고 풀이 과정을 알려줘”라고 요청하면 실제로 알아듣고 문제풀이를 도와준다. 오픈 메이저 바카라는 13일 시연에서, 스마트폰 카메라를 실행시켜 GPT-4o에게 ‘3x+1=4′라는 수식을 보여줬다. 그러자 메이저 바카라는 바로 수식을 인식하고 “x를 제외한 모든 숫자를 한쪽으로 모이게 해야한다”며 풀이 과정을 설명해 보이기도 했다.
사람과 구분이 거의 불가능할 정도로 자연스러운 대화도 가능했다. 기계처럼 뚝뚝 끊어지는 목소리를 내지도 않았고, 필요하면 농담 등을 섞거나, 대화의 주제에 따라 음성 톤을 조절하는 것도 가능하다. 사람이 말을 하면 하던 말을 멈추고 일단 이야기를 듣는 모습도 보였다. 즉석에서 ’동화‘를 만들어 읽어 주기도 했으며, ’좀 더 감정을 실어서 읽어달라‘는 주문에 즉시 목소리 톤을 바꿔 보이기도 했다. 카메라를 통해 사용자의 웃고 있는 얼굴을 알아보고 “기쁘고 신이 난 것 같다”고 대답했다.
LLM의 특징인 통·번역 기능도 탁월했다. 인식한 음성을 실시간으로 다른 언어로 번역해 전달하는 것이 가능하다. 시연 과정에선 이탈리아어를 영어로, 영어를 이탈리아어로 번역해 보여주기로 했다. 오픈메이저 바카라 측은 앞으로 50개국의 언어를 지원할 예정이다. 이 말은 50개 언어를 자유롭게 통·번역 할 수 있는 만능 음성 비서로 활용할 수 있다는 뜻이다.
오픈메이저 바카라 측은 이런 기능에 대해 스스로 만족할 만한 혁신이었다고 자평했다. 무라티 CTO는“사용 편의성에 관해 정말로 큰 진전을 이뤘다고 생각한 것은 이번이 처음”이라고 했다.

응용범위 무궁무진… 사용량 제약 있지만 무료로 사용 가능
GPT-4o는 발표와 동시에 공개됐다. 다만 이날 시연한 ‘음성 모드’는 몇 주 정도 기다려야 할 것으로 보인다. 사용료를 받지 않는다. 기본적으로 유료 회원과 기능 차이는 두지 않지만, 사용 횟수만 제한을 둔다. 유료 회원과 비교하면 한 번에 입력할 수 있는 메시지의 양이 5분의 1로 줄어든다. 무라타 CTO는 이날 “더 빠르고 똑똑한 새로운 메이저 바카라모델 ‘GPT-4o’를 전 세계 모든 이용자에게 무료로 제공할 것”이라고 했다.
GPT-4o의 실시간 음성 모드 및 멀티모달 통합 능력, 뛰어난 추론능력 등을 활용하면 지금까지 세상에 존재하지 않았던 다양한 서비스가 가능해질 것으로 보인다. 이날 행사에 샘 울트먼 오픈메이저 바카라 최고경영자(CEO)는 참석하지 않았다. 하지만 자신의 블로그를 통해 GPT-4o의 장점을 소개했다. 그는 “(이런 음성 및 비디오 통합 기능은)지금까지 사용해 본 컴퓨터 인터페이스 중 최고”라며 “마치 영화에 나오는 메이저 바카라처럼 느껴질 정도”라고 했다. 그는 이어 “이것이 현실이라는 사실이 아직도 조금 놀랍다”고 했다.
울트먼 CEO는 미국의 소셜미디어 서비스 ‘X(트위터)’에 ‘Her(허, 그녀)’라고 적기도 했다. 2013년 개봉했던 메이저 바카라와 사랑에 빠진 한 남자의 이야기를 그린 영화다. GPT-4o 개발 과정에서 Her에 등장하는 메이저 바카라 ‘사만다’를 참고했다는 것을 알 수 있다. 울트먼은 “흥미로운 미래가 펼쳐질 것이다. 컴퓨터로 이전보다 훨씬 더 많은 일을 할 수 있게 될 것”이라고 했다.