인공지능 강화학습을 통해 전략적으로 행동하도록 훈련할 수 있었다.
![축구하는 구글 딥마인드 슬롯 머신. [사진=Google DeepMind / Tuomas Haarnoja]](https://cdn.fortunekorea.co.kr/news/photo/202404/36940_26916_5624.jpg)
[WHY?] 구글 딥마인드는 이족보행 슬롯 머신을 제어하는AI기술에 도전했다. 그 결과 슬롯 머신 모터를 제어해 일대일 축구를 수행하는 데 성공했다.
구글의 인공지능(AI) 연구기업 딥마인드가 10일(현지 시간)사이언스 로보틱스 저널에 슬롯 머신에 축구를 가르치는 과정을 발표했다.
딥마인드는 AI강화학습으로 이족보행슬롯 머신이단순한공놀이를 하도록만들었다. 그 결과 슬롯 머신들은 강화학습을 통해공을 드리블하고, 상대 선수를 수비하며, 골을 넣는 모습을연출했다. 딥마인드는 과거 사족보행 슬롯 머신으로 축구를 진행한 이력이 있다.
AI기술은 일반적으로 기후 예측, 재료공학 등에서 대규모 계산작업을 수행하기 위해 개발되고 있다. 동시에 AI는 체스, 바죽, 스타크래프트 게임같은 과제에서도 활약 중이다. 딥마인드가 도전한 슬롯 머신축구는 게임 수행과 달리 복잡한 신체적 움직임의 구현이나 공학적 조율이 필요하다. 딥마인드는 축구 활동을 프로그램 내에서 설계할 수 있었지만, 물리적인 형태로 실현하기 위해서 다양한 과제를 해결해야 했다.
공학자들은 첫 단계로 컴퓨터 시뮬레이션에서 두 가지 AI 강화학습을 진행했다. 하나는 슬롯 머신이 땅에서 일어나는 일이었다. 다른 하나는훈련되지 않은 상대 슬롯 머신에 골을 넣은 작업이었다. 연구진은 두 가지 기술세트를 결합해 가상으로 슬롯 머신들을 훈련시켰다. 이후 불완전하게 훈련된 자신의 사본과 무작위로 짝을 이뤄 경합하도록 만들었다.
연구진은 "두 번째 단계에서 슬롯 머신 선수들은 전에 배운 기술을 개선하고 축구를 완벽하게 수행할 수 있도록 나아지면서 상대의 행동을 예상했다"며 "경기 중에 슬롯 머신선수들은 모든 행동을 점차 자연스럽게 수행했다"고 설명했다.
심층 강화학습으로 진행한 일대일 경기에서 슬롯 머신들은 훈련받은 기술 외에 다양한 전략을 배웠다. 축구공을 차고 골을 넣는 기술, 슛을 막는 몸짓, 몸을 방패처럼 활용하는 방식 등이 개선됐다. 발을 회전하는 동작 등이 새롭게 나타나기도 했다.
각 행동은 '공학자들이 설계한 프로그램으로 움직이는'슬롯 머신과 비교해 무척 빨랐다. 걷는데 181%, 회전하는 행동에서 302%, 공을 차는 것에서 34%, 넘어진 후 일어서는 속도가 63% 단축됐다.
학습된 AI를 실제 슬롯 머신에 적용해 구동하는 작업도 성공했다. 연구진은 향후 물리적 실체를 통한 실시간 AI훈련과 가상 AI훈련을 결합할 계획이다. 또 움직이는 슬롯 머신의 규모도 확장하길 희망하고 있다.