심층강화학습, 그리고 Context

JayLee Deep Learning Leave a Comment

구글이 인수한 DeepMind의 알파고는 deep learning이라는, 일반인이 접근하기 어려웠던 인공지능 관련 전문기술에 대한 대중화에 큰 기여를 했다. 이 DeepMind의 시작으로 잘 알려 있는, Atari Breakout 게임에 대한, 자기학습능력에 대한 유명한 비디오는, AI agent의 무궁한 가능성을 시사해 주었다.

심층강화학습방법론(Deep Reinforce Learning) 가운데, DeepMind가 내부적으로 일컫는, DQN(Deep Q-Network)이라고 불리우는, DeepMind의 초기 알고리즘이 어떻게 단 몇 시간 만에, 인간최고수의 벽돌깨기 게이머를 압도하는 자가 학습을 가질 수 있는가를 1분 30초 만에 보여주고 있다.

그리고 이 DQN의 한계 혹은 제약을 넘어선, Deep Learning 알고리즘을 바둑(Go)에 적용, 바둑을 즐기는 적지 않은 국가들에게 ‘인공지능 쇼크’를 선사했다.

하지만 이 성과에 대한 공개기사 ( https://research.googleblog.com/2015/02/from-pixels-to-actions-human-level.html )에는 중요한 글과 아래의 이미지가 함께 하고 있다.

아래 도표는, 같은 해 2월, Nature 지에 실린, 다음의 논문에 핵심 도표 가운데 하나다. ( https://www.nature.com/nature/journal/v518/n7540/full/nature14236.html )

위의 이미지는 당시 DQN이 단기간에 학습능력이 뛰어난 사람과 비교해서, Reinforce 학습 방식으로, 평균적인 사람 이상의 성과를 보였던 비디오게임과 그렇지 못한 게임, 일부는 전혀 학습되지 못하는 게임까지의 목록들을 보여주고 있다.

물론 논문에서는, ‘픽셀과 보상(게임점수) 이라는 두 가지 팩트만으로, 심층Q-Network 에이전트가 이전의 모든 알고리즘을 뛰어넘는 수준을 달성했음을 입증했다는 주장이다.

이들의 Agent가 전혀 자가학습패턴을 획득하지 못했다는, Montezuma’s Revenge라는 게임의 영상이다. 몇 분만 살펴보면 요사이 게임에 비하면 지극히 단순하며, 7세 정도의 아이들도 1시간 이내 게임방법을 획득할 만한 수준의 게임임을 확인할 수 있다.

다면, 이들의 당시 DQN은 큰 차이가 없어 보이는, 적지 않은 종류의 게임에서는 왜 사람보다 압도적으로 낮은 성과를 보여주게 된 것일까?

당시 논문의 주제도 아니고, 이에 대한 후속논의에서도 다루어지지 않았으나, 인공지능 알고리즘분야의 비전문가인 필자에게 가장 먼저 눈에 띄는 차이점은 Context였다.

아래는 DQN이 7%의 낮은 학습율을 보여준, Asteroids의 영상이다.

Context, 여러분이 지금 검토 혹은 구축/운영하고 있는 AI 서비스는 얼마나 충분한 Context를 감당, 관리할 수 있는가?

댓글 남기기