Alpha Go Introduction

AI #1. Mastering the game of Go with
deep neural networks and tree search
알파고는 이세돌을 이길까.
Curtis Kim @ KAKAO

오늘의 이야기.

알파고는 이세돌을 이길까?
- 결과적으로 이긴다면 어떤 의미를 가질까.

- 이기지 못했다면 어떤 의미를 가질까.

우리는 ‘인공지능’을 만들 수 있을까?
- 인공지능이 무엇일까.

- (바둑의 관점에서) ’마음’이란 무엇일까.

– 비밀 유지 -
시작하기에 앞서서,

AlphaGo를 SegFault 내는 방법을 공개하려고 합니다.

Reinforcement Learning에 대한 소개로 시작합니다.

Reinforcement Learning(RL) 이란.

RL의 종류들

간단한 튜토리얼

시사점

Deep Mind의 첫번째 모델 : RL for Atari

Reinforcement Learning 이란?
쉬운 예제로
Supervised Learning, Unsupervised Learning, …

Reinforcement Learning의 대표 키워드
On-line Learning : 실시간으로 학습해요

Markov Decision Process : 마코브 결정 프로세스를 가정해요

Exploration : 내가 취할 수 있는 행동들을 다양하게 함으로써 배워요

Bellman Equation : 보상을 최대화하는 것이 문제의 목표에요.

Markov Decision Process
어제 시간(3월 8일)이라는 시점에서 비가 온 상태였음.

지금 시간(3월 9일)이라는 시점에서 날씨가 맑은 상태임.

내일은…

*State Transition(상태변화)에 Memory-less Property가 있음.

예를 들어 아타리 게임을 정복하기 위해 RL을 사용한다고 하면,
On-line Learning : 실시간으로 학습해요

- 아타리 게임을 수행하면서 실시간적으로 게임의 룰을 학습해요

- Supervised Learning이었다면 많은 게임 상태에 대해서 좋은 움직임(정답)을 미리 만들어두어야 했겠죠

Markov Decision Process : 마코브 결정 프로세스를 가정해요

- 아타리 게임의 화면, 스코어 등등이 각 시점에서의 상태가 됨

Exploration : 내가 취할 수 있는 행동들을 다양하게 함으로써 배워요

- 비슷한 상태에서 왼쪽으로 가보기도하고, 오른쪽으로 가보기도하고.

Bellman Equation : 보상을 최대화하는 것이 문제의 목표에요.

- 게임이 종료되었을 때의 Score를 최대화하는 것이 목표.

- 각 시점에서의 모든 움직임과 상태변화는 게임 종료 시점의 Score를 최대화하는 것을 목적으로 해요.

잠시 뒤에 더 자세히.

Reinforcement Learning - Deﬁnition #1
이 모든 것들을 한 군데에 몰아 넣으면.
사전 정보가 없는 환경𝜖 에서

각 시각 t에서의

상태 를 관측하고

가능한 행동 중 하나 를 취하는데

이 행동이 상태를 변화시키고 시각이 (t+1)로 변경되고
보상 를 줌

시점 t 에서의 총 보상 =

(현재 시점 보상과 미래에서 받을 보상을 time-discounted)

Bellman Equation (Q 함수)
Reinforcement Learning의 환경

Reinforcement Learning - Deﬁnition #2
꽤 많은 변형이 있고, 다양한 방식으로 문제를 모델링 하는데..

TD-Gammon

Q Learning*
마코브 모델링 등의 과정을 생략하고

직접 Q 함수를 예측함으로써 RL을 수행.

…

Reinforcement Learning - Tutorial
간단한 Web Tutorial
https://cs.stanford.edu/people/karpathy/convnetjs/demo/rldemo.html

학습이 다 된 이후의 영상

Reinforcement Learning - From tutorial
이상하죠.
Agent가 주변에 아무것도 없을 때 왜 더 빠르고 확실하게 움직이지 않을까?

Agent가 벽에 부딪혔을 때 왜 빠르게 돌아나오지 못할까?

빨간 적이 바로 레이더에 걸렸을 때 왜 바로 방향을 틀지 않을까?

*빨간 점과 파란 점이 동시에 있을 때 왜 파란 점만 먹지 않을까?

문제점 요약
학습 과정이 매우 느려요.

*임의의 행동들 만으로는 충분히 좋은 경험을 못하고 있어요.

더 훌륭한 Agent로 학습시킬 수는 없을까?
Exploration을 더 잘하는 것이 하나의 포인트

기존 방법 #1 : 멘토를 사용하자.
초반에 랜덤한 행동들만을 취하는 것이 아니라 훌륭한 정답지를 제공해줌

빨간 점과 파란 점이 동시에 레이더에 걸렸을 때 빨간 점을 피해 파란 점만 취하도록 액션을 조작한다면 어떨까.

기존 방법 #2 : 기존 경험들 중 학습에 재사용할만한 것을 다시 사용하자(replay)

기존 방법 #3 : 기존 경험 증 임의로 하나를 선택하여 다양한 액션을 취해보자.

Model for Atari Video Game

from Deep Mind

Reinforcement Learning + Convolutional Neural Network

Atari Player from Deep Mind
https://www.youtube.com/watch?v=EfGD2qveGdQ

사전 정보 없이 스스로 학습했던 Agent가
이 게임의 포인트를 찾아냈어요.
벽돌을 한쪽 벽 근처에서 뚫어내고,

공을 벽 위로 올리면 매우 많은 점수(보상)을

얻게 된다는 걸.

사람보다 월등히 높은 점수를 얻게 되었어요.

State Q(s, a)
모든 액션 중 가장 높은 reward가 기대되는 것을 취함

Important factors
Replay : 온라인 학습이긴 하지만, 과거 데이터를 재활용! (mini-batch에 샘플링)

- 온라인 학습만을 하면 경험 자체가 연속적인 상황에서만 이루어지므로 강한 Correlation관계가 있음

- 한번의 경험을 여러번 사용해서 효율적

- 학습 과정을 Smoothing-out 시킴

- *중요한 과거 경험에 가중치를 주어 Sampling.

Iterative Update

- 학습되는 과정에서 Q함수 업데이트에 대한 노하우

Epsilon Annealing
- 처음엔 랜덤한 액션을 취하며 게임을 하다가, 최종적으로는 네트워크로부터 얻은 액션만으로 행동을 함

- *알파고와 차이가 나는 부분 중 하나.

Results - 마지막 히든 레이어

Result - 게임 플레이 중 네트워크 결과

Model for Playing Go

from Deep Mind

+ Reinforcement Learning

+ Convolutional Neural Network

+ Monte-Carlo Tree Search(Simulation)

Introduction
현재 돌들이 놓여진 ‘상태’에서 나는 어디에 돌을 두어야 할까?

상대의 승산을 최소화하고 나의 승산을 최대화.

대략 250^150 의 경우의 수를 탐색해야 함

360자리 수 이상의 경우의 수

우주의 원자보다 월등히 많은 수

Introduction
전략1. 트리의 탐색 폭을 줄이는 것

전략2. 트리의 탐색 깊이를 줄이는 것

Important Factors
문제 : 현재 바둑돌이 두어진 상태로부터 새로운 곳에 돌을 둔다는 것(행동)에 대한 점수(최종보상)를 추정
한 돌을 두는 것에 대하여 점수는 해당 돌을 둔 후 그 다음 돌을 두는 것에 대한 점수와 관계 있음

전략1 : 탐색의 폭을 좁히자
- 두어야할 점들을 좁혀야 함

- 현재 상태로부터 둘 수 있는 각 점들에 대해서 점수를 뱉어주는 네트워크를 만듦

- 탐색해야할 점을 해당 점수를 확률로 하여 랜덤 선택. (Monte-Carlo Simulation)

전략2 : 탐색의 깊이를 줄이자
- 현재 상태만 보고 이길 점수를 뱉어주는 네트워크를 만듦

- Tree를 Pruning하거나 최종 점수를 추정하는데 씀

Learning Phases #1
Phase #1. Supervised Learning
기존 대국 정보를 통해 프로기사(6단~9단)의 수를 예측하는 모델을 학습.

실제 대국 16만개 기보

3000만개의 바둑판 상태

50개의 GPU로 3주간 학습하여 아래의 2개 모델 완성

1. Fast Rollout Network : Accuracy 24.2%, 2us per test

모델1은 실제 대국 시 탐색할 돌의 위치를 추천받는 Monte-Carlo Simulation 에 사용해요. 빠르니까.

모델2에 비해 15000배 적은 연산량

2. Rollout Network : Accuracy 58%, 3ms per test

모델2는 Phase #2 이후의 모델들을 만드는 Weight를 제공해요. 정확하니까.

SL Policy Network 라고도 불러요.

Learning Phases #2
Phase #2. Reinforcement Learning of Policy Network
Phase #1에서 학습한 모델의 Weight를 그대로 가져와서 Initialise

- RL에서 일종의 멘토링 기법

Reinforcement Learning으로 Weight 강화함

- 주로 다른 대국 프로그램 등과 대결하며 학습

- 상대를 랜덤하게 선정하며 진행함.

- 대국 히스토리를 재활용하는 Replay 사용함

- Replay는 서로 다른 대국에서 뽑히도록 하는 등의 제약을 둠.

Learning Phases #3
Phase #3. Reinforcement Learning of Value Network
#2 - Policy Network : 현재 상태로부터 둘 수 있는 가능성 각각에 대해

점수를 뱉어줌

#3 - Value Network : 현재 상태만 보고 점수를 뱉어줌

Reinforcement Learning으로 Weight 강화함

- 스스로와 대결하면서 강화함

- 스스로와 대결할 때 Policy Network를 이용해 대결함

- 대국 히스토리를 재활용하는 Replay 사용함

Testing Phase in Big Picture
Fast Rollout Network 이용
내가 현재 상태에서 둘 수 있는 돌들의 위치들에 대한 예상 점수들을 빠르게 받음

Monte-Carlo Simulation
예상 점수에 비례하게 돌의 위치를 선정함

Random하게 돌의 위치를 선정하는 것이 아니므로 트리 탐색의 폭을 줄임

Value Network 이용
돌들을 두어가면서 계속해서 Score를 산정해 가며, 최종적으로 가장 높은 점수를 갖는 돌의 위치를 선택함

비교적 정확한 수준으로 Optimal Value Function이 추정되어 있으므로 트리 탐색의 깊이를 줄임

1200여개의 CPU와 180여개의 GPU를 사용.

*예상 질문 : Monte-Carlo Simulation + Value Network 하지 말고 Policy Network으로 한번에 예측하면 안되는 건가
요?

Summary & Discussion
딥마인드가 말하는 요점
- 효과적인 돌의 위치 선정 방법을 만들어 냈다.

- 효과적이고 성능 좋은 평가 방법을 만들어냈다.

- Supervised Learning을 통한 Reinforcement Learning의 학습 효과를 증가시켰다.

- 복잡한 Decision Making Task에 적용가능할 것으로 예상한다.
- 검색 크롤러
- Etc…

논점
- 다른 프로그램들과 대국하면서, 혹은 스스로 대국하면서 더 강력하게 강화학습이 되었을까?

- 이세돌을 이긴다면 어떤 의미일까.

- 이세돌에게 진다고 하더라도 의미가 있을까.

- 이세돌의 대국 기록은 학습 데이터로써 더 의미있을까.

- 이세돌과 알파고 간의 5경기 대국 기록은 알파고의 이후 학습에 의미를 가질까.

- Computation Power를 무한정 늘린다면 어떻게 될까.

AI #1. Mastering the game of Go with
deep neural networks and tree search

알파고는 이세돌을 이길까.
Curtis Kim @ KAKAO

Alpha Go Introduction

More Related Content

Similar to Alpha Go Introduction (20)

Alpha Go Introduction