SlideShare a Scribd company logo
Артур Кадурин
Андрей Иванов
Владимир Шакиров
Павел Нестеров
Владислав Беляев
Сделать ИИ для игры в компьютерные игры серии Atari 2600 (49 игр)
лучше, чем Google
Результаты Google:
22 из 49 игр лучше человека
43 из 49 игр лучше существующих ИИ решений
Задача
Что такое Глубокое обучение?
Модель решения
Идеи
Играть «умнее»
Искать новую стратегию
1. Выбирать больше случайных действий для обучения, если
сессия длится долго
2. После 500 000 шагов обучения, периодически (например,
каждые 100 из 1000) блокировать действия, которые
предсказываются по выбранной стратегии
3. Увеличить количество полносвязанных слоев
4. Изменить размер сверточных фильтров на 3х3 и
увеличить количество сверточных слоев
Играть «дольше»
Давать за смерть отрицательный ревард (фиксированный
или в зависимости от последних 10 ревардов)
«Глубокое» изменение архитектуры сети и прочие идеи
1. Научиться предсказывать все следующие кадры для всех
возможных действий
2. Сделать претрейн сети на кадрах из всех трех игр или
взять натренированную сеть для старта
3. Сделать больше входных данных, добавив
искусственные кадры с выделенным движением
Результаты
хуже
Не успели
попробовать
Результаты
лучше
Не удалось
запустить
Результаты
лучше
Не успели
попробовать
Не успели
попробовать
Не успели
попробовать
Решение и результаты
1. Добавлено 2 полносвязанных слоя нейронной сети
2. За смерть дается отрицательный ревард: max ( - половина от среднего
реварда за последние 10 игр, -100)
Репрезентативное сравнение не проводилось
Seaquest, Space Invaders, H.E.R.O.
Решение Игра
Количество
шагов
Наш результат Google
2 Tutankhamon 500 000
Среднее за 10 игр
45
Среднее за 10 игр
3
1 Gopher 1 125 000
Среднее за 10 игр
750
Среднее за 10 игр
480
(на 3 000 000 шагов)
1 и 2 Kung Fu Fighter 4 000 000
Максимум
27 800
Среднее по статье
23 270 (+- 5955)
(на 50 000 000 шагов)

More Related Content

ODP
Разработка игр на базе AlternativaPlatform
PPT
2015-12-06 Сергей Хрущев - Человеческим языком о суперкомпьютерах
RTF
Crysis
PPTX
DeepHack.Game 5vision team
PPTX
DeepHack.Game Life Propagation team
PPTX
DeepHack.Game Rock band team
PPTX
PPTX
Compelling Storytelling in Video Game Design
Разработка игр на базе AlternativaPlatform
2015-12-06 Сергей Хрущев - Человеческим языком о суперкомпьютерах
Crysis
DeepHack.Game 5vision team
DeepHack.Game Life Propagation team
DeepHack.Game Rock band team
Compelling Storytelling in Video Game Design

Viewers also liked (10)

PDF
Intro to Deep Reinforcement Learning
PPTX
The Video Game R-Evolution
PDF
Experiential Marketing and Deep Learning
PPTX
Atari 2600 Programming for Fun
PDF
E.T. The Extra-Terrestrial - Atari 2600 - Manual
PDF
Atari 2600 VCS Programming
PDF
Programação para Atari 2600
PDF
Presentation dl beyond-the_hype-v0.3
PDF
Deep learning beyond_the_hype-franceia@lapaillasse
PPTX
Deep neural networks
Intro to Deep Reinforcement Learning
The Video Game R-Evolution
Experiential Marketing and Deep Learning
Atari 2600 Programming for Fun
E.T. The Extra-Terrestrial - Atari 2600 - Manual
Atari 2600 VCS Programming
Programação para Atari 2600
Presentation dl beyond-the_hype-v0.3
Deep learning beyond_the_hype-franceia@lapaillasse
Deep neural networks

DeepHack.Game Skynet team

  • 1. Артур Кадурин Андрей Иванов Владимир Шакиров Павел Нестеров Владислав Беляев
  • 2. Сделать ИИ для игры в компьютерные игры серии Atari 2600 (49 игр) лучше, чем Google Результаты Google: 22 из 49 игр лучше человека 43 из 49 игр лучше существующих ИИ решений Задача
  • 5. Идеи Играть «умнее» Искать новую стратегию 1. Выбирать больше случайных действий для обучения, если сессия длится долго 2. После 500 000 шагов обучения, периодически (например, каждые 100 из 1000) блокировать действия, которые предсказываются по выбранной стратегии 3. Увеличить количество полносвязанных слоев 4. Изменить размер сверточных фильтров на 3х3 и увеличить количество сверточных слоев Играть «дольше» Давать за смерть отрицательный ревард (фиксированный или в зависимости от последних 10 ревардов) «Глубокое» изменение архитектуры сети и прочие идеи 1. Научиться предсказывать все следующие кадры для всех возможных действий 2. Сделать претрейн сети на кадрах из всех трех игр или взять натренированную сеть для старта 3. Сделать больше входных данных, добавив искусственные кадры с выделенным движением Результаты хуже Не успели попробовать Результаты лучше Не удалось запустить Результаты лучше Не успели попробовать Не успели попробовать Не успели попробовать
  • 6. Решение и результаты 1. Добавлено 2 полносвязанных слоя нейронной сети 2. За смерть дается отрицательный ревард: max ( - половина от среднего реварда за последние 10 игр, -100) Репрезентативное сравнение не проводилось Seaquest, Space Invaders, H.E.R.O. Решение Игра Количество шагов Наш результат Google 2 Tutankhamon 500 000 Среднее за 10 игр 45 Среднее за 10 игр 3 1 Gopher 1 125 000 Среднее за 10 игр 750 Среднее за 10 игр 480 (на 3 000 000 шагов) 1 и 2 Kung Fu Fighter 4 000 000 Максимум 27 800 Среднее по статье 23 270 (+- 5955) (на 50 000 000 шагов)