ujava.org workshop : Reinforcement Learning with Thompson Sampling

1. Reinforcement Learning with Thompson Sampling (3rd) ujava.org workshop 2016-08-28 www.idosi.com CEO 강신동 Shindong KANG (주)지능도시

2. www.idosi.comujava.org

3. www.idosi.comspaceapi.org

4. www.idosi.comReinforcement Learning for Brick Game

5. www.idosi.comReinforcement Learning

6. www.idosi.comForecast

7. www.idosi.comForecast with probability

8. www.idosi.comProbability (확률)

9. www.idosi.comConditional Probability (조건부 확률)

10. www.idosi.comBayesian Probability (베이지안 확률)

11. www.idosi.comBayes Rule Words

12. www.idosi.comBayesian Probability (베이지안 확률) P(fair|H) = ? P(A) = P(fair) = ½ P(B) = P(H) = ¾ P(B|A) = P(H|fair) = ½ ½ ½ 1 --- = –-- ¾ 3

13. www.idosi.comBrownian motion, Gaussian distribution

14. www.idosi.comMarkov Process

15. www.idosi.comStochastic Matrix

16. www.idosi.comStochastic Matrix 0.4 0.6 0.7 0.3

17. www.idosi.comExploitation and Exploration (개발 and 탐험)

18. www.idosi.comState-action exploration vs. Parameter exploration

19. www.idosi.comMulti-armed bandit problem

20. www.idosi.comSimulated Bandit Performance

21. www.idosi.comMulti-armed bandit problem

22. www.idosi.comMulti-Armed Bandit Algorithms

23. www.idosi.comMAB Reward

24. www.idosi.comGaussian Distribution

25. www.idosi.comGaussian Distribution

26. www.idosi.comGMM (Gaussian Mixture Model)

27. www.idosi.comGaussian Mixture Model

28. www.idosi.comGaussian Mixture Model

29. www.idosi.comFunction's Probability Distribution Function's Probability Distribution ?

30. www.idosi.comFunction's Probability Distribution y = ax^2 +b

31. www.idosi.comFunction's Probability Distribution with Gaussian Distribution y = ax^2 +b

32. www.idosi.comFunction's Probability Distribution with Gaussian Distribution

33. www.idosi.comGaussian Process Regreesion

34. www.idosi.comGaussian Process From “C. E. Rasmussen & C. K. I. Williams, Gaussian Processes for Machine Learning, the MIT Press, 2006”

35. www.idosi.comBayesian Optimization

36. www.idosi.comAcquisition function

37. www.idosi.comWhy Bayesian Optimization works

38. www.idosi.comBayesian reasoners

39. www.idosi.comIntelligent user interfaces regression

40. www.idosi.comSlot Machine

41. www.idosi.comMulti Armed Bandit

42. www.idosi.comMAB – Regret (후회)

43. www.idosi.comA/B Testing

44. www.idosi.comGreedy Algorithm

45. www.idosi.comGreedy Algorithm (Search Maximum)

46. www.idosi.comGreedy Algorithm (Search Tree)

47. www.idosi.comepsilon Greedy (epsilon = exploration)

48. www.idosi.comSoftmax

49. www.idosi.comSoftmax

50. www.idosi.comUCB

51. www.idosi.comargmax

52. www.idosi.comUCB

53. www.idosi.comUCB1

54. www.idosi.comLog graph

55. www.idosi.comUCB1

56. www.idosi.comIndicator function (표시함수)

57. www.idosi.comThompson sampling Probability Matching, Bayesian Bandit

58. www.idosi.comThompson sampling

59. www.idosi.comThompson sampling (from SlideShare “Slice Technologies”)

61. www.idosi.comThompson sampling (area = 1)

65. www.idosi.comThompson sampling 19 / (19 + 9) = 19 / 28 = 0.679 59 / (59 + 39) = 59 / 98 = 0.60

70. www.idosi.comThompson sampling Algorithm for Bernoulli bandits

71. www.idosi.comThompson sampling Algorithm for general stochastic bandits

90. www.idosi.comMultiplay Thompson Sampling (from MS Research)

91. www.idosi.comMultiplay Thompson sampling Multi-play Thompson Sampling (MP-TS) Improved Multi-play Thompson Sampling (IMP-TS)

92. www.idosi.com Thank you ! (주)지능도시 Intelligent City Ltd. 강신동 Shindong KANG www.idosi.com ceo@idosi.com

ujava.org workshop : Reinforcement Learning with Thompson Sampling

More Related Content

Viewers also liked (11)

More from 신동 강 (16)

Recently uploaded (20)

ujava.org workshop : Reinforcement Learning with Thompson Sampling