Q-Learning RobolutionReinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730
MotivaçãoSimular um robô móvel que:Actue como um agente que possua aprendizagem.Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.Obtenha informação sobre o ambiente, através de um sistema sensorial.Defina estados consoante a informação obtida.Machine Learning - David Jardim  2008/20092
Dificuldades EncontradasSimular o movimento de um robô real.Desenhar os sensores com os ângulos pretendidos.Actualizar as posições de forma correcta.Definir os diferentes estados do robô.Atribuir recompensas de forma correcta a cada estado.Problemática dos becos sem saída.Machine Learning - David Jardim  2008/20093
Descrição do CenárioAs paredes são representadas por linhas amarelas.Machine Learning - David Jardim  2008/20094
Descrição do AgenteMachine Learning - David Jardim  2008/20095Acções possíveis:Virar à esquerda.Virar à direita.Mover-se para a frente.Sistema Sensorial3 Sensores para a detecção de obstáculos.3 Sensores para obter o ângulo relativamente ao farol.Distância discreta em relação ao farol.Estados possíveis:
Simular o Movimento do RobôMatriz de Transformação:Translada o objecto.Roda o objecto em torno do seu centro.Para actualizar as coordenadas dos Sensores:Actualizar o ponto inicial (centro do robô).Actualizar o ponto final (extremidade do sensor).Machine Learning - David Jardim  2008/20096
Definição do EstadoSensores de Contacto:Igual a 1 quando ocorre intersecção com uma parede.Igual a 0 quando não ocorre intersecção.Verifica intersecções apenas com as 4 paredes mais próximas.Sensores de Orientação:Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.Distância:Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis.Machine Learning - David Jardim  2008/20097
RecompensaAtribuída consoante a acção efectuada:Rodar à esquerda ou à direita.Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.Deslocar-se para a frente.Depende do valor da distância discreta a que o robô se encontra do farol.A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.Machine Learning - David Jardim  2008/20098
Becos sem saídaComo escolher entre 2 caminhos que:Um conduz ao farol, mas com uma recompensa imediata inferior.O outro não leva ao farol, mas possui uma recompensa imediata superior.Solução:Foi atribuída uma recompensa suficientemente grande aos estados finais.Machine Learning - David Jardim  2008/20099
Distâncias DiscretasMachine Learning - David Jardim  2008/200910
Funcionalidades da AplicaçãoMachine Learning - David Jardim  2008/200911
Funcionalidades da AplicaçãoMachine Learning - David Jardim  2008/200912O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
ResultadosMachine Learning - David Jardim  2008/200913
ResultadosMachine Learning - David Jardim  2008/200914
LimitaçõesA distância entre o robô e a parede não é calculada através da tensão do sensor (IR).O deslocamento não é efectuado tendo em conta as rodas do robô.Se o cenário for demasiado complexo, a convergência da solução é muito lenta.Machine Learning - David Jardim  2008/200915
QuestõesMachine Learning - David Jardim  2008/200916

Mais conteúdo relacionado

PPT
Interfaces Computacionais Alternativas
PDF
Comparação de Algoritmos Baseados em Q-Learning
PDF
HRL: Learning Subgoals and State Abstraction
KEY
Math4 Kids Artech Final
KEY
Hierarchical Reinforcement Learning
PPTX
Aprendizagem por reforço
PDF
Python e Aprendizagem de Máquina (Inteligência Artificial)
PDF
Hype vs. Reality: The AI Explainer
Interfaces Computacionais Alternativas
Comparação de Algoritmos Baseados em Q-Learning
HRL: Learning Subgoals and State Abstraction
Math4 Kids Artech Final
Hierarchical Reinforcement Learning
Aprendizagem por reforço
Python e Aprendizagem de Máquina (Inteligência Artificial)
Hype vs. Reality: The AI Explainer
Anúncio

Q Learning Simulator

  • 1. Q-Learning RobolutionReinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730
  • 2. MotivaçãoSimular um robô móvel que:Actue como um agente que possua aprendizagem.Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.Obtenha informação sobre o ambiente, através de um sistema sensorial.Defina estados consoante a informação obtida.Machine Learning - David Jardim 2008/20092
  • 3. Dificuldades EncontradasSimular o movimento de um robô real.Desenhar os sensores com os ângulos pretendidos.Actualizar as posições de forma correcta.Definir os diferentes estados do robô.Atribuir recompensas de forma correcta a cada estado.Problemática dos becos sem saída.Machine Learning - David Jardim 2008/20093
  • 4. Descrição do CenárioAs paredes são representadas por linhas amarelas.Machine Learning - David Jardim 2008/20094
  • 5. Descrição do AgenteMachine Learning - David Jardim 2008/20095Acções possíveis:Virar à esquerda.Virar à direita.Mover-se para a frente.Sistema Sensorial3 Sensores para a detecção de obstáculos.3 Sensores para obter o ângulo relativamente ao farol.Distância discreta em relação ao farol.Estados possíveis:
  • 6. Simular o Movimento do RobôMatriz de Transformação:Translada o objecto.Roda o objecto em torno do seu centro.Para actualizar as coordenadas dos Sensores:Actualizar o ponto inicial (centro do robô).Actualizar o ponto final (extremidade do sensor).Machine Learning - David Jardim 2008/20096
  • 7. Definição do EstadoSensores de Contacto:Igual a 1 quando ocorre intersecção com uma parede.Igual a 0 quando não ocorre intersecção.Verifica intersecções apenas com as 4 paredes mais próximas.Sensores de Orientação:Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.Distância:Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis.Machine Learning - David Jardim 2008/20097
  • 8. RecompensaAtribuída consoante a acção efectuada:Rodar à esquerda ou à direita.Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.Deslocar-se para a frente.Depende do valor da distância discreta a que o robô se encontra do farol.A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.Machine Learning - David Jardim 2008/20098
  • 9. Becos sem saídaComo escolher entre 2 caminhos que:Um conduz ao farol, mas com uma recompensa imediata inferior.O outro não leva ao farol, mas possui uma recompensa imediata superior.Solução:Foi atribuída uma recompensa suficientemente grande aos estados finais.Machine Learning - David Jardim 2008/20099
  • 10. Distâncias DiscretasMachine Learning - David Jardim 2008/200910
  • 11. Funcionalidades da AplicaçãoMachine Learning - David Jardim 2008/200911
  • 12. Funcionalidades da AplicaçãoMachine Learning - David Jardim 2008/200912O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.
  • 13. ResultadosMachine Learning - David Jardim 2008/200913
  • 14. ResultadosMachine Learning - David Jardim 2008/200914
  • 15. LimitaçõesA distância entre o robô e a parede não é calculada através da tensão do sensor (IR).O deslocamento não é efectuado tendo em conta as rodas do robô.Se o cenário for demasiado complexo, a convergência da solução é muito lenta.Machine Learning - David Jardim 2008/200915
  • 16. QuestõesMachine Learning - David Jardim 2008/200916