Q Learning Simulator

Q-Learning RobolutionReinforcement LearningSimulação de um Robô Autónomo em problemas de labirintosDavid Jardim 8730

MotivaçãoSimular um robô móvel que:Actue como um agente que possua aprendizagem.Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.Obtenha informação sobre o ambiente, através de um sistema sensorial.Defina estados consoante a informação obtida.Machine Learning - David Jardim 2008/20092

Dificuldades EncontradasSimular o movimento de um robô real.Desenhar os sensores com os ângulos pretendidos.Actualizar as posições de forma correcta.Definir os diferentes estados do robô.Atribuir recompensas de forma correcta a cada estado.Problemática dos becos sem saída.Machine Learning - David Jardim 2008/20093

Descrição do CenárioAs paredes são representadas por linhas amarelas.Machine Learning - David Jardim 2008/20094

Descrição do AgenteMachine Learning - David Jardim 2008/20095Acções possíveis:Virar à esquerda.Virar à direita.Mover-se para a frente.Sistema Sensorial3 Sensores para a detecção de obstáculos.3 Sensores para obter o ângulo relativamente ao farol.Distância discreta em relação ao farol.Estados possíveis:

Simular o Movimento do RobôMatriz de Transformação:Translada o objecto.Roda o objecto em torno do seu centro.Para actualizar as coordenadas dos Sensores:Actualizar o ponto inicial (centro do robô).Actualizar o ponto final (extremidade do sensor).Machine Learning - David Jardim 2008/20096

Definição do EstadoSensores de Contacto:Igual a 1 quando ocorre intersecção com uma parede.Igual a 0 quando não ocorre intersecção.Verifica intersecções apenas com as 4 paredes mais próximas.Sensores de Orientação:Através de cálculos de coordenadas polares, é possível saber qual o sensor que está a “apontar” para o farol.Distância:Foi necessário tornar a distância discreta, de forma a reduzir o número de estados possíveis.Machine Learning - David Jardim 2008/20097

RecompensaAtribuída consoante a acção efectuada:Rodar à esquerda ou à direita.Depende do valor do ângulo relativo do robô, quanto menor, maior é a recompensa.Deslocar-se para a frente.Depende do valor da distância discreta a que o robô se encontra do farol.A recompensa é calculada de forma distinta, para que o robô seja incentivado a deslocar-se para a frente mais vezes do que rodar.Machine Learning - David Jardim 2008/20098

Becos sem saídaComo escolher entre 2 caminhos que:Um conduz ao farol, mas com uma recompensa imediata inferior.O outro não leva ao farol, mas possui uma recompensa imediata superior.Solução:Foi atribuída uma recompensa suficientemente grande aos estados finais.Machine Learning - David Jardim 2008/20099

Distâncias DiscretasMachine Learning - David Jardim 2008/200910

Funcionalidades da AplicaçãoMachine Learning - David Jardim 2008/200911

Funcionalidades da AplicaçãoMachine Learning - David Jardim 2008/200912O objectivo aqui era juntar 2 aprendizagens distintas, onde o utilizador seleccionava as “casas” de cada aprendizagem e depois criava um ficheiro único.

ResultadosMachine Learning - David Jardim 2008/200913

ResultadosMachine Learning - David Jardim 2008/200914

LimitaçõesA distância entre o robô e a parede não é calculada através da tensão do sensor (IR).O deslocamento não é efectuado tendo em conta as rodas do robô.Se o cenário for demasiado complexo, a convergência da solução é muito lenta.Machine Learning - David Jardim 2008/200915

QuestõesMachine Learning - David Jardim 2008/200916

Q Learning Simulator

Mais conteúdo relacionado

Destaque (20)

Q Learning Simulator