Fernández Fernández, RaúlPardos Medem, PabloDubini Marqués, Carlo Sebastiano2024-07-122024-07-122024https://hdl.handle.net/20.500.14352/106051Trabajo de Fin de Grado en Ingeniería Informática e Ingeniería del Software, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2023/2024. En este proyecto se ha utilizado un repositorio de Github para el desarrollo conjunto de la aplicación y el control de versiones, se encuentra en la siguiente url: https://github.com/CarloDubini/ReinforcementLearningTFGEn la actualidad, el control automático se está introduciendo más en las tareas de la industria y de nuestras vidas, volviéndose algo muy común para ser el objeto de estudio de la implementación de técnicas de aprendizaje automático. Entre estas tareas destaca la aplicación a nuevas tareas complejas en espacio continuo, en concreto su aplicación en robótica y control automático. En este documento se abordan las diferentes características del aprendizaje por refuerzo y las redes neuronales, estudiando sus diferentes variantes y extensiones, subrayando su importancia en el aprendizaje automático y sus aplicaciones prácticas. Posteriormente se explican los métodos de Policy Gradient, responsables de tratar problemas en espacio continuo sin necesidad de discretizar el espacio, con énfasis en DDPG y HER dentro de estos. Estas técnicas han sido implementadas a lo largo de este trabajo de fin de grado para ejecutar el control de un péndulo y un brazo robot industrial. Con los datos posteriores al entrenamiento de este brazo robot en MuJoCo se han encontrado los parámetros que se consideran más importantes para el modelo. Se ha hecho una iteración sobre los posibles cambios a las estructuras, optimizadores y parámetros de control para realizar un análisis completo que permita más adelante añadir consideraciones de objetivos y obstáculos adicionales para un posible trabajo futuro. Por último, se ha diseñado la memoria de tal forma que se explican los pasos a seguir para su correcta implementación.In current times, automatic control is being introduced increasingly in the industrial processes and our lives, becoming something quite common to be the object of study through the implementation of machine learning techniques. Among these tasks and processes, complex tasks in continuous spaces stand out, highlighting its application in robotics and automatic control. This paper discusses the different characteristics of reinforcement learning and neural networks, studying their variants and extensions as we emphasize their importance in machine learning and their practical applications. Subsequently, Policy Gradient Methods are explained in detail, responsible for dealing with problems in continuous space without a real need for discretization, emphasizing DDPG and HER within these. These techniques have been implemented throughout this Bachelor’s Degree Final Project to execute the control of a pendulum and an industrial robot arm. With the data following the training of this robot arm in MuJoCo, we have found the parameters that are considered the most important for the robot arm by iterating on possible changes to the structures, optimizers, and control parameters to perform a complete analysis to add additional goals and obstacle considerations for future work. Finally, this paper has been designed to explain the steps that must be taken for its correct implementation.spaAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Implementación de Algoritmos de Aprendizaje por Refuerzo Avanzados para el Control en Espacio ContinuoApplication of Advanced Reinforcement Learning Algorithms for Continuous Controlbachelor thesishttps://github.com/CarloDubini/ReinforcementLearningTFGopen access004(043.3)Aprendizaje por refuerzoDeep LearningRobóticaAprendizaje automáticoRedes neuronalesDeep Deterministic Policy GradientHindsight Experience ReplayReinforcement LearningRoboticsMachine LearningNeural NetworksInformática (Informática)33 Ciencias Tecnológicas