Aprendizaje por refuerzo en videojuegos clásicos

Díaz Agudo, María BelénÁlvarez Iglesias, Álvaro2023-09-202023-09-202023https://hdl.handle.net/20.500.14352/87828Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial (ISIA), Curso 2022/2023.El aprendizaje por refuerzo ya ha dominado la mayoría de los juegos arcade dando resultados incluso superiores a los de un jugador humano. Sin embargo, el cálculo de recompensas habitualmente hace uso de valores internos de la memoria RAM. En el caso del videojuego Tetris, podría tratarse del valor con la puntuación del jugador. Este método además de ser dependiente del juego en cuestión, no es comparable con la experiencia que tendría un jugador real. Además, existen situaciones en las que no es posible guiar el entrenamiento usando recompensas convencionales, como por ejemplo en los juegos de exploración. En su lugar, en este trabajo se propone hacer uso de las llamadas recompensas intrínsecas para entrenar un agente controlado por una red convolucional profunda usando únicamente la imagen. Las recompensas intrínsecas se suelen usar en conjunto con las clásicas, pero en esta ocasión se usarán de forma íntegra de forma que la implementación es independiente del juego en cuestión y más cercana a una experiencia humana. Los resultados muestran que la función de recompensa implementada da la suficiente información como para poder entrenar un agente que complete niveles de algunos videojuegos y que sea capaz de navegar los distintos escenarios.Reinforcement learning has already dominated most arcade games giving results even superior to those of a human player. However, reward calculation usually makes use of internal RAM values. In the case of the video game Tetris, this could be the value of the player’s score. This method, besides being dependent on the game in question, is not comparable to the experience that a real player would have. In addition, there are situations where it is not possible to guide training using conventional rewards, such as in exploration games. Instead, in this paper we propose to make use of so-called intrinsic rewards to train an agent controlled by a deep convolutional network using only the image. Intrinsic rewards are usually used in conjunction with classical rewards, but here they will be used in their entirety so that the implementation is independent of the game in question and closer to a human experience. The results show that the implemented reward function gives enough information to be able to train an agent to complete levels of some video games and to be able to navigate the different scenarios.spaAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Aprendizaje por refuerzo en videojuegos clásicosReinforcement Learning in classic gamesbachelor thesisopen access004(043.3)Reinforcement learningMachine learningNeural NetworksPythonIntrinsic rewardsAprendizaje por refuerzoRed neuronalrecompensa intrínsecaInformática (Informática)33 Ciencias Tecnológicas