Evaluación de rendimiento de arquitecturas paralelas y de propósito específico para el aprendizaje por refuerzo en juegos

Guzmán Muñoz, Javier

Evaluación de rendimiento de arquitecturas paralelas y de propósito específico para el aprendizaje por refuerzo en juegos

dc.contributor.advisor	Igual Peña, Francisco Daniel
dc.contributor.advisor	Costero Valero, Luis Mª
dc.contributor.author	Guzmán Muñoz, Javier
dc.date.accessioned	2023-06-17T10:55:06Z
dc.date.available	2023-06-17T10:55:06Z
dc.date.issued	2021
dc.degree.title	Doble Grado en Ingeniería Informática y Matemáticas
dc.description	Trabajo de Fin de Grado en Doble Grado en Ingeniería Informática - Matemáticas , Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020-21
dc.description.abstract	Las aplicaciones de aprendizaje por refuerzo se usan en la actualidad para resolver problemas de todo tipo en campos muy diversos. Sin embargo, una de las principales desventajas que presentan es el elevado coste computacional del entrenamiento de los modelos necesarios. Con este trabajo de fin de grado se pretende mejorar este proceso mediante la paralelización de los algoritmos empleados y el uso de distintas arquitecturas hardware que variarán los tiempos requeridos. Los modelos entrenados pueden aplicarse para obtener la mejor secuencia de acciones que podemos realizar sobre un entorno y mejorar la recompensa obtenida. Este proceso, que se denomina inferencia, aunque tiene menor complejidad computacional, se realiza muchas más veces, por lo que se han desarrollado procesadores de propósito específico para llevar a cabo esta tarea. Por ello, también es conveniente evaluar su rendimiento en estos soportes y compararlos con otras unidades de procesamiento más generales. Tras definir el escenario en el que nos vamos a mover y los recursos necesarios para ello, se proponen una serie de experimentos de los procesos de entrenamiento e inferencia que nos permitirán evaluar el rendimiento en términos del tiempo empleado, de la utilización de los recursos disponibles y del consumo de energía de distintas arquitecturas hardware, viendo cuál es más conveniente usar en cada caso.	es
dc.description.abstract	Nowadays, reinforcement learning applications are used to solve all kinds of problems in a wide variety of fields. However, one of their main disadvantages is the high computational cost of training the necessary models. This Bachelor’s thesis aims at improving this process by parallelizing the involved algorithms and by using different hardware architectures, which will differ in the amount of time used. We can run previously trained models to obtain the best sequence of actions to interact with the environment in order to improve the reward obtained. Although this process, called inference, has a lower computational complexity, it is usually repeated many times and requires a fast response. In order to execute inference in an efficient way, specific-purpose processors have been developed, so it is convenient to evaluate its performance on these devices and compare them with more general processing units. After defining the scenario and the resources needed, we propose a series of experiments to test the training and inference processes, evaluating the performance in terms of the time spent, the resource usage and the power consumption when using different architectures, analyzing which is the best option in each case.	en
dc.description.department	Depto. de Arquitectura de Computadores y Automática
dc.description.faculty	Fac. de Informática
dc.description.refereed	TRUE
dc.description.status	unpub
dc.eprint.id	https://eprints.ucm.es/id/eprint/67270
dc.identifier.uri	https://hdl.handle.net/20.500.14352/10496
dc.language.iso	spa
dc.page.total	88
dc.rights	Atribución-NoComercial 3.0 España
dc.rights.accessRights	open access
dc.rights.uri	https://creativecommons.org/licenses/by-nc/3.0/es/
dc.subject.cdu	004(043.3)
dc.subject.keyword	Aprendizaje por refuerzo
dc.subject.keyword	Algoritmo PPO
dc.subject.keyword	Red neuronal de convoluci´on
dc.subject.keyword	Ray RLlib
dc.subject.keyword	Entornos Gym
dc.subject.keyword	TPU Google Coral
dc.subject.keyword	Aceleradores hardware.
dc.subject.keyword	Reinforcement learning
dc.subject.keyword	PPO algorithm
dc.subject.keyword	Convolutional neural network
dc.subject.keyword	Gym environ- ments
dc.subject.keyword	Google Coral TPU
dc.subject.keyword	Hardware accelerators.
dc.subject.ucm	Informática (Informática)
dc.subject.unesco	1203.17 Informática
dc.title	Evaluación de rendimiento de arquitecturas paralelas y de propósito específico para el aprendizaje por refuerzo en juegos	es
dc.title.alternative	Performance evaluation of parallel and specic-purpose architectures for reinforcement learning in games	en
dc.type	bachelor thesis
dspace.entity.type	Publication
relation.isAdvisorOfPublication	e1ed9960-37d5-4817-8e5c-4e0e392b4d66
relation.isAdvisorOfPublication.latestForDiscovery	e1ed9960-37d5-4817-8e5c-4e0e392b4d66

Download

Original bundle

Now showing 1 - 1 of 1

Name:: GUZMÁN MUÑOZ 75356_JAVIER_GUZMAN_MUNOZ_TFG_Javier_Guzman_Munoz_784051_1951236361.pdf
Size:: 2.08 MB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos Fin de Grado (TFG) y Diplomas de Estudios Avanzados (DEA)