%0 Thesis
%A Guzmán&#x20;Muñoz,&#x20;Javier
%T Evaluación&#x20;de&#x20;rendimiento&#x20;de&#x20;arquitecturas&#x20;paralelas&#x20;y&#x20;de&#x20;propósito&#x20;específico&#x20;para&#x20;el&#x20;aprendizaje&#x20;por&#x20;refuerzo&#x20;en&#x20;juegos
%D 2021
%U https:&#x2F;&#x2F;hdl.handle.net&#x2F;20.500.14352&#x2F;10496
%X Las&#x20;aplicaciones&#x20;de&#x20;aprendizaje&#x20;por&#x20;refuerzo&#x20;se&#x20;usan&#x20;en&#x20;la&#x20;actualidad&#x20;para&#x20;resolver&#x20;problemas&#x20;de&#x20;todo&#x20;tipo&#x20;en&#x20;campos&#x20;muy&#x20;diversos.&#x20;Sin&#x20;embargo,&#x20;una&#x20;de&#x20;las&#x20;principales&#x20;desventajas&#x20;que&#x20;presentan&#x20;es&#x20;el&#x20;elevado&#x20;coste&#x20;computacional&#x20;del&#x20;entrenamiento&#x20;de&#x20;los&#x20;modelos&#x20;necesarios.&#x20;Con&#x20;este&#x20;trabajo&#x20;de&#x20;fin&#x20;de&#x20;grado&#x20;se&#x20;pretende&#x20;mejorar&#x20;este&#x20;proceso&#x20;mediante&#x20;la&#x20;paralelización&#x20;de&#x20;los&#x20;algoritmos&#x20;empleados&#x20;y&#x20;el&#x20;uso&#x20;de&#x20;distintas&#x20;arquitecturas&#x20;hardware&#x20;que&#x20;variarán&#x20;los&#x20;tiempos&#x20;requeridos.&#x20;Los&#x20;modelos&#x20;entrenados&#x20;pueden&#x20;aplicarse&#x20;para&#x20;obtener&#x20;la&#x20;mejor&#x20;secuencia&#x20;de&#x20;acciones&#x20;que&#x20;podemos&#x20;realizar&#x20;sobre&#x20;un&#x20;entorno&#x20;y&#x20;mejorar&#x20;la&#x20;recompensa&#x20;obtenida.&#x20;Este&#x20;proceso,&#x20;que&#x20;se&#x20;denomina&#x20;inferencia,&#x20;aunque&#x20;tiene&#x20;menor&#x20;complejidad&#x20;computacional,&#x20;se&#x20;realiza&#x20;muchas&#x20;más&#x20;veces,&#x20;por&#x20;lo&#x20;que&#x20;se&#x20;han&#x20;desarrollado&#x20;procesadores&#x20;de&#x20;&#x20;propósito&#x20;&#x20;específico&#x20;&#x20;para&#x20;&#x20;llevar&#x20;&#x20;a&#x20;&#x20;cabo&#x20;&#x20;esta&#x20;&#x20;tarea.&#x20;&#x20;Por&#x20;&#x20;ello,&#x20;&#x20;también&#x20;&#x20;es&#x20;&#x20;conveniente&#x20;&#x20;evaluar&#x20;&#x20;su&#x20;rendimiento&#x20;en&#x20;estos&#x20;soportes&#x20;y&#x20;compararlos&#x20;con&#x20;otras&#x20;unidades&#x20;de&#x20;procesamiento&#x20;más&#x20;generales.&#x20;Tras&#x20;definir&#x20;el&#x20;escenario&#x20;en&#x20;el&#x20;que&#x20;nos&#x20;vamos&#x20;a&#x20;mover&#x20;y&#x20;los&#x20;recursos&#x20;necesarios&#x20;para&#x20;ello,&#x20;se&#x20;proponen&#x20;una&#x20;&#x20;serie&#x20;&#x20;de&#x20;&#x20;experimentos&#x20;&#x20;de&#x20;&#x20;los&#x20;&#x20;procesos&#x20;&#x20;de&#x20;&#x20;entrenamiento&#x20;&#x20;e&#x20;&#x20;inferencia&#x20;&#x20;que&#x20;&#x20;nos&#x20;&#x20;permitirán&#x20;&#x20;evaluar&#x20;el&#x20;&#x20;rendimiento&#x20;&#x20;en&#x20;&#x20;términos&#x20;&#x20;del&#x20;&#x20;tiempo&#x20;&#x20;empleado,&#x20;&#x20;de&#x20;&#x20;la&#x20;&#x20;utilización&#x20;&#x20;de&#x20;&#x20;los&#x20;&#x20;recursos&#x20;&#x20;disponibles&#x20;&#x20;y&#x20;&#x20;del&#x20;consumo&#x20;de&#x20;energía&#x20;de&#x20;distintas&#x20;arquitecturas&#x20;hardware,&#x20;viendo&#x20;cuál&#x20;es&#x20;más&#x20;conveniente&#x20;usar&#x20;en&#x20;cada&#x20;caso.
%X Nowadays,&#x20;reinforcement&#x20;learning&#x20;applications&#x20;are&#x20;used&#x20;to&#x20;solve&#x20;all&#x20;kinds&#x20;of&#x20;problems&#x20;in&#x20;a&#x20;wide&#x20;variety&#x20;of&#x20;fields.&#x20;However,&#x20;one&#x20;of&#x20;their&#x20;main&#x20;disadvantages&#x20;is&#x20;the&#x20;high&#x20;computational&#x20;cost&#x20;of&#x20;training&#x20;the&#x20;necessary&#x20;models.&#x20;This&#x20;Bachelor’s&#x20;thesis&#x20;aims&#x20;at&#x20;improving&#x20;this&#x20;process&#x20;by&#x20;parallelizing&#x20;the&#x20;involved&#x20;algorithms&#x20;and&#x20;by&#x20;using&#x20;different&#x20;hardware&#x20;architectures,&#x20;which&#x20;will&#x20;differ&#x20;in&#x20;the&#x20;amount&#x20;of&#x20;time&#x20;used.&#x20;We&#x20;can&#x20;run&#x20;previously&#x20;trained&#x20;models&#x20;to&#x20;obtain&#x20;the&#x20;best&#x20;sequence&#x20;of&#x20;actions&#x20;to&#x20;interact&#x20;with&#x20;the&#x20;environment&#x20;in&#x20;order&#x20;to&#x20;improve&#x20;the&#x20;reward&#x20;obtained.&#x20;Although&#x20;this&#x20;process,&#x20;called&#x20;inference,&#x20;has&#x20;a&#x20;lower&#x20;computational&#x20;complexity,&#x20;it&#x20;is&#x20;usually&#x20;repeated&#x20;many&#x20;times&#x20;and&#x20;requires&#x20;a&#x20;fast&#x20;response.&#x20;In&#x20;order&#x20;to&#x20;execute&#x20;inference&#x20;in&#x20;an&#x20;efficient&#x20;way,&#x20;specific-purpose&#x20;processors&#x20;have&#x20;been&#x20;developed,&#x20;so&#x20;it&#x20;is&#x20;convenient&#x20;to&#x20;evaluate&#x20;its&#x20;performance&#x20;on&#x20;these&#x20;devices&#x20;and&#x20;compare&#x20;them&#x20;with&#x20;more&#x20;general&#x20;processing&#x20;units.&#x20;After&#x20;defining&#x20;the&#x20;scenario&#x20;and&#x20;the&#x20;resources&#x20;needed,&#x20;we&#x20;propose&#x20;a&#x20;series&#x20;of&#x20;experiments&#x20;to&#x20;test&#x20;the&#x20;training&#x20;and&#x20;inference&#x20;processes,&#x20;evaluating&#x20;the&#x20;performance&#x20;in&#x20;terms&#x20;of&#x20;the&#x20;time&#x20;spent,&#x20;the&#x20;resource&#x20;usage&#x20;and&#x20;the&#x20;power&#x20;consumption&#x20;when&#x20;using&#x20;different&#x20;architectures,&#x20;analyzing&#x20;which&#x20;is&#x20;the&#x20;best&#x20;option&#x20;in&#x20;each&#x20;case.
%~