Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Aprendizaje por refuerzo: Fundamentos teóricos del algoritmo AlphaZero e implementación

dc.contributor.advisorPalomino Tarjuelo, Miguel
dc.contributor.advisorVerdejo López, José Alberto
dc.contributor.authorMaurel Serrano, Alberto
dc.date.accessioned2023-06-17T10:55:13Z
dc.date.available2023-06-17T10:55:13Z
dc.date.issued2021
dc.degree.titleDoble Grado en Ingeniería Informática - Matemáticas
dc.descriptionTrabajo de Fin de Grado en Doble Grado en Ingeniería Informática - Matemáticas, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2022-21.
dc.description.abstractEn 2016, el equipo de DeepMind sorprendió al mundo creando una inteligencia artificial capaz de jugar al go a un nivel superior al de los humanos y ganando a uno de los jugadores más laureados de la historia. Sin embargo, AlphaGo era un algoritmo complejo y requería de una gran potencia computacional. Un año más tarde se publicó AlphaZero. La belleza de este algoritmo residía no solo en que requería menos potencia computacional y se podía aplicar a más juegos, sino en la elegancia con la que combinaba sus componentes para lograr un rendimiento por encima de cualquier otro algoritmo hasta el momento. El objetivo de este trabajo es explicar el funcionamiento del algoritmo AlphaZero. Para ello se introducen primero las nociones teóricas básicas del aprendizaje por refuerzo y las redes neuronales y posteriormente los detalles particulares del algoritmo. Además, se implementa una versión reducida del mismo y se entrena para jugar al tres en raya y al Conecta 4, estudiándose los resultados obtenidos.
dc.description.abstractIn 2016, DeepMind’s team surprised the world by crafting an artificial intelligence that was able to play Go at a superhuman level and win the second most laureate Go player in history. However, AlphaGo was a complex algorithm, that required huge computing power. A year later AlphaZero was published. The beauty behind this algorithm relies not only on the smaller computing power required or that it can be applied to more board games but also on the way they skillfully put together its components to achieve a performance way better than other Go programs at that moment. The objective of this work is to explain how AlphaZero works. First, we briefly introduce the theoretical basis of reinforcement learning and neural networks and later we explain the details of the algorithm. In addition, a slightly simplified version of the algorithm is implemented and trained to play Tic Tac Toe and Connect 4, and its performance is analyzed.
dc.description.departmentDepto. de Sistemas Informáticos y Computación
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/67423
dc.identifier.urihttps://hdl.handle.net/20.500.14352/10504
dc.language.isospa
dc.page.total84
dc.rightsAtribución-NoComercial 3.0 España
dc.rights.accessRightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc/3.0/es/
dc.subject.cdu004(043.3)
dc.subject.keywordAlphaZero
dc.subject.keywordAlphaGo Zero
dc.subject.keywordDeepMind
dc.subject.keywordAprendizaje por refuerzo
dc.subject.keywordArboles de búsqueda de Monte Carlo
dc.subject.keywordTres en raya
dc.subject.keywordConecta 4
dc.subject.keywordReinforcement learning
dc.subject.keywordMonte Carlo Tree Search (MCTS)
dc.subject.keywordTic Tac Toe
dc.subject.keywordConnect 4
dc.subject.ucmInformática (Informática)
dc.subject.unesco1203.17 Informática
dc.titleAprendizaje por refuerzo: Fundamentos teóricos del algoritmo AlphaZero e implementación
dc.title.alternativeReinforcement learning: Theoretical foundations of the AlphaZero algorithm and implementation
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublication52909b00-b705-4307-84db-d3211eedef69
relation.isAdvisorOfPublicationfdcba7f2-108a-46f4-bf49-c292a5b81953
relation.isAdvisorOfPublication.latestForDiscovery52909b00-b705-4307-84db-d3211eedef69

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
MAUREL SERRANO 60108_ALBERTO_MAUREL_SERRANO_Aprendizaje_por_refuerzo_Fundamentos_teoricos_del_Algoritmo_AlphaZero_e_implementacion_784051_607075157.pdf
Size:
2.92 MB
Format:
Adobe Portable Document Format