TY - THES AU - Herrero Agustín, Marcos A3 - Palomino Tarjuelo, Miguel PY - 2022 UR - https://hdl.handle.net/20.500.14352/3177 AB - Encuadrados dentro del aprendizaje por refuerzo, los bandidos constituyen una solución efectiva a las instancias más simples del dilema de la exploración-explotación. Un problema de bandidos consiste en un juego secuencial entre un agente y un entorno... AB - Framed in reinforcement learning, bandits are an effective solution to the most simple instances of the exploration-exploitation dilemma. A bandit problem consists in a sequential game between an agent and an environment in which, in every round, the... LA - spa KW - Exploración-explotación KW - Bandidos KW - Remordimiento KW - Bandidos estocásticos KW - Explora-Primero KW - UCB. KW - Exploration-exploitation KW - Bandits KW - Regret KW - Stochastic bandits KW - Explore-First TI - Bandidos estocásticos: introducción, algoritmos y experimentos T2 - Stochastic bandits: introduction, algorithms and experiments M3 - bachelor thesis ER -