TY  - THES
AU  - Herrero Agustín, Marcos
A3  - Palomino Tarjuelo, Miguel
PY  - 2022
UR  - https://hdl.handle.net/20.500.14352/3177
AB  - Encuadrados dentro del aprendizaje por refuerzo, los bandidos constituyen una solución efectiva a las instancias más simples del dilema de la exploración-explotación. Un problema de bandidos consiste en un juego secuencial entre un agente y un entorno...
AB  - Framed in reinforcement learning, bandits are an effective solution to the most simple instances of the exploration-exploitation dilemma. A bandit problem consists in a sequential game between an agent and an environment in which, in every round, the...
LA  - spa
KW  - Exploración-explotación
KW  - Bandidos
KW  - Remordimiento
KW  - Bandidos estocásticos
KW  - Explora-Primero
KW  - UCB.
KW  - Exploration-exploitation
KW  - Bandits
KW  - Regret
KW  - Stochastic bandits
KW  - Explore-First
TI  - Bandidos estocásticos: introducción, algoritmos y experimentos
T2  - Stochastic bandits: introduction, algorithms and experiments
M3  - bachelor thesis
ER  -