%0 Thesis %A Barreñada Taleb, Lasai Alai %T Imputación de datos mediante Random Forest %D 2021 %U https://hdl.handle.net/20.500.14352/5138 %X La información disponible es cada vez mayor y los institutos de estadística oficiales deben hacer uso de esta información para crear procesos innovadores y eficaces. El statistical lear­ning es el conjunto de técnicas usadas para la mejor comprensión de los datos. Los random forests, basados en un ensemble de árboles de decisión, son una de las técnicas mas utilizadas de aprendizaje supervisado. En este trabajo se han usado random forests para la imputación de datos en encuestas económicas coyunturales y mas concretamente en los Índices de Cifras de Negocios de la Industria. La imputación se trata del proceso mediante el cual se asigna un valor a un ítem para el que previamente no se tenia información. En este estudio se elabora la metodología para la imputación después de analizar los criterios de calidad necesarios para la producción de una estadística oficial. En primer lugar se realiza la selección de variables o feature selection más interesante para el cálculo de las cifras de negocios. Posteriormente, se aborda el proceso de selección de parámetros para la obtención del modelo óptimo de bos­ques aleatorios para el conjunto de datos seleccionado. Finalmente se realiza una aplicación práctica del bosque aleatorio para las imputaciones y se evalúan obteniendo un resultado satisfactorio. %X The amount of available information in National Statistical lnstitutes is increasing ra­pidly and they shall make use of it to develop innovative and effective processes. Statistical learning is the set of techniques used for better understanding of data. Random Forests, ba­sed on decision tree ensembles, are one of the most used techniques of supervised learning. In this thesis Random Forest have been used to impute data in short term business statistics. Imputation is defined as the method to give value to an item that previously was missing. In this study a new methodology is developed after analysing the quality requirements for of­ficial statistics. Firstly, the feature selection is carried out in order to get the set of variables that will be included in the model. After this, the tuning of the forests is carried out to get the optimum forest. Finally, this model is used to impute the missing values and the assessment of the accuracy of the estimation is carried out having satisfactory results. %~