Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

MELTS: A framework for applying machine learning to time series

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2020

Defense date

2020

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

El análisis de series temporales es un área de investigación de mucha relevancia desde hace casi un siglo, con muchas técnicas desarrolladas para predecir y analizar datos temporales obtenidos de diversos campos como por ejemplo el de la economía, sociología o biología. Más recientemente, en el área conocida como aprendizaje automático se han ido proponiendo un conjunto de técnicas muy generales dedicadas al análisis y predicción de datos en un contexto genérico, no temporal. Aunque ha habido muchos esfuerzos para aplicar técnicas de aprendizaje automático a datos de series temporales, las conexiones temporales presentes entre los datos dan lugar a ciertas sutilezas que introducen dificultades en las fases de entrenamiento y test tradicionales empleadas por las técnicas estándar de aprendizaje automático, y dichas sutilezas se tienen que tener en cuenta. En este documento se propone un marco de trabajo para realizar análisis de series temporales mediante el uso de algoritmos de aprendizaje automático. En particular, este trabajo se ha enfocado en la detección de valores atípicos (outliers) en series temporales multivariable. El marco de trabajo propuesto contiene una técnica de preprocesado que permite preparar los datos para el empleo de cualquier método de aprendizaje automático supervisado de clasificación. Esta fase combina varias filas de atributos en una sola, que además incluye el valor futuro a predecir. Esto permite que los algoritmos de aprendizaje automático infieran la relación entre varios atributos del pasado y un valor futuro. También se presenta una propuesta para el entrenamiento y test de modelos con estos datos preprocesados con el fin de evaluar el desempeño del modelo. Un conjunto de datos pertenecientes al mercado de valores se ha empleado como caso de uso. Adicionalmente, en este documento también se presentan unas adaptaciones de método específicas, se definen métricas a medida para evaluar la ganancia y se realiza un análisis sobre el impacto que los hiperparámetros tienen sobre la eficacia del método elegido.
Time series analysis has been a relevant field of research for close to a century, with many different techniques developed for predicting and analysing the temporal data obtained in areas such as economics, sociology, biology, etc. More recently, machine learning has been proposed as a set of very general techniques devoted to analysing and predicting data in a more general, non-temporal, context. Although there have been many efforts for applying machine learning techniques to time series data, the temporal connections among the data raise certain subtleties that introduce difficulties in the traditional training and test phases employed in standard machine learning, and must be taken into account. This work proposes a framework for analysing time series within machine learning. In particular, the framework is focused on outlier detection in multivariate time series. The proposed framework contains a preprocessing technique for preparing the data for employing any machine learning supervised classification method. This phase combines several rows of features into a single one that includes one future value to predict. This allows the machine learning method to infer the relationship among several past features and one future value. We also present a proposal for training and testing models with this preprocessed data in order to check how well the model performs. A stock market dataset is used as a support use case. Additionally, we also present method-specific adaptations, define custom metrics for evaluating the gain, and perform an analysis on how hyperparameters impact the efficacy of the method.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Máster en Máster en Ingeniería Informática, Facultad de Informática UCM, Departamento de de Sistemas Informáticos y Computación, Curso 2019/2020

Unesco subjects

Keywords