Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Análisis predictivo de datos mediante técnicas de regresión estadística

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2010

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

La regresión estadística es una de las técnicas mas empleadas cuando se busca determinar una variable respuesta en función de una o más variables explicativas; sin embargo, tradicionalmente se emplea la técnica de mínimos cuadrados ordinarios (MCO), la cual enfrenta problemas cuando las variables explicativas presentan multicolinealidad (relación lineal entre ellas). En este trabajo se describe el problema de la colinealidad, sus efectos en los modelos generados y se discuten las principales técnicas de diagnóstico y prevención. Las variantes de regresión sesgada ('Ridge Regression' y 'Kernel Ridge Regression') son los procedimientos más empleados para mitigar dicho efecto. Éstas pueden ser aplicadas mediante diferentes modalidades de cómputo, permitiéndonos cuantificar y ajustar los resultados en las predicciones a partir de las condiciones iniciales de los datos de entrada (número de observaciones y número de dimensiones de las variables a tratar). Finalmente se muestran y aportan resultados experimentales mediante la aplicación de las técnicas analizadas, comparando las precisiones en las predicciones para diferentes conjuntos de datos. [ABSTRACT] Statistical regression is one of the most widely used technique to find a variable that is function of one or more explanatory variables; however, usually it's used the 'Ordinary Least Square' technique (OLS), but it faces problems when the variables have multicollinearity (linear relation between them). This work describes the troubles of collinearity, the effects on the models achieved and discusses the main diagnostic techniques to solving them and preventing them. 'Ridge Regression' and 'Kernel Ridge Regression' are the most commonly used procedures to mitigate its effects. These can be implemented through different modes of computation, allowing us to quantify and to adjust the results in predictions from the initial conditions of the input data (number of observations and number of dimensions of the variables to be treated). Finally, experimental results are provided by applying the previous techniques and by comparing the accurate on the predictions for different data sets.

Research Projects

Organizational Units

Journal Issue

Description

Máster en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, curso 2009-2010

Unesco subjects

Keywords