Tratamiento de variables categóricas en modelos de Machine Learning
Loading...
Official URL
Full text at PDC
Publication date
2022
Defense date
2022
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
Este Trabajo de Fin de Máster tiene como principal propósito estudiar diferentes formas de codificar variables categóricas diferenciando entre ordinales y nominales, mostrando la teoría que hay detrás de cada método, detallando las ventajas e inconvenientes de estos y en qué situaciones es conveniente un codificador u otro. Se hará también una clara distinción entre métodos clásicos para tratar estas variables y codificadores supervisados, los cuales se apoyan en la variable a predecir para sustituir cada categoría por un valor que represente la influencia que tienen sobre esta. Se utilizará además un conjunto de datos real para apoyar la teoría con ejemplos y finalmente se aplicará lo estudiado sobre este conjunto de datos y poder comprobar qué tal funcionan los diferentes codificadores sobre estos datos con varios modelos distintos.
The aim of this Master´s Thesis is to study differents ways to encoder categorical variables, including ordinal and nominal variables. Different encoders are studied, showing the advantages and disadvantages and in wich situations it is appropiate to us each of them. It is made a distinction between classic and supervised encoders, this type of encoders replace the feature value with the influence it has over the target variable. It is used a real dataset for putting examples of each encoder and finally the study is applicated to this dataset, showing wich encoder is better for this case.
The aim of this Master´s Thesis is to study differents ways to encoder categorical variables, including ordinal and nominal variables. Different encoders are studied, showing the advantages and disadvantages and in wich situations it is appropiate to us each of them. It is made a distinction between classic and supervised encoders, this type of encoders replace the feature value with the influence it has over the target variable. It is used a real dataset for putting examples of each encoder and finally the study is applicated to this dataset, showing wich encoder is better for this case.