UNIVERSIDAD COMPLUTENSE DE MADRID 
FACULTAD DE CIENCIAS ECONÓMICAS Y 

EMPRESARIALES 
 

TESIS DOCTORAL 
 

Eficiencia y Equidad en Problemas de Clasificación de Datos 
con Aplicaciones Empresariales 

 
MEMORIA PARA OPTAR AL GRADO DE DOCTOR 
 

PRESENTADA POR 
 
 
Carlos Santos Mangudo 
 

Director 
 

Antonio José Heras Martínez 
 
 
Madrid 
 
 
© Carlos Santos Mangudo, 2022 


UNIVERSIDAD COMPLUTENSE DE MADRID 
 
 
FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES 
 
 
TESIS DOCTORAL 

 
Eficiencia y Equidad en Problemas de Clasificación de 
Datos con Aplicaciones Empresariales 

 
Autor: Carlos Santos Mangudo 

Director:  Antonio José Heras Martínez 

 
Madrid, 2022 


~ ii ~ 
 

~ iii ~ 
 

UNIVERSIDAD COMPLUTENSE DE MADRID 
 

FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES 
 
 
Doctorado en Administración y Dirección de Empresas 
 
 
TESIS DOCTORAL 
 

Eficiencia y Equidad en Problemas de Clasificación de 
Datos con Aplicaciones Empresariales 

 
Autor: Carlos Santos Mangudo 

Director:  Antonio José Heras Martínez 

 
Madrid, 2022 


~ iv ~ 
 

~ vi ~ 
 

~ vii ~ 
 

AGRADECIMIENTOS 

Quiero mostrar mi más sincero agradecimiento a todos aquellos que, de 

una u otra forma, han contribuido a la preparación de esta Tesis Doctoral. En 

concreto, debo hacer una mención especial a las siguientes personas: 

En primer lugar, a mi esposa Amadora y mis hijas Lorena y Andrea, por 

comprenderme y animarme siempre a conseguir los objetivos que he 

perseguido. Su constante apoyo ha sido vital para alcanzar que esta esta Tesis 

Doctoral sea finalmente una realidad.  

A D. Antonio J. Heras, Director y tutor de la tesis, por la valiosa formación 

que me ha dado en mis estudios en la Universidad Complutense, por ser el 

impulsor de este tema específico para mi Tesis Doctoral y por la gran ayuda y 

amistad que me ha brindado en todo momento que le he necesitado. 

A los profesores del Departamento de la Escuela de Doctorado de la 

Universidad Complutense, que han colaborado en mi formación y evolución, y 

sin cuyos medios me hubiera sido mucho más difícil lograr este objetivo. 

A los profesores del Departamento de Economía Financiera, Contabilidad 

e Idioma Moderno de la Universidad Rey Juan Carlos, y en especial a su 

Directora Dra. Piedad Tolmos, por su gran ayuda y estimulo durante mi estancia 

en su departamento. 

A la Dra. Ana Sastre Perona, Investigadora Miguel Servet del Laboratorio 

de terapias experimentales y biomarcadores, y a D. Fernando Laso García, 


~ viii ~ 
 

Biol.D, Predoctoral Neuroscience and Cerebrovascular Laboratory, miembros de 

La Paz Research Institute (IdiPAZ), que me brindaron su total apoyo en el uso 

de sus medios informáticos, para la comprobación y funcionamiento del 

algoritmo objeto de esta Tesis Doctoral, en la ejecución con otros sistemas 

operativos y la dimensión de estructuras de datos. 

 
~ ix ~ 
 

Lo más difícil de lograr, 

es tomar la decisión de actuar,  

el resto, es solo constancia 

(Amelia Earhart) 

 
---------------------------------------------- 

 
Si realmente quieres hacer algo, 

sí crees en ello, 

simplemente sigue adelante, 

y el éxito vendrá solo 

(Cassandra Sanford) 

  
~ x ~ 
 

~ xi ~ 
 

ÍNDICE GENERAL 

ÍNDICE DE TABLAS ....................................................................................... xiii 

ÍNDICE DE FIGURAS ...................................................................................... xv 

RESUMEN ......................................................................................................... 1 

ABSTRACT ........................................................................................................ 3 

1 – INTRODUCCIÓN ......................................................................................... 5 

1.1. ANTECEDENTES........................................................................................... 7 
1.2. JUSTIFICACIÓN .......................................................................................... 12 
1.3. OBJETIVOS ................................................................................................. 18 
1.4. ESQUEMA DE CONTENIDOS ..................................................................... 21 

2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE 
DATOS ............................................................................................................. 25 

2.1. INTRODUCCIÓN .......................................................................................... 27 
2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN ALGORÍTMICA ......... 31 
2.3. ÉTICA Y EQUIDAD DE LOS DATOS ........................................................... 36 

3 – ANÁLISIS DE CLUSTERING .................................................................... 49 

3.1. INTRODUCCIÓN .......................................................................................... 51 
3.2. ETAPAS DEL ANÁLISIS DE CLUSTER ....................................................... 55 
3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA ................................................ 58 

3.3.1. Medidas de distancia de datos de tipo cuantitativo ................................ 62 
3.3.2. Medidas de distancia de datos de tipo cualitativo .................................. 67 
3.3.3. Medidas de distancia de datos de tipo mixto.......................................... 72 

3.4. MÉTODOS DE CLASIFICACIÓN ................................................................. 75 
3.4.1. Método Jerárquico ................................................................................. 77 
3.4.2. Método No Jerárquico o Particionado .................................................... 80 
3.4.3. Métodos basados en Densidad ............................................................. 81 
3.4.4. Métodos basados en rejilla o cuadricula ................................................ 82 
3.4.5. Métodos basados en Modelos ............................................................... 83 
3.4.6. Métodos basados en Distancia o Similaridad......................................... 86 

3.5. ALGORITMOS DE CLUSTERS POPULARES ............................................. 86 


~ xii ~ 
 

4 – METODOLOGÍA DEL ALGORITMO PROPUESTO .................................. 95 

4.1. INTRODUCCIÓN .......................................................................................... 97 
4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES .................................. 99 

4.2.1. Respecto del Agrupamiento ................................................................... 99 
4.2.2. Respecto de la Equidad ....................................................................... 106 

4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO .................................... 109 
4.3.1. Estabilidad (Fase 1) ............................................................................. 111 
4.3.2. Eficiencia (Fase 2) ............................................................................... 114 
4.3.3. Equidad (Fase 3) ................................................................................. 117 

4.4. PROCESO DEL ALGORITMO PROPUESTO ............................................ 119 
4.4.1. Proceso de la fase de Estabilidad ........................................................ 122 
4.2.2. Proceso de la fase de Eficiencia .......................................................... 131 
4.4.3. Proceso de la fase de Equidad ............................................................ 139 

4.5. RESULTADOS DEL PROCESO ................................................................. 142 

5 – RESULTADOS ......................................................................................... 147 

5.1. INTRODUCCIÓN ........................................................................................ 149 
5.2. BASES DE DATOS .................................................................................... 151 

5.2.1. Bases de Datos de tipo Mixto .............................................................. 154 
5.2.2. Bases de Datos de tipo Categórico ...................................................... 158 

5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS ..................................... 163 
5.4. RESULTADOS ........................................................................................... 167 

5.4.1. Respecto de la Estabilidad .................................................................. 167 
5.4.2. Respecto de la Eficiencia..................................................................... 171 
5.4.3. Respecto de la Equidad ....................................................................... 174 

5.5. APLICACIONES EMPRESARIALES .......................................................... 176 
5.5.1. Sector Seguros (Primas No Vida) ........................................................ 177 
5.5.2. Sector Crediticio .................................................................................. 181 

6 – SOFTWARE R ......................................................................................... 189 

CONCLUSIONES .......................................................................................... 201 

BIBLIOGRAFÍA ............................................................................................. 207 

ANEXOS ........................................................................................................ 239 

ANEXO 1 .............................................................................................................. 241 
ANEXO 2 .............................................................................................................. 247 


~ xiii ~ 
 

ÍNDICE DE TABLAS 

Tabla 3.1. Tabla de representación binaria ...................................................... 69 

Tabla 3.2. Medidas de similaridad binarias ...................................................... 71 

Tabla 3.3. Tabla de Algoritmos y Metodologías de Clustering ......................... 87 

Tabla 4.1: Matriz de datos del conjunto inicial ................................................ 121 

Tabla 4.2: Distribución de cluster sobre el atributo “Exposure” ...................... 127 

Tabla 4.3: Distribución de cluster sobre el atributo “Veh_body” ..................... 127 

Tabla 4.4: Distribución de cluster para cada atributo ..................................... 128 

Tabla 4.5: Resumen distribución de clusters de todos los atributos ............... 129 

Tabla 4.6: Composición de los 20 Multiclusters no vacíos ............................. 131 

Tabla 4.7: Coincidencia de los atributos entre dos Multicluster ...................... 132 

Tabla 4.8: Matriz de Coincidencias entre Multiclusters .................................. 133 

Tabla 4.9: Fusión de Multiclusters, con una sola coincidencia ....................... 135 

Tabla 4.10: Fusión de Multiclusters, con varias coincidencias ....................... 136 

Tabla 4.11: Mejor Kappa-Fleiss entre Multiclusters ........................................ 136 

Tabla 4.12: Matriz de Multiclusters Óptimos................................................... 138 

Tabla 4.13: Ratio Deseado del atributo protegido. ......................................... 139 

Tabla 4.14: Distancias entre ratio deseado y observado ................................ 140 

Tabla 4.15: Distribución final de los “k” clusters elegidos ............................... 142 

Tabla 4.16: Distribución Final de la Efiiencia .................................................. 144 

Tabla 4.17: Distribución Final del Ratio Observado por cluster ...................... 145 


~ xiv ~ 
 

Tabla 5.1: Bases de Datos utilizadas en el análisis ........................................ 153 

Tabla 5.2: Eficiencia de clustering Datos de tipo Mixto .................................. 172 

Tabla 5.3: Eficiencia de clustering Datos de tipo Categórico ......................... 173 

Tabla 5.4: Equidad de clustering Datos de tipo Mixto .................................... 174 

Tabla 5.5: Equidad de clustering Datos de tipo Categórico ............................ 175 

Tabla 5.6: Equidad de clustering del algoritmo FairMclus .............................. 179 

Tabla 5.7: Distribución sobre 9 clusters del atributo protegido Género .......... 180 

Tabla 5.8: Distribución original del atributo protegido Género ........................ 180 

Tabla 5.9: Equidad de clustering del algoritmo FairMclus .............................. 185 

Tabla 5.10: Distribución sobre 9 clusters del atributo protegido Estado Civil . 186 

Tabla 5.11: Distribución original del atributo protegido Estado Civil ............... 186 

 
~ xv ~ 
 

ÍNDICE DE FIGURAS 

Figura 2.1: Igualdad, Equidad y Justicia (Ruth, 2019) ...................................... 28 

Figura 2.2: Tipos de preocupaciones éticas (Mittelstadt et al., 2016) ............... 42 

Figura 3.1. Formación de 3 cluster (Learn by marketing, 2021) ....................... 52 

Figura 3.2. Etapas de Análisis de cluster (Halkidi et al., 2001)......................... 57 

Figura 3.3. Distancia entre dos puntos (espacio bidimensional) ...................... 59 

Figura 3.4. Distancia entre dos puntos (espacio tridimensional) ...................... 60 

Figura 3.5. Distancia Euclídea (Chaudhury, 2020) ........................................... 63 

Figura 3.6. Distancia Manhattan (Sosnovshchenko, 2018) .............................. 64 

Figura 3.7. Distancia Minkowski (Xu et al., 2019) ............................................. 65 

Figura 3.8. Clasificación en dos Métodos ......................................................... 76 

Figura 3.9. Clasificación en cinco Métodos (Prakash et al., 2016) ................... 77 

Figura 3.10 Esquema Método Jerárquico (Giacoumidis et al., 2018) ............... 78 

Figura 3.11. Dendograma Agrupación de elementos (Ávila, 2021) .................. 79 

Figura 3.12. Clustering Particionado (Saxena et al., 2017) .............................. 80 

Figura 3.13 Clustering de Densidad (Rixin et al., 2015) ................................... 81 

Figura 3.14 Clustering en Rejilla (Cao et al., 2009) .......................................... 83 

Figura 3.15 Clustering en Arboles de Decisión (Ferrero, 2020) ....................... 84 

Figura 3.16 Clustering en Redes Neuronales (Delgado, 2018) ........................ 85 

Figura 4.1: Fase 1 de Estabilidad Algoritmo propuesto .................................. 113 

Figura 4.2: Fase 2 de Eficiencia Algoritmo propuesto .................................... 116 


~ xvi ~ 
 

Figura 4.3: Fase 3 de Equidad Algoritmo propuesto ...................................... 118 

Figura 4.4: Distribución gráfica de cada atributo ............................................ 122 

Figura 4.5: Comparativa de Estabilidad ......................................................... 143 

Figura 5.1: Base de Datos de tipo mixto “Australian Credit” ........................... 169 

Figura 5.2: Base de Datos de tipo mixto “Heart Disease” .............................. 169 

Figura 5.3: Base de Datos categórica “Human Resources” ........................... 170 

Figura 5.4: Base de Datos categórica “Breast Cancer” .................................. 170 

Figura 5.5: Equidad de clustering del algoritmo FairMclus ............................. 179 

Figura 5.6: Atributos de la Base de Datos “German Credit” ........................... 183 

Figura 5.7: Equidad de clustering del algoritmo FairMclus ............................. 185 

Figura A.1: Base de Datos de tipo mixto “Absenteeism” ................................ 241 

Figura A.2: Base de Datos de tipo mixto “Airline” ........................................... 241 

Figura A.3: Base de Datos de tipo mixto “Australian Credit” .......................... 242 

Figura A.4: Base de Datos de tipo mixto “Bank Marketing” ............................ 242 

Figura A.5: Base de Datos de tipo mixto “Customer Segmentation” .............. 242 

Figura A.6: Base de Datos de tipo mixto “German Credit FC1”...................... 243 

Figura A.7: Base de Datos de tipo mixto “Heart Disease” .............................. 243 

Figura A.8: Base de Datos categórica “Autism”.............................................. 243 

Figura A.9: Base de Datos categórica “Breast Cancer” .................................. 244 

Figura A.10: Base de Datos categórica “Cars Insurance” .............................. 244 

Figura A.11: Base de Datos categórica “Census Income” .............................. 244 


~ xvii ~ 
 

Figura A.12: Base de Datos categórica “German Credit FC2” ....................... 245 

Figura A.13: Base de Datos categórica “German Credit FC3” ....................... 245 

Figura A.14: Base de Datos categórica “HR IBM” .......................................... 245 

Figura A.15: Base de Datos categórica “Human Resources” ......................... 246 

Figura A.16: Base de Datos categórica “Nursery” .......................................... 246 

  
~ xviii ~ 
 

~ 1 ~ 
 

RESUMEN 

EFICIENCIA Y EQUIDAD EN PROBLEMAS DE CLASIFICACIÓN 

DE DATOS CON APLICACIONES EMPRESARIALES 

En los últimos años, la necesidad de prevenir los sesgos de clasificación 

debidos a la raza, género, sexo, religión, entre otros, ha aumentado el interés 

por diseñar algoritmos de clustering justos. La idea principal es asegurar que la 

salida de un algoritmo de cluster no esté sesgada hacia o contra subgrupos 

específicos de la población. Existe una creciente literatura especializada en este 

tema, que aborda el problema del clustering de bases de datos numéricas 

(Chierichetti et al., 2017; Luong et al., 2011; Hardt et al., 2016; Dwork et al., 

2011).  

En la presente Tesis Doctoral se propone una metodología para realizar 

clustering sobre datos categóricos puros y/o mixtos, que contengan atributos 

sensibles o protegidos, aunando la precisión en el agrupamiento y la equidad 

para conseguir conjuntos finales justos y equitativos, asegurando la 

transparencia, fiabilidad, precisión y equidad en el momento de formar los grupos 

o clusters finales. 


~ 2 ~ 
 

Por supuesto, existe un trade-off entre equidad y eficiencia, de modo que 

un aumento del objetivo de equidad suele conllevar una pérdida de eficiencia en 

la clasificación. Sin embargo, es posible alcanzar un compromiso razonable 

entre estos objetivos, ya que la metodología propuesta en esta Tesis (Santos & 

Heras, 2020; 2021) puede adaptarse fácilmente para obtener clusters 

homogéneos y justos. 

El uso del paquete estadístico R entre la comunidad científica (R Core 

Team, 2018) esta extendido y es común su uso, al incluir tanto herramientas de 

análisis de datos, como para generar multitud de gráficas, siendo además dicho 

software de carácter libre y que funciona bajo distintos sistemas operativos, 

como Windows, Mac-Os y Linux (https://www.r-project.org/). 

Por todo lo anterior, parece interesante para la comunidad científica que 

exista un paquete en R que pueda ofrecer una alternativa a los métodos 

existentes hasta el momento, aunando tanto la clasificación como la equidad de 

conjuntos de datos con aplicación empresarial. 

 
Keywords: clustering, fairness, fair clustering, categorical data, mixed data 

  
https://www.r-project.org/


~ 3 ~ 
 

ABSTRACT 

EFFICIENCY AND FAIRNESS IN DATA CLASSIFICATION 

PROBLEMS WITH ENTERPRISE APPLICATIONS 

In recent years, the need to prevent classification biases due to race, 

gender, sex, religion, among others, has increased interest in designing fair 

clustering algorithms. The main idea is to ensure that the output of a clustering 

algorithm is not biased towards or against specific subgroups of the population. 

There is a growing specialized literature on this topic, addressing the problem of 

numerical database clustering (Chierichetti et al., 2017; Luong et al., 2011; Hardt 

et al., 2016; Dwork et al., 2011).  

In this PhD Thesis, we propose a methodology to perform clustering on 

pure and/or mixed categorical data, containing sensitive or protected attributes, 

combining clustering accuracy and fairness to achieve fair and equitable final 

sets, ensuring transparency, reliability, accuracy and fairness when forming the 

final groups or clusters. 

Of course, there is a trade-off between fairness and efficiency, so that an 

increase in the fairness objective usually leads to a loss of classification 

efficiency. However, it is possible to reach a reasonable compromise between 


~ 4 ~ 
 

these objectives, since the methodology proposed in this Thesis (Santos & Heras, 

2020; 2021) can be easily adapted to obtain homogeneous and fair clusters. 

The use of the R statistical package among the scientific community (R 

Core Team, 2018) is widespread and its use is common, as it includes both data 

analysis tools, as well as to generate a multitude of graphs, being also such 

software of free character and running under different operating systems, such 

as Windows, Mac-Os and Linux (https://www.r-project.org/). 

For all these reasons, it seems interesting for the scientific community that 

there is a package in R that can offer an alternative to the existing methods so 

far, combining both classification and fairness of datasets with business 

application. 

 
Keywords: clustering, fairness, fair clustering, categorical data, mixed data 


1 – Introducción 

~ 5 ~ 
 

1 

INTRODUCCIÓN 

 
1 – INTRODUCCIÓN 


1 – Introducción 

~ 6 ~ 
 

1 – Introducción 

~ 7 ~ 
 

1.1. ANTECEDENTES 

A lo largo de la historia, la humanidad siempre ha estado dividiendo y 

clasificando todo cuanto nos rodea, las sociedades, las ciudades, las personas, 

los animales, la tierra, el universo, etc.  

Gran parte de los problemas de clasificación existentes en el mundo real 

implican, por un lado, la agrupación y optimización simultánea de varios 

atributos, los cuales generalmente presentan conflictos entre ellos, es decir, que 

la mejora en uno de ellos conduce a un deterioro en el otro; y por otro lado que 

dicha agrupación no incluya ningún tipo de sesgo entre atributos y sobre atributos 

sensibles o protegidos incluidos en el conjunto de datos inicial, como por ejemplo 

el género/sexo o la raza/etnia, entre otros. 

El agrupamiento o clasificación de datos, conocido como “Clustering”, es 

una técnica de aprendizaje automático no supervisado, y que tiene un único fin, 

clasificar elementos o entidades y agruparlos en un número finito de cluster o de 

grupos, de manera que los elementos o entidades que se encuentren dentro del 

mismo grupo sean lo más homogéneos posible, y al mismo tiempo, que grupos 

distintos sean lo más heterogéneos posible.  


1 – Introducción 

~ 8 ~ 
 

Para encontrar las primeras clasificaciones de grupos, nos tenemos que 

remontar a Aristóteles (Ross, 1995), quien en un primer lugar realizó la división 

del reino vegetal y del reino animal, para posteriormente clasificar los animales 

en dos grupos o cluster, vertebrados e invertebrados. O por ejemplo Teofrasto, 

discípulo de Aristóteles, que realizó el primer informe sobre clasificación de las 

plantas y basada en las propiedades médicas que estas tenían (Teofrasto, 1988). 

La gran explosión en el campo de la agrupación de elementos tuvo lugar 

con la aparición de “Principios de Taxonomía Numérica” (Sokal & Sneath, 1963) 

y el surgimiento de figuras influyentes en el campo de la informática, como fue 

Karen Sparck Jones con un gran número de publicaciones desde 1964 (Sparck 

Jones, 1965; 1986, Sparck Jones & Barber, 1971; entre otros) y que se convirtió 

en presidenta de la Asociación de Lingüística Computacional en 1994. 

El trabajo para llevar a cabo agrupaciones de datos en el campo de la 

investigación, se realizaba de forma manual, lo cual complicaba los cálculos y 

por consiguiente su precisión, el tiempo y el número de personas dedicadas a 

realizar dichos cálculos.  

Cabe señalar que, para clasificar un conjunto de datos de solo 200 

elementos, sería necesario trabajar con una matriz de 200 x 200, dando unos 

19.900 valores únicos, lo que significaría tener un número muy grande de 


1 – Introducción 

~ 9 ~ 
 

investigadores involucrados en el proceso, que, sumado al tiempo necesario 

para llevarlo a cabo, haría inviable este tipo de segmentaciones y clasificaciones. 

La agrupación de elementos similares entre sí ha sido una de las 

actividades humanas más practicadas, aplicada en áreas y disciplinas muy 

diversas, como, por ejemplo: 

 El estudio de tribus de la Polinesia (Clements et al., 1926) o el estudio 

de tribus indias en California (Driver & Kroeber, 1932). 

 Clasificación de los elementos de la tabla periódica (Bensaude-

Vincent, 1986). 

 La agrupación geográfica de compañías vinculadas por características 

comunes o complementarias (Porter, 1990, 1998). 

 El análisis de genes (Bandyopadhyay et al., 2007; Jiang et al., 2004; 

Lu et al., 2019). 

 El marketing de clientes (Hsu & Chen, 2007). 

 El procesamiento de imágenes (Adhikari et al., 2015). 

 La detección de fraude (Agarwall & Upadhyay, 2014; Kasa et al., 2019; 

Maddila et al., 2020; Vaishali, 2014). 


1 – Introducción 

~ 10 ~ 
 

 La segmentación de mercados (Gustriansyah et al., 2020; Yoseph et 

al., 2020). 

 El análisis de documentos de texto (Abasi et al., 2021). 

La capacidad de clasificar y agrupar cualquier tipo de elemento o entidad, 

se vio implementada en los últimos años en algoritmos de clasificación, de 

reconocimiento de patrones, de reconocimiento de imágenes, toma de 

decisiones y por supuesto de inteligencia artificial.  

Sin embargo, los primeros desarrollos de las técnicas de clasificación de 

elementos y grupos no tuvieron en cuenta importantes aspectos relacionados 

con la equidad y la ética, ya que muchos de esos algoritmos son tan complicados 

que es casi imposible conocer sus parámetros y mucho menos poder seguir su 

proceso interno.  

La equidad en el diseño de algoritmos ha recibido mucha atención en los 

últimos años, intentando que los algoritmos incorporen requisitos éticos a la hora 

de realizar análisis de conglomerados y que estos conglomerados o cluster no 

incluyan sesgos de ningún tipo sobre atributos protegidos o sensibles, como 

género, raza, religión, etc. (Bera et al., 2019; Celis et al., 2018; Chierichetti et al., 


1 – Introducción 

~ 11 ~ 
 

2017; Cirilo et al., 2020; Leavy, 2018; Turner, 2018; Turner et al., 2019), entre 

otros. 

Los algoritmos de clasificación se aplican cada vez más a muchos 

problemas económicos y sociales importantes, como la predicción del 

comportamiento delictivo, la selección de solicitantes de empleo, la aprobación 

de hipotecas, la investigación de mercado o la calificación de seguros, entre 

muchos otros.  

La supervisión humana de muchos procesos de toma de decisiones está 

siendo sustituida progresivamente por el análisis automatizado de datos, y existe 

una creciente preocupación en nuestras sociedades por la falta de control 

humano de los resultados. Por ejemplo, un problema potencial importante es que 

el resultado de los algoritmos podría perjudicar o beneficiar injustificadamente a 

algunos grupos de personas que comparten atributos sensibles, relacionados 

con el género, la raza, la religión, el estatus social, etc.  

Estos problemas de discriminación suelen ser involuntarios, debido a la 

complejidad del procesamiento algorítmico de enormes cantidades de datos. En 

consecuencia, la necesidad de evitar estos sesgos de clasificación relacionados 

con atributos sensibles ha aumentado el interés por diseñar algoritmos de 

agrupación justos.  


1 – Introducción 

~ 12 ~ 
 

El significado de "equidad" en este caso es garantizar que los resultados 

de los algoritmos no estén sesgados hacia o contra subgrupos específicos de la 

población. 

Según Monasterio (2017), la revolución algorítmica tiene actualmente en 

la justicia o equidad uno de los grandes desafíos y amenazas, puesto que los 

algoritmos se han vuelto cada vez más complejos y de difícil comprensión, 

pudiéndolos considerar como “cajas negras”, no solo por su complejidad sino por 

la dificultad de poder corregir ciertos fallos. 

Benítez-Eyzaguirre (2020) denuncia que la falta de equidad en el género 

o la raza puede llegar a ser un importante problema, debido a que en los 

algoritmos se asienta hoy en día la toma de decisiones en casi todos los campos 

del conocimiento y de las actividades sociales. 

1.2. JUSTIFICACIÓN 

Es bien sabido que los problemas complejos del mundo real a menudo se 

caracterizan por tener diferentes puntos de vista, características, objetivos o 

atributos, que pueden ser difíciles de comparar o incluso contradictorios entre sí, 

pues muchos de esos problemas reales son problemas multiobjetivo o 

multiatributo.  


1 – Introducción 

~ 13 ~ 
 

Por ejemplo, en un problema de selección de inversiones, los inversores 

generalmente buscan obtener altos rendimientos, pero también quieren correr 

pocos riesgos. El problema es que los atributos de Rentabilidad / Riesgo 

generalmente se mueven en la misma dirección (los mayores retornos 

generalmente se obtienen corriendo mucho riesgo). 

Los problemas de optimización con múltiples atributos han sido 

analizados utilizando técnicas de Optimización Multiobjetivo o Multicriterio, que 

han generado una abundante literatura: ver (Baçak Aydemir et al., 2016; Branke 

et al., 2008; Coello et al., 2007; Cui et al., 2017; Ehrgott et al., 2005; Haimes & 

Li, 1989; Hu et al., 2016; Wu et al., 2018; Yaochu, 2006; Yapo et al., 1998; Zhou 

et al., 2011), entre muchos otros.  

Estas técnicas también se han extendido al análisis de grupos o clustering, 

incorporando requisitos adicionales a las particiones requeridas, como 

restricciones en su número o en su tamaño: ver (Deb, 2012; Ehrgott et al., 2005; 

Emmerich & Deutz, 2018; Handl & Knowles, 2006; Law et al., 2004; Mousa et al., 

2017, 2018; Yevseyeva et al., 2013), entre otros. 

Sin embargo, además de su aplicación a las propiedades de los cluster o 

grupos obtenidos, el razonamiento basado en múltiples criterios también podría 

aplicarse a los datos de entrada: en realidad, los diferentes atributos o 


1 – Introducción 

~ 14 ~ 
 

características de los datos también podrían no ser comparables o ser 

inconmensurables entre sí. 

Técnicas como el método K-Means (Forgy, 1965; McQueen, 1967), K-

Modes (Huang, 1997b, 1998) y K-Prototypes (Huang, 1997a) que son tres de los 

algoritmos más populares para agrupar datos numéricos, categóricos y mixtos, 

respectivamente, no tienen en cuenta este problema, pues agrupan todos los 

atributos de cada observación como si fuese un punto en el espacio ℝ𝑛𝑛, donde 

“n” representa el numero de atributos que contiene la base de datos y por 

consiguiente cada observación o elemento de la misma. 

Todos ellos se basan en la misma metodología:  

(1)   Seleccionan k centroides iniciales al azar. 

(2)   Asignan cada observación en la base de datos al punto 

representativo más cercano. 

(3)   Recalculan repetidamente los conglomerados y centroides a lo 

largo del proceso hasta que no se observan más cambios. 

De manera que, la selección de centroides iniciales distintos conduce a 

conjuntos finales muy diferentes, como se reconoce en Huang (1997a, 1998) o 

Ahmad & Khan (2019). Esto lleva a que la solución de agrupamiento final sea 


1 – Introducción 

~ 15 ~ 
 

inestable porque varias ejecuciones en el mismo conjunto de datos pueden dar 

diferentes agrupaciones finales. 

Por otro lado, hay pruebas abrumadoras que demuestran que los 

algoritmos pueden heredar o incluso perpetuar los sesgos humanos en su toma 

de decisiones cuando se entrenan con datos que contienen decisiones humanas 

sesgadas (Barocas & Selbst, 2016; Cowgill & Tucker, 2020; Domnich & 

Ambarjafari, 2021; Tolan, 2019). 

La Declaración Universal de los Derechos Humanos (Naciones Unidas, 

1948) en su resolución 217A(III) y en su artículo 2, prohíben la discriminación por 

razón de sexo, género, orientación sexual, raza, etnia, color de la piel, origen 

social, características genéticas, lengua, religión o creencia, opinión política o 

personal, pertenencia a una minoría nacional, patrimonio, nacimiento, filiación, 

discapacidad, enfermedad, estado civil o edad.  

Siguiendo a Romei & Ruggieri (2013), asumimos que, en principio, la 

discriminación puede producirse por cualquier rasgo físico o cultural, y en 

cualquier entorno de la vida cotidiana. En lo sucesivo, llamaremos atributos 

sensibles o protegidos a esos rasgos potencialmente discriminatorios. 


1 – Introducción 

~ 16 ~ 
 

Mehrabi et al., (2019) afirman que en un contexto legal hay equidad 

cuando las personas no son discriminadas por su pertenencia a un grupo o clase 

protegida, lo que nos lleva, en la práctica, a la existencia de varias definiciones 

de equidad algorítmica que intentan alcanzar este objetivo. De hecho, en la 

literatura se habla de al menos 20 definiciones de equidad (Berk et al., 2017; 

Narayanan, 2019; Verma & Rubin, 2018).  

Los algoritmos aparecen en una gran variedad de aplicaciones, 

aprovechando volúmenes de macro y microdatos, y responder al sesgo 

algorítmico por adelantado puede evitar potencialmente impactos perjudiciales.  

Así, por ejemplo: 

• En la concesión de créditos se utilizan algoritmos para predecir el 

riesgo de impago de los solicitantes de crédito (Huang et al., 2007; 

Sustersic et al., 2007).  

• En los departamentos de Recursos Humanos utilizan sistemas 

para seleccionar a los mejores candidatos (Filiberto et al., 2018; 

Köchling & Wehner, 2020). 

• En la justicia penal se están aplicando algoritmos para informar a 

los jueces sobre el riesgo de fuga y de reincidencia de los acusados 

(Angwin et al., 2016; Kleinberg et al., 2017). 


1 – Introducción 

~ 17 ~ 
 

• El aprendizaje automático también puede utilizarse para predecir el 

riesgo de mortalidad de los pacientes agudos y mejorar la 

orientación de los cuidados paliativos (Avati et al., 2017).  

El método FairMclus propuesto y desarrollado en esta Tesis Doctoral, 

tiene la capacidad de poder servir de apoyo en aplicaciones empresariales sobre 

muy diversas áreas del conocimiento, como queda de manifiesto en la multitud 

de trabajos existentes en la literatura en donde el sesgo algoritmico esta 

presente, entre otros:  

• Sesgo de genero y racial en la contratación (Correll & Bernard, 

2006). 

• Un algoritmo genético de clave aleatoria sesgado para el problema 

de programación de proyectos con recursos flexibles (Almeida et 

al., 2018).  

• Sesgo algorítmico en las prácticas de contratación actuales: Un 

examen ético (Bigu & Cernea, 2019).  

• Se ha alegado que la contratación con sesgo de sexo en muchas 

ocupaciones de las mujeres dedicadas a la música es 

extremadamente difícil de probar (Goldin & Rose, 2000).  


1 – Introducción 

~ 18 ~ 
 

• Sesgo racial en un algoritmo utilizado para gestionar la salud de las 

poblaciones (Obermeyer et al., 2019).  

• Pruebas de sesgo racial en las puntuaciones de crédito de las 

empresas Robb & Robinson, 2018). 

• Qué significa resolver el problema de la discriminación en la 

contratación (Sánchez-Monedero et al., 2019). 

• Regularización de sesgos en modelos de redes neuronales para la 

tarificación de seguros generales (Wüthrich, 2020). 

1.3. OBJETIVOS 

OBJETIVOS GENERALES 

En este trabajo de Tesis Doctoral, presentamos un marco para la equidad 

algorítmica en la clasificación de los datos, explorando una nueva metodología 

que aúne la precisión en el agrupamiento con la equidad de los grupos al tratar 

atributos sensibles o protegidos, en adelante FairMclus, que además de su 

simplicidad en el diseño para poder seguir su proceso sin dificultad, nos asegure 

tres ventajas fundamentales: que el método sea transparente y fiable, preciso y 

equitativo en el momento de formar los grupos o cluster finales.  

 
1 – Introducción 

~ 19 ~ 
 

En concreto, se trata de obtener:   

    1.   Estabilidad de los conjuntos o grupos finales, es decir, que estén 

formados siempre por los mismos individuos, independientemente de 

las repeticiones que se realicen sobre el mismo conjunto de datos. 

    2.   Eficiencia o precisión en los grupos finales, tanto de los elementos 

dentro de cada grupo como entre distintos grupos, es decir que los 

elementos que esten en un grupo sean más similares entre si que los 

elementos que estan situados en grupos distintos, y por tanto grupos 

distintos sean disimilares entre ellos. 

    3.   Equidad de los grupos formados respecto del atributo sensible o 

protegido contenido en el conjunto de datos inicial, alcanzando un 

compromiso razonable entre este objetivo y la eficiencia al formar los 

grupos. 

Estabilidad, Eficiencia y Equidad, además de Simplicidad del proceso, son 

los principales objetivos y aspectos que el método FairMclus tiene para 

clasificar de forma equitativa y justa conjuntos de datos, bien sean de tipo 

supervisado (datos que sabemos a priori sobre que grupo final debe de situarse 

cada elemento del conjunto inicial) o no supervisado (datos en donde no se 

conoce a priori el grupo final donde se debe de situar cada elemento del conjunto 


1 – Introducción 

~ 20 ~ 
 

inicial), y que incluyan algún atributo protegido o sensible dentro del conjunto 

inicial. 

OBJETIVOS ESPECÍFICOS 

Los objetivos específicos de esta investigación son: 

(1)  Hacer una revisión bibliográfica de los métodos de agrupamiento para datos 

categóricos, datos numéricos y datos mixtos.  

(2)  Hacer una revisión bibliográfica de la situación actual de la equidad en los 

algoritmos. 

(3)  Proponer un nuevo modelo de agrupamiento para datos categóricos y datos 

mixtos, que aúne los aspectos de: simplicidad y estabilidad, eficiencia o 

precisión y equidad. 

(4)  Desarrollar el modelo propuesto como un nuevo algoritmo en lenguaje "R" 

que contenga la metodología señalada anteriormente para datos categóricos 

y para datos mixtos (numéricos y categóricos), y ponerlo a disposición de la 

comunidad cientifica. 


1 – Introducción 

~ 21 ~ 
 

(5)  Realizar un estudio de simulación que permita evaluar el rendimiento del 

algoritmo propuesto con diferentes Bases de Datos. 

(6)  Comparar los resultados obtenidos con otros algoritmos existentes, respecto 

a su estabilidad, eficiencia o precisión y equidad. 

1.4. ESQUEMA DE CONTENIDOS  

La parte central de esta Tesis Doctoral está organizada de la siguiente 

manera: 

El CAPÍTULO 2 se dedica a presentar los antecedentes que dieron 

lugar al concepto de equidad o “fairness” y justicia en la clasificación o 

agrupación de datos, la situación actual en cuanto al sesgo implícito de los 

algoritmos de clasificación y la repercusión que está teniendo en los problemas 

actuales en las empresas y en la sociedad. 

El CAPÍTULO 3 describe los conceptos fundamentales en que se basa 

el análisis de cluster o conglomerados: cuáles son las etapas necesarias para 

realizar un análisis de cluster y qué medidas de agrupación se utilizan en función 

del tipo de atributos que pueda tener la Base de Datos original. Se discuten 


1 – Introducción 

~ 22 ~ 
 

asimismo las técnicas y métodos distintos que se pueden emplear para 

conseguir la mejor agrupación final. 

Se discuten en especial los resultados recogidos en la publicación llevada 

a cabo por Santos & Heras (2020), en la revista Interdisciplinary Journal of 

Information, Knowledge and Management, en el que se realiza una revisión 

de los algoritmos existentes para datos categóricos y la problemática existente 

cuando se seleccionan los centros de los conglomerados o cluster, además de 

presentar el algoritmo K-multicluster para datos categóricos, consiguiendo 

estabilidad en la formación de cluster y una mayor precisión en los grupos finales.  

El CAPÍTULO 4 presenta un nuevo modelo, que se ha llamado 

FairMclus, y la metodología en la que se sustenta este nuevo algoritmo 

propuesto para trabajar con datos de tipo mixto (numéricos y categóricos) o bien 

solo de tipo categórico, tomando como base el algoritmo K-multicluster (Santos 

& Heras, 2020) expuesto en el Capítulo 3 . Se incluye una explicación detallada 

de los pasos que realiza el algoritmo propuesto sobre un conjunto de datos, y en 

donde se puede verificar que los resultados obtenidos dan solución a los 

problemas de simplicidad, estabilidad, precisión y equidad, mencionados 

anteriormente como contribuciones fundamentales de esta Tesis Doctoral.  


1 – Introducción 

~ 23 ~ 
 

El CAPÍTULO 5 presenta los resultados obtenidos por el algoritmo 

propuesto FairMclus. Se realiza doble comparación con otros algoritmos de 

agrupamiento clásicos. Por un lado, en cuanto a la estabilidad, precisión y 

equidad que ofrecen, tomando en consideración distintas medidas de eficiencia 

ampliamente contrastadas en el Capítulo 4, para validar los resultados realizados 

sobre catorce bases de datos. Por otro lado, y en cuanto a la equidad como 

aplicación empresarial, sobre una base de datos no supervisada, 

correspondiente a seguros no vida. 

Se amplían los resultados recogidos recogidos en la publicación llevada a 

cabo por Santos & Heras (2021), y que se encuentra en segunda revisión en la 

revista Central European Journal of Operations Research, en el que se 

realiza una revisión de la problemática existente en los algoritmos actuales 

respecto a la equidad y justicia en el agrupamiento final, además de presentar el 

algoritmo FairMclus para datos categóricos ofreciendo estabilidad, precisión y 

equidad en la clasificación de los grupos finales (se incluye como Anexo 2). 

El CAPÍTULO 6 recoge el Software del algoritmo escrito en R, y 

publicado en el repositorio CRAN de R, para uso general de la comunidad de 

usuarios, con el que se ha podido conseguir los objetivos marcados y realizar el 


1 – Introducción 

~ 24 ~ 
 

estudio fijado en esta Tesis Doctoral, cuyos resultados han sido ampliamente 

expuestos en los capítulos 4 y 5. 

 
2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 25 ~ 
 

2 

EQUIDAD Y JUSTICIA EN 

ALGORITMOS DE 

CLASIFICACIÓN DE 

DATOS 
 

2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE 
CLASIFICACIÓN DE DATOS 

  
2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 26 ~ 
 

2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 27 ~ 
 

2.1. INTRODUCCIÓN 

Aunque los términos de Igualdad, Equidad y Justicia puedan parecer 

similares, su aplicación práctica puede dar resultados totalmente diferentes.  

La Equidad reconoce que las personas tienen circunstancias diferentes y 

por lo tanto hay que tratarlas con imparcialidad, asignando los recursos y 

oportunidades necesarios a cada una de ellas, para alcanzar resultados 

igualitarios. 

La Justicia aspira a conseguir una equidad sostenible a largo plazo, dando 

a cada persona lo que le pertenece o corresponde. 

Las leyes sobre Derechos Humanos en una gran mayoría de países del 

mundo, prohíben la discriminación de grupos protegidos o sensibles por motivos 

de raza, color, religión, nacionalidad, sexo, estado civil, edad y embarazo, tal y 

como se puede observar en la Carta de Derechos Fundamentales de la Unión 

Europea en su artículo 21 (European Union Agency, 2000), en el Artículo 14 de 

la Constitución Española (Constitución Española, 1978), en el Boletín Oficial del 

Estado de España en su Ley Orgánica 3/2007 (BOE, 2007), en la Declaración 

Universal de Derechos Humanos de Naciones Unidas (United Nations, 1948), en 

la Ley de Derechos Civiles de los Estados Unidos de América (Department of 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 28 ~ 
 

Justice USA, 1964), en la Legislación de Derechos de Raza y Sexo en el Reino 

Unido (UK Public General Acts, 1975; 1976), entre otros. 

Ruth (2019) plasma de forma gráfica las diferencias existentes entre los 

distintos conceptos de Igualdad, Equidad y Justicia, en donde el árbol representa 

el sistema natural (Figura 2.1). 

 
Figura 2.1: Igualdad, Equidad y Justicia (Ruth, 2019) 

Las decisiones basadas en la agrupación o clasificación pueden ser 

discriminatorias, en el sentido socialmente negativo de trato injusto o desigual de 

las personas, en función de su pertenencia a una categoría o un grupo sensible 

o protegido, sin tener en cuenta las características individuales.  


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 29 ~ 
 

Predecir modelos o patrones de la conducta humana en función de la 

información contenida en sus datos y utilizando técnicas de análisis y extracción 

de datos puede ofrecer unos resultados sesgados, bien directamente por la 

información contenida en los atributos sensibles o protegidos, o bien de forma 

indirecta por aquellos atributos que contienen información relacionada con 

dichos atributos protegidos. 

A diferencia de la agrupación o clustering, el campo de la Equidad y la 

Justicia en el aprendizaje automático es relativamente nuevo e incipiente, 

aunque ha mostrado desde su nacimiento en la última década hasta nuestros 

días un gran crecimiento a causa del interés que despiertan sus aplicaciones: 

(Berk et al., 2017; Chouldechova & Roth, 2018; Friedler et al., 2018) entre otros. 

Según Chierichetti et al. (2017) hay dos líneas generales de trabajo en la 

exploración de la Equidad en el aprendizaje automático: la primera se centra en 

el objetivo específico de la Equidad y busca algoritmos que tengan resultados 

justos, por lo que centra su atención en el aprendizaje supervisado, mientras que 

la otra línea de trabajo se plantea directamente codificar un algoritmo justo.  

Dentro de la primera línea tenemos entre otros a Luong et al. (2011) que 

busca parejas de personas con características similares mediante la variante de 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 30 ~ 
 

clasificación KNN ó K-Nearest Neighbor (Cheriff, 2018; Gallego et al., 2018), 

etiquetando cada tupla de un conjunto de datos como discriminada o no, de 

manera que construye un clasificador que proporciona una descripción global de 

las condiciones en las que se ha producido la discriminación.  

Hardt et al. (2016), también dentro de la primera línea, proponen un criterio 

de discriminación contra un atributo protegido y especificado en el análisis 

supervisado, de manera que traslada la carga de incertidumbre en la clasificación 

del atributo protegido al responsable de la toma de decisiones, incentivando la 

recopilación de mejores características de los atributos, pero al mismo tiempo 

permitiendo posibles sesgos subjetivos.  

En la segunda línea de trabajo tenemos entre otros a Dwork et al. (2011) 

que trata la equidad individual evitando la discriminación de personas en función 

de su pertenencia a algún grupo protegido, construyendo una métrica para 

determinar el grado de similitud que tienen los individuos o personas respecto a 

la tarea de clasificación y que además maximiza el objetivo de imparcialidad, 

haciendo que los individuos similares puedan ser tratados de manera parecida. 

Feldman et al. (2015), dentro de la segunda línea de trabajo y tras el caso 

Griggs vs Duke Power Co Ltd., del Tribunal Supremo de EE.UU., realizan un 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 31 ~ 
 

estudio del impacto dispar de los atributos protegidos, como raza y género, para 

que no se utilicen en la toma de decisiones y también para que las decisiones 

tomadas no sean diferentes para los solicitantes de distintas clases protegidas o 

sensibles. 

Hay que tener en cuenta que si una característica no protegida, por 

ejemplo, la estatura, está estrechamente correlacionada con una característica 

protegida, como el género, las decisiones tomadas en función de la estatura 

pueden seguir siendo injustas, ya que pueden utilizarse para discriminar de 

forma efectiva en función del género.  

2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN 

ALGORÍTMICA 

Los algoritmos controlan cada vez un mayor número de decisiones 

relativas a la vida cotidiana de las personas en multitud de ámbitos, como la 

sanidad, el transporte, la educación, las admisiones universitarias, la 

contratación de personal, la concesión de préstamos y pólizas de seguros, la 

justicia, el marketing y muchos otros, por ello es fundamental desarrollar 

algoritmos que no solo puedan ser precisos, sino que también sean objetivos y 

justos en la clasificación que realicen. 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 32 ~ 
 

Estudios recientes han podido demostrar que la toma de decisiones 

mediante algoritmos puede obtener resultados injustos, incluso cuando no existe 

ninguna intención explícita de hacerlo: por ejemplo, si al determinar la puntuación 

de crédito no se utiliza la característica de raza, pero las personas de una raza 

especifica viven en una zona concreta, y la dirección se usa para entrenar el 

modelo de predicción, podrían producirse determinaciones injustas (Calders & 

Verwer, 2010; Kamishima et al., 2012; Pedreshi et al., 2008). 

Kamiran et al. (2013) detectaron discriminación en registros de 

antecedentes penales en donde se asignaban puntuaciones de riesgo a los 

presos, puesto que las mayores puntuaciones se asignaban a personas que 

pertenecían a grupos étnicos minoritarios. 

Caliskan et al. (2017) detectaron una gran variedad de sesgos en el 

lenguaje natural, entrenado en un corpus de texto estándar de la World Wide 

Web, que contenían huellas recuperables y precisas de nuestros prejuicios 

históricos, y problemáticos, hacia la raza o el género. 

Pombo (2020) asegura que el diseño de los cinturones de seguridad o de 

airbags para los automóviles, se ha venido realizando con test de características 

masculinas, al no haber tenido en cuenta la morfología de la mujer ni tampoco la 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 33 ~ 
 

de la mujer embarazada, por eso asegura que la mujer tiene un 47% más de 

posibilidades de resultar herida en accidentes. 

Hardesty (2018) publicó un estudio, donde el análisis de tres algoritmos 

de análisis facial comercializados por grandes empresas tecnológicas para 

determinar el sexo de las personas analizadas, contenía sesgos de género en 

sistemas comerciales, pues mostraban unas tasas de error del 0,8% para 

hombres de piel clara, mientras que el error era del 35% en mujeres de piel 

oscura. 

 Garfinkel (2016) publicó una entrevista a la directora de investigación y 

desarrollo de productos en Ethnic Technologies, en South Hackensack (Nueva 

Jersey), en donde afirmaba que sus algoritmos podían predecir el origen étnico 

de una persona, basado en las cadenas de letras que conformaban su nombre, 

su dirección y código postal, todo ello basado en datos históricos de otras 

personas, lo cual hace suponer al algoritmo que dicha persona por solo residir 

en cierta área de la ciudad pertenece a una etnia o raza concreta. 

Dressel & Farid (2018) demostraron que la estimación por un algoritmo de 

la probabilidad de que un acusado pueda cometer un delito menor o grave en los 

dos años siguientes a su evaluación, era poco fiable y tenía un sesgo racial: en 

los acusados de raza negra que no reincidieron la tasa de error en la predicción 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 34 ~ 
 

de reincidencia fue de casi un 45%, mientras que en los acusados de raza blanca 

fue de la mitad, por lo que el algoritmo favorece a los acusados de raza blanca 

al predecir en exceso la reincidencia de los acusados de raza negra. 

 Peterson et al. (2010) aseguran que las puntuaciones por raza pueden 

influir en las decisiones de tratamientos médicos. Por ejemplo, la puntuación de 

riesgo de insuficiencia cardíaca de la Asociación Americana del Corazón asigna 

tres puntos adicionales a los pacientes que no son de raza negra, de manera 

que, si un paciente de raza blanca y otro de raza negra presentan síntomas 

idénticos, el algoritmo predice que el paciente de raza blanca tiene un mayor 

riesgo de morir de insuficiencia cardíaca, lo que produce que los médicos 

asignen más recursos a dicho paciente. 

 O’Reilly-Shah et al. (2020) aseguran que se pueden producir decisiones 

clínicas incorrectas debido al uso de algoritmos sesgados o basados en 

supuestos incorrectos, y que existen numerosos algoritmos clínicos que incluyen 

un ajuste por raza basado en pruebas cuestionables o inexistentes (Vyas et al., 

2020). 

Baker & Hawn (2021) encuentran sesgos en los algoritmos educativos, 

empezando por las categorías más estudiadas de raza/etnia, género y 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 35 ~ 
 

nacionalidad, pero también en las categorías menos estudiadas, como la 

condición socioeconómica o la discapacidad. 

Hu & Rangwala (2020) aseguran que cada vez hay más aplicaciones, 

como la predicción del rendimiento de los estudiantes, la recomendación de 

cursos, la predicción del abandono y el rastreo del conocimiento, que se basan 

en modelos de aprendizaje automático, y cada vez hay más pruebas y 

preocupaciones sobre sus sesgos, pues los modelos injustos pueden conducir a 

resultados no equitativos para algunos grupos de estudiantes y tener un impacto 

negativo en su aprendizaje. 

Yu et al. (2020) realizaron un estudio sobre los estudiantes en la 

educación superior, asegurando que el éxito suele estar determinado por los 

antecedentes demográficos, socioeconómicos y académicos de los estudiantes 

antes de la experiencia universitaria, y que las tasas de graduación universitaria 

difieren sustancialmente según la raza o etnia de los estudiantes, afirmando que 

los sesgos algorítmicos no sólo afectan a las minorías demográficas, sino 

también a los estudiantes con desventajas adquiridas. 

Los departamentos de policía en Estados Unidos, China, Reino Unido, 

Alemania o Suiza, han experimentado con algoritmos para determinar los puntos 

críticos del crimen y poder intervenir de forma más eficiente, pero se han 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 36 ~ 
 

encontrado con algunos sesgos, debido a que los algoritmos normalmente se 

suelen retroalimentar de información histórica sobre arrestos, y por lo tanto eso 

obliga a realizar más tareas de vigilancia en zonas en donde se han llevado a 

cabo dichas acciones y por consiguiente eso produce más arrestos en las 

mismas zonas (El País, 2021). 

La Unión Europea está elaborando nuevas reglas para el control de la 

equidad en los algoritmos, designando cuatro categorías en función del riesgo 

que implique: riesgo inadmisible, riesgo alto, riesgo limitado y riesgo mínimo. Los 

sistemas definidos como de alto riesgo, estarán sometidos a una serie de 

obligaciones muy estrictas, ya que abarcan entre otros a sistemas utilizados para 

filtrar los curriculum de candidatos que pueden discriminar el acceso a un puesto 

de trabajo, o sistemas de calificación crediticia que pueden impedir que una 

persona obtenga un préstamo (Jiménez, 2021). 

2.3. ÉTICA Y EQUIDAD DE LOS DATOS 

La ética de los datos se ha convertido en una nueva rama de la ética que 

evalúa todo lo concerniente a las prácticas morales que están asociadas a los 

datos, como la recopilación, generación y conservación de los datos, así como 

también el análisis, el procesamiento y la difusión de sus resultados, puesto que 

todo ello afecta de forma directa e indirecta a las personas y a la sociedad.  


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 37 ~ 
 

En la ética de los datos también tenemos que incluir a los algoritmos o 

programas, tanto de inteligencia artificial como de agrupamiento y de aprendizaje 

automático, que realizan todos esos cometidos y que diariamente se están 

implementando como ayuda a la toma de decisiones en todas las áreas de 

negocio y de la empresa. 

Si tomamos la definición lo más amplia posible, tal y como sugiere 

Kromrey (1993), podríamos decir que la ética se puede considerar como la 

disciplina que trata lo que es bueno y lo que es malo, así como también de los 

deberes y obligaciones morales, por lo tanto, podríamos decir que la ética son 

los principios de conducta que rigen a un individuo o a un grupo.  

Snow (1961) afirmó que la ciencia tiene un "componente moral 

incorporado", y este componente junto con los mecanismos de autocorrección 

de la ciencia, protege la integridad moral de sus practicantes.  

Gibbons (1973) reconoció que son posibles muchos matices e incluso 

distorsiones dentro de los límites de la propiedad, sin embargo, la ausencia de 

intencionalidad no exime de la responsabilidad ética ni redefine la práctica 

sospechosa como algo distinto a una cuestión ética, señalando la necesidad de 

tener en cuenta consideraciones éticas en cuanto a la recogida o selección de 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 38 ~ 
 

datos, la presentación o descripción de datos y la formación de interpretaciones 

y conclusiones.  

Como señala Altman (1980), la incompetencia en el uso del diseño y el 

análisis es un comportamiento poco ético, pues la ignorancia no es una excusa 

aceptable.  

La forma más obvia en que un estudio puede considerarse poco ético, ya 

sea por motivos estadísticos o de otro tipo, es el uso indebido de los datos, e 

incluso un estudio puede haber sido perfectamente concebido y ejecutado, pero 

si se analiza incorrectamente, las consecuencias pueden ser tan graves como 

las de un estudio que no fuera sólido en su totalidad. 

Box et al. (2005) defendieron que, el análisis de datos cumple una función 

pequeña pero fundamental en la investigación empírica, que es la de separar la 

información de los datos del ruido, y por consiguiente la vulneración de los 

principios éticos en el análisis de los datos da lugar a un ruido adicional. 

Normalmente este ruido se atribuye, no al experimento en sí, sino al tratamiento 

de los datos en el proceso que lleva a la inducción.  

Tukey (1980) defendió que, en la recogida de datos, las preguntas 

importantes pueden exigir la planificación más cuidadosa para el análisis 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 39 ~ 
 

confirmatorio: formular la pregunta es más importante que encontrar la 

respuesta, por lo que el análisis de datos es una actitud, una flexibilidad y una 

confianza en la visualización y no un conjunto de técnicas. En este sentido sugirió 

cuatro procesos generales de investigación: la generación de preguntas, el 

proceso de diseño, el seguimiento de la recogida de datos y el proceso de 

análisis de los datos.  

Rawls (2001) propuso una concepción de la justicia, a la que llamó “justicia 

como equidad”, en la cual, los principios de justicia más razonables son los que 

serían objeto de un acuerdo mutuo entre las personas, manteniendo el mismo 

derecho en cuanto a libertades básicas y cumpliendo dos condiciones en cuanto 

a desigualdad social y económica: en primer lugar, que se aplique con igualdad 

de oportunidades y, en segundo lugar, que redunde en un mayor beneficio de 

los miembros menos favorecidos.  

Gene Takagi (Takagi, 2018) plasmó en un gráfico todos estos conceptos, 

definiendo la Igualdad como la disposición a tratar a todos los ciudadanos del 

mismo modo, sin importar su género, raza, posición social o cualquier otra 

característica o cualidad, y a la Equidad como la capacidad de ser justos o de 

impartir justicia partiendo de la igualdad, pero considerando las necesidades 

individuales y las circunstancias de cada persona. 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 40 ~ 
 

Yang (2018) afirma que las diferentes definiciones de equidad no 

necesariamente son compatibles entre sí, al no ser posible conseguir de forma 

simultánea las múltiples nociones existentes, por ese motivo sugiere dos tipos 

diferentes de discriminación, discriminación directa y discriminación indirecta. 

La discriminación directa o discriminación sistemática, se produce cuando 

una persona recibe una diferencia de trato injustificada basada en cualquier 

rasgo físico o cultural como el sexo, el género, la raza, la edad, la religión, etc., 

(Romei & Ruggieri, 2013). 

La discriminación indirecta o discriminación estructural, se refiere al trato 

de desventaja que recibe una persona basada en su pertenencia a una categoría 

en lugar de por sus méritos individuales, puesto que muchas decisiones actuales 

se toman mediante modelos predictivos construidos a partir de datos históricos, 

y estos modelos predictivos pueden discriminar sistemáticamente a grupos de 

personas (Zliobaite, 2015a). 

Barocas & Selbst (2016) señalan que la discriminación puede ser debida 

al propio proceso de extracción de datos, pues este puede reflejar sesgos de las 

personas que tomaron dicha información en función de la decisión tomada para 

llevar a cabo la recolección de los datos.  


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 41 ~ 
 

El trabajo sobre la ética en los algoritmos ha aumentado progresivamente 

en la última década, cuando los gobiernos y las empresas han empezado a 

asumir un papel destacado en el debate sobre algoritmos justos y éticos (Binns, 

2017; Sandvig et al., 2016; Selbst et al, 2019; Tsamados et al., 2021; Wong, 

2019). 

Todo este movimiento respecto de la ética, ha producido un aumento en 

la investigación sobre las implicaciones que tiene la ética en los algoritmos, y 

muy en particular la relación existente en cuanto a equidad, responsabilidad y 

transparencia (Hoffmann et al., 2018; Lee, 2018; Shin & Park, 2019). 

Mittelstadt et al. (2016) formuló un mapa conceptual, en el cual identifica 

seis preocupaciones éticas que definen el espacio conceptual de la ética de los 

algoritmos como campo de investigación: tres se refieren a factores epistémicos 

(pruebas no concluyentes, inescrutables y erróneas), dos son explícitamente 

normativas (resultados injustos y efectos transformadores) y una última de 

trazabilidad, la cual es común a los dos grupos anteriores, epistémicos y 

normativos (Figura 2.2). 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 42 ~ 
 

Figura 2.2: Tipos de preocupaciones éticas (Mittelstadt et al., 2016) 

Los factores epistémicos del mapa ponen de relieve la importancia de la 

calidad y la exactitud de los datos para justificar las conclusiones a las que llegan 

los algoritmos, las preocupaciones normativas se refieren al impacto ético de las 

acciones y decisiones impulsadas por algoritmos, y finalmente la trazabilidad se 

refiere a poder identificar la causa que conduce a un resultado determinado por 

parte del algoritmo y poder atribuir la responsabilidad moral del mismo. 

Corbett-Davies & Goel (2018) afirman que cada vez están cobrando más 

importancia tres amplias clases de definiciones de equidad. La primera clase, a 

la que denominan anti clasificación, estipula que los algoritmos no tienen en 

Trazabilidad

Efectos transformadores

Resultados injustos

Pruebas erróneas

Pruebas inescrutables
Preocupaciones
Epistémicas

Preocupaciones
Normativas

Pruebas no concluyentes


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 43 ~ 
 

cuenta las características protegidas a la hora de obtener estimaciones. La 

segunda, exigiendo que ciertas medidas de rendimiento predictivo sean iguales 

en todos los grupos definidos por el atributo protegido, intentado conseguir la 

paridad en la clasificación. A la tercera clase la denominan calibración, y requiere 

que los resultados sean independientes del atributo protegido.  

Kleinberg et al. (2016) afirman que la clasificación algorítmica ha 

implicado una tensión sobre lo que significa que una clasificación probabilística 

sea justa para diferentes grupos, puesto que salvo en casos muy restringidos, 

no hay ningún método que pueda satisfacer las tres condiciones explicadas por 

Corbett-Davies & Goel (2018) de forma simultánea.  

Gillis & Spiess (2019) realizaron un estudio de simulación basada en datos 

hipotecarios del mundo real, y observaron que restringir las características 

protegidas, como el género o la raza, que el algoritmo puede utilizar, suele tener 

un efecto limitado sobre la disparidad y, aumentaba las diferencias de los 

precios. 

Es claro que los algoritmos nos ofrecen un mejor rendimiento en muchos 

aspectos, si lo comparamos con el rendimiento obtenido por el ser humano, por 

ejemplo, son capaces de integrar mucha más información en grandes volúmenes 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 44 ~ 
 

de datos y a la vez tener en cuenta múltiples características de esos datos, y por 

otro lado son capaces de realizar cálculos más complejos y rápidos que el propio 

ser humano.  

Pessach & Shmueli (2020) confirman que, aunque las decisiones que 

toman los algoritmos deberían de ser más objetivas y justas de las que pudiera 

tomar el ser humano, esto no es así, ya que un modelo de predicción puede estar 

sesgado al aprender y conservar sesgos históricos. 

En términos generales, el problema de predicción basado en la 

discriminación se formula como un problema de optimización con restricciones, 

cuyo objetivo es alcanzar la mayor precisión posible, intentando mantener la 

mejor equidad posible. 

Zliobaite (2015b) revisó el problema de la compensación entre precisión y 

equidad en una clasificación binaria, argumentando que la comparación de 

clasificadores no discriminatorios debía tener en cuenta los diferentes 

porcentajes de predicción positiva, pues de no ser así, concluía, el rendimiento 

podría ser engañoso. 

Calders et al. (2009) demostraron un cierto equilibrio entre la precisión y 

el nivel existente de dependencia injustificada entre las predicciones y el atributo 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 45 ~ 
 

protegido o sensible, transformando la clasificación con restricciones en un 

problema de optimización multiobjetivo, proponiendo dos métodos para limpiar 

los datos de entrenamiento.  

El primer método consiste en cambiar algunas etiquetas de la base de 

datos y así eliminar la dependencia que pueda existir entre las etiquetas y el 

atributo protegido, y el segundo método asigna pesos a las tuplas formadas en 

el primer método y de esta forma consigue equilibrar los datos de entrenamiento 

original. 

Corbett-Davies et al. (2017) demostraron que maximizar la precisión de 

las predicciones con un único umbral suele alterar las restricciones de equidad, 

mientras que los modelos que guardan la equidad con umbrales específicos para 

cada grupo suelen reducir la precisión en la clasificación.  

Speicher et al. (2018) argumentaron que generalmente un algoritmo que 

obtiene una equidad óptima basada en el índice de equidad, podría tener un mal 

rendimiento de precisión. 

Se han propuesto métodos concretos para detectar la existencia de la 

discriminación en los datos. Adebayo & Kagal (2016) utilizan el método de 

proyección ortogonal para crear múltiples versiones del conjunto de datos 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 46 ~ 
 

original, eliminando un atributo en cada subconjunto, y obligando a que el resto 

de atributos sean ortogonales con el atributo eliminado. 

Zhang & Neil (2016) tratan la existencia de la discriminación en los datos 

como un problema de detección de anomalías y desarrollan algoritmos para 

escanear los subconjuntos de datos y encontrar subgrupos dentro de cada 

subconjunto que sufran una discriminación significativa. 

Mancuban & Clifton (2014) construyen redes bayesianas no 

discriminatorias, pues su algoritmo depende de que se elimine el atributo 

protegido de la red y así poder eliminar de los datos las observaciones 

discriminatorias.  

Celis et al. (2016) proponen no solo eliminar el sesgo en los datos de 

entrenamiento sino también garantizar que los datos no sesgados sean 

representativos del espacio de características que contiene la base de datos 

original. 

Las preocupaciones sobre la equidad en la clasificación y el clustering, así 

como sobre la evaluación y mejora de algoritmos justos, han generado una gran 

cantidad de literatura: ver entre otros (Chen et al., 2019; Holstein et al., 2019; 

Hossain et al., 2020; Micha & Shah, 2020; Zafar et al., 2017; Zemel et al., 2013).  


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 47 ~ 
 

Sin embargo, el objetivo de mejorar la equidad de los algoritmos no es 

trivial, pues existe a menudo una contradicción directa con el objetivo de 

conseguir la mayor concordancia posible entre los elementos pertenecientes a 

los mismos grupos, de modo que un aumento del objetivo de equidad suele 

producir una pérdida de eficiencia en la clasificación y viceversa. 

La solución propuesta en esta Tesis Doctoral alcanza un compromiso 

razonable entre los objetivos de eficiencia y equidad, y es capaz de trabajar con 

datos únicamente de tipo categórico puro o de tipo mixto, incluyendo en la misma 

base de datos atributos de tipo numérico y de tipo categórico e incluso dentro de 

estos, los que son de tipo binario junto con los que son de tipo nominal, ordinal 

o de tipo intervalo. 

Asumiendo la existencia de un atributo protegido o sensible dentro de 

nuestros datos, el método de clasificación FairMclus propuesto en esta Tesis 

Doctoral, encuentra grupos de elementos justos y equitativos y al mismo tiempo 

los elementos dentro de cada grupo son homogéneos entre si (Santos & Heras, 

2020; 2021). La estabilidad, la eficacia de la clasificación y la equidad son las 

principales ventajas de la metodología FairMclus propuesta en esta Tesis 

Doctoral. 


2 – Equidad y Justicia en Algoritmos de Clasificación de Datos 

~ 48 ~ 
 

3- Análisis de Clustering 

~ 49 ~ 
 

3 

ANÁLISIS DE CLUSTERING 
 

3 – ANÁLISIS DE CLUSTERING 

 
3- Análisis de Clustering 

~ 50 ~ 
 

3- Análisis de Clustering 

~ 51 ~ 
 

3.1. INTRODUCCIÓN 

El análisis de conglomerados o de cluster es una metodología de 

aprendizaje automático no supervisado que engloba una amplia variedad de 

técnicas y métodos, todos ellos dirigidos a un único propósito: clasificar los 

elementos que pertenecen a un conjunto dado y agruparlos en un número finito 

de subconjuntos o conglomerados, haciendo que las diferencias entre los 

diferentes grupos sea lo más grande posible. 

Según Jain & Dubes (1980; 1988), el objetivo de un análisis de cluster es 

descubrir agrupaciones naturales para estimular la creatividad y el ingenio, así 

como formular hipótesis sobre el fenómeno estudiado. El análisis de 

conglomerados tiene una naturaleza heurística que fomenta la exploración de 

los datos, complementada con técnicas de visualización. 

En el diccionario en línea de Merriam-Webster (2018) se define análisis 

de cluster como una técnica de clasificación estadística para descubrir si los 

individuos de una población pertenecen a diferentes grupos al hacer 

comparaciones cuantitativas de múltiples características. 

El objetivo del análisis de conglomerados es, por tanto, encontrar la forma 

más natural de agrupar y clasificar un conjunto de individuos, objetos, patrones, 


3- Análisis de Clustering 

~ 52 ~ 
 

observaciones, etc., en función del grado de similitud que tengan sus 

características o atributos. 

Como regla general el proceso se repite un número de veces, que puede 

estar especificado de antemano o no, en el algoritmo, hasta que no se produce 

ningún cambio en ningún cluster de los que están formados, con lo que el 

algoritmo terminaría su ejecución (Figura 3.1). 

 
Figura 3.1. Formación de 3 cluster (Learn by marketing, 2021) 

Por ejemplo, un investigador de mercado puede preguntarse cómo 

agrupar a los consumidores que buscan beneficios similares de un producto para 


3- Análisis de Clustering 

~ 53 ~ 
 

poder comunicarse mejor con ellos, o un analista de mercado puede estar 

interesado en agrupar las características financieras de empresas para poder 

relacionarlas con sus resultados bursátiles (Everitt et al., 2011). 

Green et al. (1967) utilizaron el análisis de cluster para clasificar las 

ciudades en un número reducido de grupos en función de 14 variables, entre 

ellas el tamaño de la ciudad, la circulación de los periódicos y la renta per cápita. 

Chakrapani (2004) emplea el análisis de cluster para tratar de identificar 

a las personas con un estilo de vida más asociado a la compra de coches 

deportivos, y de esa forma crear y enfocar mejor una campaña de marketing, 

pues consideraba que la compra de un coche deportivo no se basaba 

únicamente en los medios económicos o en la edad, sino que era una decisión 

de estilo de vida.  

Radmehr & Alamolhodaei (2014) realizaron un análisis de conglomerados 

en aquellos estudios que tienen una entrevista como parte de su recogida de 

datos, con métodos mixtos secuenciales que utilizan datos cuantitativos para 

enmarcar submuestras cualitativas posteriores para la realización de entrevistas. 

Hitka et al. (2017) propusieron un programa de motivación de grupo para 

los empleados de una empresa mediana que opera en la industria de la madera, 


3- Análisis de Clustering 

~ 54 ~ 
 

formando tres categorías o cluster para los directivos y otros tres para los 

empleados, para aumentar el rendimiento de los empleados y por consiguiente 

el de la empresa, pues aun cuando se aplican programas de motivación, los 

programas de motivación mal diseñados pueden tener un impacto negativo en 

los empleados. 

En esta Tesis Doctoral se propone una nueva metodología de 

agrupamiento para datos categóricos puros y datos mixtos. 

Mantenemos por un lado la agrupación de datos categóricos según las 

propias características de cada uno de ellos y de esa forma no perder la identidad 

y diferencia de los atributos entre sí, y, por otro lado, para los datos numéricos 

agrupando cada atributo de manera independiente, para que no se vea afectada 

la ubicación de cada objeto en su grupo por el resto de atributos numéricos.  

De esta forma se consiguen resolver los problemas de inestabilidad que 

se han descrito anteriormente y se alcanza asimismo una mayor eficiencia en el 

agrupamiento final. 

 
3- Análisis de Clustering 

~ 55 ~ 
 

3.2. ETAPAS DEL ANÁLISIS DE CLUSTER 

En la realización del análisis de cluster, existen algunos pasos o etapas 

que es necesario llevar a cabo, para conseguir un resultado óptimo en la 

generación de los grupos o cluster finales. 

Según Aldenderfer y Blashfield (1984) existen cinco pasos básicos que 

caracterizan los estudios de análisis de cluster: (1) selección de una muestra; (2) 

definición de un conjunto de variables para medir las entidades de la muestra; 

(3) cálculo de distancia entre las entidades; (4) utilización de un método de 

análisis y (5) validación de la solución final. 

Milligan (1996) identifica siete pasos que constituyen un análisis de 

cluster: (1) Selección de las entidades a agrupar; (2) Selección de las variables; 

(3) Estandarización de las variables; (4) Selección de la medida de similitud o 

disimilitud; (5) Selección de un método de análisis; (6) Determinación del número 

de cluster final; (7) Interpretación, pruebas y replicación. 

Everitt et al. (2011) redistribuyen las mismas etapas que Milligan (1996), 

especificando algunos de los pasos, como el de la selección de las variables a 

utilizar, en el que, en la medida de lo posible, deben excluirse las variables 

irrelevantes o de enmascaramiento. Respecto al número de cluster a utilizar, 


3- Análisis de Clustering 

~ 56 ~ 
 

proponen considerar el más alto, a menos que la información externa del tema 

sugiera una elección adecuada. 

Halkidi et al. (2001) sugieren cuatro pasos o etapas para la realización de 

un análisis de cluster, que comparten características comunes con las de otros 

autores, pero distribuidas de la siguiente forma (Figura 3.2): 

(1) Seleccionar adecuadamente las características sobre las que se va 

a realizar el clustering, para codificar la mayor cantidad de 

información posible sobre la tarea que nos interesa. 

(2) Elección de un método de agrupación que permita definir un buen 

esquema de clustering para un conjunto de datos, que contenga: 

i. una medida que cuantifique lo similares que son dos puntos 

para asegurarnos de que todas las características 

seleccionadas contribuyan por igual al cálculo de la medida 

de proximidad y que no haya características que dominen a 

otras. 

ii. Definir un buen criterio de agrupación, que conduzca a una 

partición que se ajuste bien al conjunto de datos. 

(3) Validación y corrección de los resultados; independientemente de 

los métodos de clustering, la partición final de los datos requiere 


3- Análisis de Clustering 

~ 57 ~ 
 

algún tipo de evaluación en la mayoría de las aplicaciones (Rezaee 

et al., 1998). 

(4) Interpretación de los resultados para sacar la conclusión correcta. 

 
Figura 3.2. Etapas de Análisis de cluster (Halkidi et al., 2001) 

La metodología que introduce el algoritmo FairMclus (Santos & Heras, 

2020; 2021), presentado en esta Tesis Doctoral, sigue los mismos principios que 

el enunciado por Halkidi et al. (2001), aunque con algunas diferencias 

fundamentales respecto a las fases uno y dos. 

Respecto a la fase uno, y siguiendo el principio enunciado por Halkidi et 

al. (2001) de intentar tomar todas las características posibles para codificar la 

mayor cantidad de información posible: 


3- Análisis de Clustering 

~ 58 ~ 
 

 El algoritmo FairMclus selecciona todas las características o 

atributos contenidos en la Base de Datos, debido a que cada 

atributo se clasifica de forma independiente del resto para no 

producir ningún sesgo de clasificación sobre el resto de atributos o 

características. 

Respecto a la fase dos, y siguiendo también el principio enunciado por 

Halkidi et al. (2001) de que no existan características o atributos que dominen 

sobre otras: 

 El método de agrupación del algoritmo FairMclus calcula la 

similitud entre diferentes observaciones de la Base de Datos 

teniendo en cuenta la igualdad de coincidencias de cada cluster 

que tenga cada atributo en cada observación, lo que nos lleva a 

tener grupos finales con gran semejanza entre sus elementos. 

3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA 

Las medidas de similitud, disimilitud, distancia y dependencia son 

herramientas poderosas para determinar la asociación y el parecido entre pares.  


3- Análisis de Clustering 

~ 59 ~ 
 

La elección de una medida adecuada es esencial, ya que afectará en gran 

medida al tratamiento de sus datos durante el análisis y al tipo de 

interpretaciones que tienen sentido.  

Si tomamos la definición matemática del significado de distancia entre dos 

puntos en el plano cartesiano (ℝ2), sería la longitud del segmento que separa 

ambos puntos (Figura 3.3.). 

  
Figura 3.3. Distancia entre dos puntos (espacio bidimensional) 

Si tomamos la definición matemática del significado de distancia entre 

dos puntos en el espacio (ℝ𝑛𝑛), sería el módulo del vector formado por ambos 

puntos (Figura 3.4.). 


3- Análisis de Clustering 

~ 60 ~ 
 

Figura 3.4. Distancia entre dos puntos (espacio tridimensional) 

Bishnoi & Hooda (2020) identifican la distancia como la diferencia entre 

dos vectores, tomando dos vectores de entrada y devolviendo un número real 

positivo, llamado distancia entre dos vectores. El valor de esta función de 

distancia debe ser pequeño entre puntos similares y grande entre puntos de 

datos diferentes.  

 La métrica de distancia o similaridad que se puede emplear en un análisis 

de conglomerados o de cluster, depende principalmente del tipo de variables que 

se estén tratando, a saber, numéricas, categóricas o mixtas (Bishnoi & Hooda, 

2020; Cuadras, 1989; Gower & Legendre, 1986; Legendre & Legendre, 1979; 

Saxena et al., 2017; Van de Velden et al., 2019; Zezula et al., 2006). 


3- Análisis de Clustering 

~ 61 ~ 
 

Existen tres requisitos que se deben cumplir en toda medida de distancia 

(Bishnoi & Hooda, 2020):  

(1)  La distancia entre dos puntos i y j es siempre mayor o igual a cero, es 

decir, si i no es igual a j, entonces 𝑑𝑑𝑖𝑖𝑖𝑖 ≥ 0. 

(2)  La distancia entre i y j es igual a cero, si y sólo si, i es igual a j, es 

decir, i = j, entonces 𝑑𝑑𝑖𝑖𝑖𝑖 = 0. 

(3)  La distancia entre i y j es igual a la distancia entre j e i, es la propiedad 

simétrica 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑𝑖𝑖𝑖𝑖 , lo que implica que la dirección en la medición de la 

distancia no importa. 

Aquellas medidas de distancia que además de las anteriores, satisfacen el 

siguiente requisito, se denominan medidas de distancia métrica: 

(4) Si consideramos la presencia de un tercer punto s, la distancia entre i 

y j es siempre menor o igual, que la suma de la distancia entre i y s y 

la distancia entre s y j. Es la propiedad triangular  𝑑𝑑𝑖𝑖𝑖𝑖 ≤ 𝑑𝑑𝑖𝑖𝑖𝑖 + 𝑑𝑑𝑖𝑖𝑖𝑖 . 

Un concepto estrechamente relacionado con la medida de distancia es la 

medida de similaridad, que mide la similitud de dos puntos. Su uso dependerá 

del método de cluster elegido para realizar el agrupamiento de los datos. 


3- Análisis de Clustering 

~ 62 ~ 
 

La medida de similaridad, está acotada y toma valores dentro del rango 

[0,1], lo que significa que valores de similaridad cercanos al 1 tendrán una mayor 

semejanza entre los elementos (Ecuación 3.1): 

𝑆𝑆𝑖𝑖𝑖𝑖 = 1 − 𝑑𝑑𝑖𝑖𝑖𝑖     (3.1) 

3.3.1. Medidas de distancia de datos de tipo cuantitativo 

Los datos cuantitativos son el tipo de datos cuyo valor se mide mediante 

números que describen variables numéricas. Los datos cuantitativos se dividen 

en dos tipos: datos discretos y datos continuos.  

Existe en la literatura una gran variedad de coeficientes para calcular la 

distancia con datos de tipo cuantitativo, ver entre otros (Bishnoi & Hooda, 2020; 

Cha, 2007; Demey et al., 2011; Gower & Legendre, 1986) 

Se exponen a continuación algunos de los coeficientes más utilizados 

para la agrupación de datos numéricos o cuantitativos: 

1.-  Distancia Euclídea o Euclidiana: 

La distancia euclídea o distancia ordinaria entre dos puntos 𝑷𝑷(𝑥𝑥1,𝑦𝑦1) y 

𝑸𝑸(𝑥𝑥2,𝑦𝑦2), es la distancia que se deduce del teorema de Pitágoras (Figura 3.5). 


3- Análisis de Clustering 

~ 63 ~ 
 

 Si la distancia euclídea la generalizamos a un espacio (ℝ𝑛𝑛), donde cada 

punto del espacio contenga “r” atributos o características diferentes, su 

formulación seria la siguiente (Ecuación 3.2). 

d(P,Q)=�∑ (Pk- Qk)2r
k=1             (3.2) 

 
Figura 3.5. Distancia Euclídea (Chaudhury, 2020) 

 Esta distancia, aun siendo la distancia métrica común en la mayoría de 

los análisis multivariantes con variables cuantitativas, presenta el inconveniente 

que es muy sensible a los cambios de escala que se produzcan y sus variables 

son estocásticamente independientes (Cuadras, 1986).    

2.-  Distancia Manhattan 

La distancia Manhattan se llama también distancia ciudad o distancia 

manzana o geometría de taxi. Dados dos puntos 𝑷𝑷(𝑥𝑥1,𝑦𝑦1) y 𝑸𝑸(𝑥𝑥2,𝑦𝑦2), se define 


3- Análisis de Clustering 

~ 64 ~ 
 

como la suma de las distancias de proyección de dos puntos sobre cada eje de 

coordenadas (Ecuación 3.3): 

d(P,Q)=∑ |Pk- Qk|r
k=1            (3.3) 

En la Figura 3.6 la línea roja corresponde a la distancia Manhattan, 

mientras que la línea azul corresponde a la distancia euclídea. 

  
Figura 3.6. Distancia Manhattan (Sosnovshchenko, 2018) 

3.-  Distancia Minkowski  

La distancia Minkowski (Sneath & Sokal, 1973; Han et al., 2012) es una 

métrica que puede considerarse como una generalización tanto de la distancia 

euclídea como de la distancia de Manhattan, con  1 ≤ 𝑝𝑝 ≤ ∞ (Ecuación 3.4). 

d(P,Q)=�∑ (Pk- Qk)pr
k=1

p
           (3.4) 


3- Análisis de Clustering 

~ 65 ~ 
 

Se puede decir que la distancia de Minkowski es una generalización de 

otras distancias, pues dependiendo de los valores del parámetro “p”, se obtienen 

diferentes medidas; por ejemplo: si “p” toma el valor 1, obtenemos la distancia 

Manhattan, si “p” toma el valor 2, se obtiene la distancia Euclídea, y si p tiende a 

∞, se obtendría la distancia de Chebyshev (Xu et al., 2019) (Figura 3.7). 

 
Figura 3.7. Distancia Minkowski (Xu et al., 2019) 

4.-  Distancia de Sorensen o Bray-Curtis 

La distancia de Sorensen (Sorensen, 1948) o también llamada Bray-Curtis 

(Bray & Curtis, 1957), es utilizada ampliamente en ecología (Looman & 

Campbell, 1960) (Ecuación 3.5). 

d(P,Q)=
∑ |Pk - Qk|r

k=1
∑ (Pk + Qk)r

k=1
           (3.5) 


3- Análisis de Clustering 

~ 66 ~ 
 

5.-  Distancia de Bhattacharyya 

La distancia de Bhattacharyya (Bhattacharyya, 1943), proporciona límites en 

la probabilidad de clasificación errónea de Bayes (Ecuación 3.6). 

d(P,Q)=- ln∑ �Pk∙ Qk
r
k=1            (3.6) 

6.-  Distancia de Camberra 

La distancia de Camberra (Gordon, 1999; Lance & Williams, 1966), se parece 

a la métrica de Sorensen, pero normaliza la diferencia absoluta del nivel 

individual. Esta métrica es muy sensible a los cambios pequeños próximos a cero 

(Ecuación 3.7). 

d(P,Q)=∑
|Pk- Qk|
Pk+ Qk

r
k=1           (3.7) 

7.-  Distancia del Coseno 

La distancia del Coseno (Han et al., 2012), es el producto interno normalizado 

y se llama el coeficiente del coseno porque mide el ángulo entre dos vectores. 

Suele llamarse también métrica angular (Ecuación 3.8). 

d(P,Q)=
∑ Pk∙ Qk

r
k=1

�∑ Pk
2r

k=1  �∑ Qk
2r

k=1

         (3.8) 


3- Análisis de Clustering 

~ 67 ~ 
 

8.-  Distancia 𝝌𝝌𝟐𝟐 de Neyman 

La distancia 𝜒𝜒2 de Neyman (Neyman, 1967), corrige la propiedad simétrica 

d(P,Q)= d(Q,P), que le falta a la distancia Chi-cuadrado de Pearson (Ecuación 

3.9). 

d(P,Q)=
∑ (Pk- Qk)2r

k=1
Pk

           (3.9) 

3.3.2. Medidas de distancia de datos de tipo cualitativo 

Los datos cualitativos son el tipo de datos cuyos valores representan 

cualidades o características de algún tipo. A veces se registran como números, 

pero estos números representan categorías y no cantidades reales. 

Una variable cualitativa o categórica es nominal, si tiene dos o más 

categorías, pero no hay un orden intrínseco en las categorías.  Por ejemplo, el 

color del pelo es una variable nominal que tiene varias categorías (rubio, castaño, 

moreno, pelirrojo, etc.), y no hay una forma acordada de ordenarlas de mayor a 

menor.  

Una variable cualitativa o categórica se dice que es ordinal, cuando existe 

un orden claro de las categorías que contiene el atributo.  Por ejemplo, una 

variable como la experiencia educativa, que toma cuatro categorías (Primaria, 


3- Análisis de Clustering 

~ 68 ~ 
 

ESO, Bachillerato y Universidad), el orden para pasar de una categoría a otra, 

sería estableciendo un orden, 1, 2, 3 y 4, ya que no se puede saltar del nivel 1 al 

nivel 4, sin pasar por los siguientes niveles ordenados. 

Una variable cualitativa es de tipo binario, cuando únicamente toma dos 

valores, 0 y 1; ambos tienen la misma importancia y cada bit indica la presencia 

o ausencia de un posible valor de atributo. 

Existe en la literatura una gran variedad de coeficientes para calcular la 

distancia con datos de tipo cualitativo, ver entre otros (Alamuri et al., 2014; Boriah 

et al., 2008; Cha et al., 2006; Choi et al., 2008; Demey et al., 2011; Gower, 1971; 

Gower & Legendre, 1986; Hubalek, 1982; Legendre & Legendre, 1979; Lourenço 

et al., 2004; Sneath & Sokal, 1973). 

Hubalek (1982), recopiló 43 medidas de similitud, y 20 de ellas se 

utilizaron para el análisis de los datos de los hongos para producir cinco clusters 

de coeficientes relacionados. 

Jackson et al. (1989) compararon ocho medidas de similitud binarias para 

elegir la mejor para 25 especies de peces ecológicos.  

Tubbs (1989) resumió siete medidas de similitud convencionales para 

resolver el problema de plantilla, y Zhang & Srihari (2003) compararon esas siete 


3- Análisis de Clustering 

~ 69 ~ 
 

medidas y mostraron la capacidad de reconocimiento en la identificación de la 

escritura a mano. 

Willett (2003) evaluó 13 medidas de similitud para el código binario de 

huellas dactilares. 

Choi et al. (2010) recopilaron y analizaron 76 medidas binarias de similitud 

y distancia utilizadas en el último siglo. 

Aunque en la literatura se han descrito numerosas medidas de similitud, 

no existe un criterio universal de cuándo usar una u otra similitud. 

La elección de una determinada medida dependerá de diversos factores 

a tener en cuenta, como por ejemplo el peso que se desea dar a las frecuencias 

de a, b, c y d (Tabla 3.1), o el tipo de datos que se quieran representar. 

 
Tabla 3.1. Tabla de representación binaria 


3- Análisis de Clustering 

~ 70 ~ 
 

Supongamos que dos elementos, i y j están representados por la forma 

de vector de características binario. Sea r el número de características o atributos 

o la dimensión del vector de características.  

Las definiciones de similitud binaria y distancia se expresan mediante una 

tabla de contingencia de 2 x 2, donde: 

i. a es el número de características donde los valores de i y j son ambos 

1 (presencia) lo que significa "coincidencias positivas". 

ii. b es el número de atributos donde el valor de i y j es (0,1), lo que 

significa "ausencia de coincidencias en i". 

iii. c es el número de atributos en los que el c es el número de atributos 

en los que el valor de i y j es (1,0), lo que significa "ausencia de 

coincidencias en j". 

iv. d es el número de atributos en los que tanto i como j tienen 0 

(ausencia), lo que significa "coincidencias negativas". 

v. La diagonal (a + d) representa el número total de coincidencias entre i 

y j. 

vi. la diagonal (b + c) representa el número total de número de 

incompatibilidades entre i y j. 

vii. La suma total de la tabla 2x2, (a + b + c + d) es siempre igual a r. 


3- Análisis de Clustering 

~ 71 ~ 
 

En la Tabla 3.2, se exponen algunos de los coeficientes de similaridad 

más usados: 

 
Tabla 3.2. Medidas de similaridad binarias 


3- Análisis de Clustering 

~ 72 ~ 
 

3.3.3. Medidas de distancia de datos de tipo mixto 

La mayoría de las investigaciones que requieren el cálculo de una 

distancia o similaridad se limitan a las variables continuas, pero en el mundo real, 

en la empresa, los datos son en su mayoría una combinación de variables 

continuas y categóricas, es decir, de variables cuantitativas y variables 

cualitativas, también llamados datos de variables mixtas o datos heterogéneos. 

Cuando los datos son una mezcla de tipo continuo y categórico, la mayoría 

de los investigadores ignoran su naturaleza categórica y proceden con medidas 

de distancia para datos continuos o transforman los datos continuos en 

categóricos y proceden con medidas de distancia para datos categóricos. Pero 

la conversión de las variables a la misma escala implica una pérdida de 

información. 

Existe en la literatura una gran variedad de coeficientes para calcular la 

distancia con datos de tipo mixto, ver entre otros (Foss et al., 2019; Gordon, 

1999; Krzanowski, 1983; Sokal & Gordon, 1983; Van de Velden et al., 2019). 

La primera medida de distancia para calcular la distancia entre dos 

observaciones, que tengan variables continuas y categóricas medidas 

simultáneamente, fue propuesta por Gower (1971).  


3- Análisis de Clustering 

~ 73 ~ 
 

Gower (1971) definió un coeficiente general que mide la similitud entre 

dos unidades, pero no incorpora variables ordinales, lo que supone una grave 

carencia si los conjuntos de datos mixtos tienen variables de tipo ordinal.  

Podani (1999) extendió el coeficiente general de similitud de Gower a 

caracteres ordinales. La idea es considerar las diferencias de rangos para dos 

ítems dentro del mismo orden de rango, como en la correlación de rangos de 

Spearman (Martínez et al., 2009), ya que la estandarización de rangos de cada 

variable garantiza la comparabilidad con los otros tipos de variables. 

Wishart (2003) propuso una medida de distancia que era similar a la 

medida de Gower, pero con una ligera modificación, ya que utilizaba la varianza 

de la variable continua en la parte de la puntuación. 

Huang (1997a) definió una medida de distancia para datos de variables 

mixtas combinando la distancia euclídea cuadrada para las variables numéricas 

y la distancia de coincidencia simple de Sokal & Michener (1958) para las 

variables categóricas.  

Stanfill & Waltz (1986) introdujeron una medida de distancia para variables 

nominales llamada distancia de solapamiento, que es simplemente el número de 

variables que son diferentes entre dos objetos. Esta medida asigna un peso igual 


3- Análisis de Clustering 

~ 74 ~ 
 

a todas las variables, por lo que posteriormente definieron una nueva medida de 

distancia llamada Métrica de la Diferencia de Valores (VDM), que determina 

estadísticamente la distancia de dos objetos en función de la proporción del 

número de veces que sus atributos particulares están en la misma clase.  

Pero las medidas de distancia de solapamiento y la métrica de diferencia 

de valor sólo manejan variables categóricas y por lo tanto no funcionan para 

variables continuas, porque en los datos continuos hay muy pocos 

solapamientos. 

Wilson y Martínez (1997) presentaron la métrica de diferencia de valores 

heterogéneos que solucionaba los problemas ocasionados por la métrica de 

Stanfill y Waltz (1986), ampliando la medida de solapamiento con la métrica de 

solapamiento euclídea heterogénea. 

Ahmad & Dey (2007a, 2007b) modificaron la medida de distancia de 

Huang (1997b), utilizando la distancia euclídea al cuadrado entre los datos para 

las variables continuas y la distancia entre datos categóricos en función de su 

distribución global y la concurrencia con otras variables. 

Harikumar & Surya (2015) propusieron una función de distancia 

generalizada en forma de términos triples, que consiste en tres medidas de 


3- Análisis de Clustering 

~ 75 ~ 
 

distancia diferentes para tipos de datos numéricos, categóricos y binarios; la 

distancia Manhattan se utilizó para variables continuas, la distancia Hamming 

(Tokareva, 2015) para variables binarias y para las variables categóricas se 

utilizó la distancia de concurrencia definida por Ahmad & Dey (2007a). 

3.4. MÉTODOS DE CLASIFICACIÓN 

La razón principal de que existan muchos métodos de clustering es el 

hecho de que la noción de "cluster" no está definida con precisión (Estivill-Castro 

& Yang, 2004; Rokach & Maimom, 2006). 

Se han desarrollado diferentes tipos de métodos con diferentes principios 

de inducción, dependiendo de las características que tienen los individuos y de 

la distancia existente entre cada uno de estos individuos. 

La mayoría de los algoritmos de cluster se basan en dos métodos 

populares conocidos como método jerárquico y método particional: ver entre 

otros (Fraley & Raftery, 1998; Frigui & Krishnapuram, 1999; Leung et al., 2000; 

Omran et al., 2007; Saxena et al., 2017) (Figura 3.8). 


3- Análisis de Clustering 

~ 76 ~ 
 

Figura 3.8. Clasificación en dos Métodos  

Existen autores que sugieren cuatro grupos, añadiendo dos métodos 

nuevos a los anteriores, por ejemplo: Milligan & Cooper (1987) sugieren hacer la 

división en: métodos jerárquicos, métodos particionados, métodos de agrupación 

superpuesta y técnicas de ordenación.  

Por otro lado, Halkidi et al. (2001) y Han et al. (2012), entre otros, sugieren 

añadir dos métodos, aun cuando estos ya existían en la clasificación de los no 

jerárquicos, a saber: métodos particionados, métodos jerárquicos, métodos 

basados en densidad, métodos basados en cuadriculas. 

Hay autores que sugieren cinco grupos, aunque en realidad esta sería una 

subdivisión de los métodos existentes como no jerárquicos o particionados, a 

saber: métodos particionados, métodos jerárquicos, métodos basados en 


3- Análisis de Clustering 

~ 77 ~ 
 

densidad, métodos basados en cuadriculas y métodos basados en modelos. 

(Han & Kamber, 2012; Prakash et al., 2016) entre otros (Figura 3.9). 

 
 Figura 3.9. Clasificación en cinco Métodos (Prakash et al., 2016)  

3.4.1. Método Jerárquico 

Estos métodos construyen los clusters dividiendo de forma recursiva los 

elementos del conjunto de datos, de forma descendente o ascendente, para lo 

cual se requiere que el número de cluster final sea establecido a priori (Figura 

3.10). 

BIRCH K-MEANS DBSCAN STING EM

CURE K-MEDOIDS OPTICS WAVE CLUSTER COBWEB

ROCK K-MODES DBCLASD BANG CLASSIT

CHAMALEON PAM GDBSCAN CLIQUE SOM

ECHIDNA CLARA DENCLU OPTIGRID SLINK

WARDS CLARANS SUBCLU MAFIA

SNN FCM ENCLUS

CACTUS PROCLUS

GRIDCLUST ORCLUS

FCM

STIRR

JERARQUICO MODELO

Algoritmos de Clustering

PARTICIONADO DENSIDAD REJILLA


3- Análisis de Clustering 

~ 78 ~ 
 

 Clustering jerárquico aglomerativo (ascendente): Cada elemento 

representa inicialmente un cluster propio, y se fusionan sucesivamente 

hasta obtener la estructura de los clusters deseada. 

 Clustering jerárquico divisivo (descendente): Todos los elementos 

pertenecen inicialmente a un cluster, y se dividen sucesivamente hasta 

obtener la estructura de clusters deseada. 

 
Figura 3.10 Esquema Método Jerárquico (Giacoumidis et al., 2018) 

La fusión o división de los clusters se realiza en función de alguna medida 

de similitud, elegida para optimizar algún criterio (Jain et al., 1999). 


3- Análisis de Clustering 

~ 79 ~ 
 

El resultado de los métodos jerárquicos es un dendrograma, que 

representa la agrupación de los objetos y los niveles de similitud en los que 

cambian las agrupaciones.  

Se obtiene una agrupación de los objetos de datos cortando el 

dendrograma en el nivel de distancia o similitud deseado. En la Figura 3.11, se 

puede observar que al cortar el dendrograma, se formarían cinco clusters. 

 
Figura 3.11. Dendograma Agrupación de elementos (Ávila, 2021) 

 
3- Análisis de Clustering 

~ 80 ~ 
 

3.4.2. Método No Jerárquico o Particionado 

Los métodos no Jerárquicos o de partición reubican las instancias 

moviéndolas de un cluster a otro, partiendo de una partición inicial. En concreto, 

un método de reubicación reubica iterativamente los puntos entre los k cluster. 

Al igual que los métodos Jerárquicos, estos métodos necesitan saber a 

priori el número de cluster final.  

Para lograr la optimización global en la agrupación basada en particiones, 

se requiere un proceso de enumeración exhaustiva de todas las particiones 

posibles. Como esto no es factible, se utilizan ciertas técnicas heurísticas en 

forma de optimización iterativa (Figura 3.12). 

 
Figura 3.12. Clustering Particionado (Saxena et al., 2017) 


3- Análisis de Clustering 

~ 81 ~ 
 

3.4.3. Métodos basados en Densidad 

El objetivo principal de este tipo de métodos, es hacer que los puntos que 

pertenecen a cada cluster se extraigan de una distribución de probabilidad 

específica (Banfield & Raftery, 1993). 

Estos métodos están diseñados para descubrir grupos o cluster de forma 

arbitraria, haciendo que la distribución global de los datos sea una mezcla de 

varias distribuciones.  

La idea es, hacer crecer el cluster dado mientras la densidad, es decir, el 

número de elementos o puntos de datos en una región con un radio específico 

(Eps), supere algún umbral o por lo menos contenga un número mínimo de 

elementos (MinPts) (Figura 3.13).  

 
Figura 3.13 Clustering de Densidad (Rixin et al., 2015) 


3- Análisis de Clustering 

~ 82 ~ 
 

Gran parte de los trabajos en este campo se han basado en la suposición 

subyacente de que las densidades de los componentes son gaussianas 

multivariantes (datos numéricos) o multinomial (datos nominales). 

Una solución aceptable en este caso es utilizar el principio de máxima 

verosimilitud. Según este principio, se debe elegir la estructura de clustering y 

los parámetros de tal manera que la probabilidad de que los datos sean 

generados por dicha estructura y parámetros de clustering sea maximizada. 

3.4.4. Métodos basados en rejilla o cuadricula 

Este tipo de métodos dividen el espacio en un número finito de celdas que 

forman una estructura de rejilla en la que se realizan todas las operaciones de 

agrupación (Figura 3.14). 

La principal ventaja de este enfoque es su rápido tiempo de 

procesamiento, la ausencia de cálculos de distancia y la facilidad para determinar 

qué clusters son vecinos (Han et al., 2012). 

Los pasos básicos del algoritmo basado en rejilla o cuadrículas, serían: 

(1) Definir el conjunto de celdas que debe tener la cuadrícula, (2) Asignar los 

elementos a la celda de la cuadrícula correspondiente y calcular la densidad de 

cada celda, (3) Eliminar las celdas cuya densidad esté por debajo del umbral 


3- Análisis de Clustering 

~ 83 ~ 
 

fijado, (4) Formar los clusters finales a partir de grupos contiguos de celdas 

densas.  

 
Figura 3.14 Clustering en Rejilla (Cao et al., 2009) 

3.4.5. Métodos basados en Modelos 

El objetivo de este tipo de métodos, es optimizar el ajuste entre el conjunto 

de datos original y diversos modelos matemáticos.  

Al igual que el clustering convencional, los métodos de clustering basados 

en modelos también detectan detalles de características para cada cluster, 

donde cada cluster representa un concepto o clase. 

Los métodos basados en modelos más utilizados son los árboles de 

decisión y las redes neuronales. 

 
3- Análisis de Clustering 

~ 84 ~ 
 

I. Arboles de decisión: 

En los árboles de decisión, los datos se representan mediante un 

árbol jerárquico, donde cada hoja se refiere a un concepto y contiene una 

descripción probabilística de ese concepto (Quinlan, 1986) (Figura 3.15). 

Hay muchos algoritmos que producen árboles de clasificación para 

definir los datos no etiquetados, ver entre otros (Biswas et al., 1998; 

Fisher, 1987; Kolodner, 1983; Michalski & Stepp, 1983; Polumari, 2017; 

Thompson & Langley, 1991). 

 
Figura 3.15 Clustering en Arboles de Decisión (Ferrero, 2020) 

 
3- Análisis de Clustering 

~ 85 ~ 
 

II. Redes neuronales: 

En las Redes neuronales, cada cluster se representa por una 

neurona o "prototipo" (Haykin, 2009) (Figura 3.16). 

Los datos de entrada también se representan mediante neuronas 

que están conectadas a las neuronas prototipo. Cada una de estas 

conexiones tiene un peso, que se aprende de forma adaptativa durante el 

aprendizaje. 

Hay muchos algoritmos que producen clasificación con redes 

neuronales, ver entre otros (Kohonen, 1998; Patel, 2019; Vesanto & 

Alhoniemi, 2000). 

 
Figura 3.16 Clustering en Redes Neuronales (Delgado, 2018) 


3- Análisis de Clustering 

~ 86 ~ 
 

3.4.6. Métodos basados en Distancia o Similaridad 

Además de los métodos de agrupación de datos expuestos anteriormente, 

existen muchos métodos de cluster para dividir un conjunto de datos por alguna 

medida natural de similitud o distancia. 

Encontramos, entre otros, Aggarwal & Reddy (2014), Agresti (2019), 

Aldenderfer & Blashfield (1984), Bagirov et al. (2020), Bailey (1975), Bohanec & 

Rajkovic (1988), Bouveyron et al. (2019), Duda et al. (1973), Estivill-Castro & 

Yang (2004), Everitt et al. (2011), Huang et al. (2013), Hunt & Jorgensen (2011), 

Jain et al. (1999), Ji et al. (2012), Jia & Song (2020), King (2015), Kumar et al. 

(1999), Sajidha et al. (2020), Seca et al. (2020), Selosse et al. (2020), Sibson 

(1976), Upton (2017), Wierzchon & Klopotek (2018).  

3.5. ALGORITMOS DE CLUSTERS POPULARES 

Hay mucha literatura dedicada a los diferentes algoritmos de cluster 

existentes según el tipo de variables permitidas en el conjunto de datos y según 

el método de agrupación aplicado. 

 
3- Análisis de Clustering 

~ 87 ~ 
 

Se adjunta resumen de algunos de estos algoritmos (Tabla 3.3). 

  
Tabla 3.3. Tabla de Algoritmos y Metodologías de Clustering  

Metodología Algoritmo tipico Autores

Density DBSCAN Ester et al. (1996); Liu et al. (2017); 
Pietrzykowski (2017); Zhu et al. (2013)

Density FDCA Jinyin et al. (2017)

Density IDCUP Altaf et al. (2020)

Density DENCLUE Hinneburg &  Keim (1998)

Entropy COOLCAT Barbará et al. (2002)

Entropy ENCLUS Cheng et al., (1999)

Grid STING Makhabel (2015); Wang et al. (1997)

Grid GK-PROTOTYPES Jang et al. (2018)

Grid CLIQUE Agaarwal et al. (2005)

Grid WAVECLUSTER Sheikholeslami et al. (1998, 2000)

Hierarchical SINGLE-LINKAGE Sneath &  Sokal (1973)

Hierarchical COMPLETE-LINKAGE King (1967)

Hierarchical AVERAGE-LINKAGE Murtagh (1983, 1984); Ward (1963)

Hierarchical BIRCH Chiu et al. (2001); Zhang et al. (1996, 1997)

Hierarchical CURE Guha et al. (2000)

Hierarchical DIANA, AGNES, MONA Kaufman & Rousseeuw (1990)

Hierarchical ROCK Guha et al. (2001)

Hierarchical SBAC Li & Biswas (2002)

Mixed ACC-FSFDP Chen & He (2016)

Mixed CCS-K-Prototypes Ji et al. (2020)

Mixed CLICOT Behzadi et al. (2020)

Mixed K-MEAN Ahmad & Dey (2007a)

Mixed KL-FCM-GM Chatzis (2011)

Mixed K-PROTOTYPES Huang (1997b, 1998); Ji et al. (2013); Kim (2017); 
 Khan & Ahmad (2015); Szepannek (2018)

Mixed INITKMIX Ahmad & Khan (2021)

Mixed K-HARMONIC Ahmad & Hashmi (2016)

Model-based CLUSTMD McParland & Gormley (2015)

Model-based COBWEB Fisher (1987)

Model-based KAMILA Foss et al. (2016); Foss & Markatou (2018)

Partitioning K-MEANS McQueen (1967); Forgy (1965)

Partitioning TCLUST Fritz et al. (2012)

Partitioning FUZZY C-MEANS Bezdek (1981, 2011);  Hamerly & Elkan (2002)

Partitioning K-HARMONIC MEANS Zhang et al. (1999, 2001)

Partitioning K-MODES Dorman & Maitra (2020); Huang (1997b, 1998); 
Khan & Ahmad (2012, 2013)

Partitioning PAM, CLARA, CLARANS, FANNY Kaufman & Rousseeuw (1990)


3- Análisis de Clustering 

~ 88 ~ 
 

A pesar de la existencia de una gran diversidad de métodos, se siguen 

utilizando en el análisis de cluster algunos métodos con más frecuencia que 

otros. 

K-Means (Forgy, 1965; McQueen, 1967) sólo funciona con datos 

numéricos. Este algoritmo representa cada cluster por su centro de gravedad, su 

valor medio, y asigna los elementos a los clusters más cercanos utilizando la 

distancia euclídea. Una vez que ha asignado todos los elementos del conjunto 

de datos a un cluster, el algoritmo vuelve a calcular todos los centros de 

gravedad y vuelve a repetir el proceso hasta que no exista ningún cambio sobre 

ningún cluster formado. 

También cabe mencionar K-Means++ (Arthur & Vassilvitskii, 2007), 

importante variación de K-Means, que mejora el tiempo de ejecución del 

algoritmo de Lloyd (Lloyd, 1982) y la calidad de la solución final. Además, se 

implementa en la mayoría de los paquetes numéricos, por ejemplo: scikit-learn o 

Matlab. 

K-Modes (Huang, 1997b; 1998), funciona para datos categóricos, y puede 

ser considerado como una adaptación de K-Means, ya que ambos se inspiran 

en ideas similares. K-Modes funciona de manera similar a K-Means, 

considerando las modas de los grupos en lugar de sus medias, y usando 


3- Análisis de Clustering 

~ 89 ~ 
 

disimilitudes en lugar de distancias numéricas, pero el proceso de construcción 

de cluster es el mismo que en K-Means.  

Para calcular la disimilitud entre dos elementos X e Y descritos por “r” 

atributos categóricos, la función de distancia en K-Modes toma el valor 0 cuando 

los atributos de dos elementos son iguales (𝑋𝑋𝑟𝑟 = 𝑌𝑌𝑟𝑟) y toma el valor 1 cuando 

son distintos (𝑋𝑋𝑟𝑟 ≠ 𝑌𝑌𝑟𝑟), dando la misma importancia a cada categoría de cada 

atributo. 

El libro “Finding Groups in Data” (Kaufman & Rousseeuw, 1990), describe 

varias técnicas para el análisis de cluster, entre ellas figuran DAISY y PAM 

(Partitioning Around Medoids), las cuales fueron originariamente implementadas 

en lenguaje Fortran.  

La principal función del algoritmo DAISY es calcular los coeficientes de 

disimilitud entre atributos y su capacidad para manejar variables nominales, 

ordinales, binarias y de escala, incluso si hay diferentes tipos de variables en el 

mismo conjunto de datos, la matriz de disimilaridad obtenida por este algoritmo 

se utiliza como entrada en el algoritmo PAM. 

El algoritmo PAM, se basa en la búsqueda de k objetos representativos, 

llamados medoides, entre los elementos del conjunto de datos. Estos medoides 


3- Análisis de Clustering 

~ 90 ~ 
 

se calculan de forma que la disimilitud total de todos los elementos con su 

medoide más cercano sea mínima, es decir, el objetivo es encontrar un 

subconjunto {𝑚𝑚1,𝑚𝑚2𝑚𝑚3, … . . ,𝑚𝑚𝑘𝑘} ⊂ {1,2, … …𝑛𝑛} que minimice la función objetivo 

(Ecuación 3.10). 

∑ mint=1,2,…k d(i,mt)n
i=1     (3.10) 

El método PAM puede compararse con el conocido método K-Means 

(MacQueen, 1967), donde el centro de cada cluster se define como el promedio 

de todos los objetos dentro del cluster, minimizando la suma de distancias 

euclídeas al cuadrado, en este sentido, el algoritmo PAM es más robusto, porque 

minimiza una suma de disimilitudes no cuadradas. 

Tclust (Fritz et al., 2012), presenta un algoritmo para realizar clustering 

robusto no jerárquico, que funciona para datos de tipo mixto y de tipo categórico. 

En lugar de intentar "ajustar" los datos ruidosos, como ocurre con otros 

algoritmos, recorta una proporción de las observaciones más alejadas, de forma 

que pueda manejar de forma eficaz diferentes restricciones de dispersión de los 

clusters. 

K-Prototypes (Huang, 1997a; 1998) funciona para datos mixtos, y 

combina las medias de los atributos numéricos y las modas de los atributos 


3- Análisis de Clustering 

~ 91 ~ 
 

categóricos para conseguir el Coeficiente de Disimilaridad de K-Prototypes, 

introduciendo un parámetro nuevo "γ" para el control de la influencia producida 

por las “p” características o atributos categóricos y por las “r - p” características 

o atributos numéricos (Ecuación 3.11). 

d(P,Q)=γ∑ δ�Pp,Qp�
p
k=1 +∑ �(Pk - Qk)2r

k=p+1                  (3.11) 

El algoritmo K-Prototypes utiliza el Coeficiente de Disimilaridad (Ecuación 

3.11.) dividido en dos partes separadas, una para el cálculo de la parte 

categórica y otra parte para el cálculo de la parte numérica. La parte categórica 

adopta la distancia de Hamming y la parte numérica adopta el cuadrado de la 

distancia euclídea (Huang, 1998). El ajuste de las dos partes, numérica y 

categórica, viene dado por el parámetro "γ", analizado ampliamente en Huang 

(1997a). 

Huang y Ng (1999) introducen el algoritmo Fuzzy K-Modes, basándose en 

el algoritmo Fuzzy k-Means (Bezdek, 1981), mediante un nuevo procedimiento 

para generar la matriz difusa a partir de datos categóricos, mediante la medida 

de disimilaridad simple para datos categóricos. 

Ji et al. (2012; 2013) proponen una mejora del algoritmo K-Prototypes con 

el concepto de centroide de distribución, que representa el “prototype” de los 


3- Análisis de Clustering 

~ 92 ~ 
 

atributos categóricos en el cluster, e introducen una nueva medida de disimilitud 

que tiene en cuenta el significado de cada atributo. 

Chatzis (2011) presenta una extensión del algoritmo Gath-Geva para 

permitir el manejo de datos con atributos numéricos y categóricos empleando 

una disimilitud probabilística funcional para manejar datos con atributos de tipo 

mixto.  

Foss et al. (2016) propusieron el algoritmo KAMILA (KAy-means for MIxed 

LArge data sets), que combina las características de dos algoritmos, el algoritmo 

K-Means (Forgy 1965; Lloyd 1982) y el modelo mixto Multinomial-Gaussiano 

(Hunt & Jorgensen 2011), introduciendo un estimador de densidad calculado a 

partir de los datos para equilibrar la contribución de las variables continuas y 

categóricas. 

En la presente Tesis Doctoral se propone un nuevo algoritmo de 

agrupamiento y clasificación, FairMclus (Santos & Heras, 2020; 2021), para 

datos categóricos puros y datos mixtos, que ofrece estabilidad en el 

agrupamiento de los grupos finales, debido a la selección de los centroides 

iniciales de dichos grupos y además proporciona una mayor eficiencia de 

agrupamiento final. 


3- Análisis de Clustering 

~ 93 ~ 
 

 La agrupación de datos categóricos se realizará según la propia 

característica de cada atributo para no perder así la identidad y diferencia de los 

atributos entre sí. Para los datos numéricos se agrupará cada atributo por 

separado e independientemente, para que no se vea afectada la ubicación de 

cada elemento del conjunto de datos en su grupo por el resto de atributos 

numéricos si se agrupasen de forma conjunta. 

  
3- Análisis de Clustering 

~ 94 ~ 
 

4 – Metodología del Algoritmo Propuesto  

~ 95 ~ 
 

4 

METODOLOGÍA 

DEL 

ALGORITMO PROPUESTO 

 
4 – METODOLOGÍA DEL ALGORITMO PROPUESTO 

 
4 – Metodología del Algoritmo Propuesto  

~ 96 ~ 
 

4 – Metodología del Algoritmo Propuesto  

~ 97 ~ 
 

4.1. INTRODUCCIÓN 

En este Capítulo se explican las ideas principales de la metodología y su 

implementación mediante el algoritmo propuesto, para conseguir conjuntos 

finales eficientes y equitativos según el atributo sensible o protegido elegido del 

conjunto de datos inicial. 

Nuestra filosofía se basa en mantener las distintas particiones, obtenidas 

según los diferentes atributos, lo más separadas posible y no agregando todos 

los atributos al principio de la clasificación, como se hace actualmente.  

Se estudia el comportamiento de agrupación de cada atributo de forma 

independiente a cualquier otro atributo y se evita por tanto la inferencia directa, 

indirecta o subjetiva de unos atributos sobre otros. 

Suponemos la existencia de un atributo sensible o protegido en el conjunto 

de datos y también de las proporciones deseadas entre sus valores. Por ejemplo, 

el atributo protegido podría ser Género, con dos posibles valores categóricos, 

masculino y femenino, y la proporción deseada entre ellos podría ser la 

observada de ambos géneros en el conjunto de datos.  

El objetivo del algoritmo es dividir la base de datos total en un conjunto de 

grupos homogéneos y justos: homogéneos porque cada uno de ellos debe 


4 – Metodología del Algoritmo Propuesto  

~ 98 ~ 
 

contener solo observaciones similares; y justo, porque las proporciones de los 

valores de los atributos protegidos deben estar cerca de las proporciones 

deseadas. 

En la búsqueda de la estabilidad, eficiencia y equidad en la agrupación de 

conjuntos, nos encontramos con varios aspectos a tener en cuenta, y que todos 

ellos van unidos en el objetivo de conseguir conjuntos lo más homogéneos y 

equitativos posible, para no producir ningún tipo de sesgo sobre cualquier 

atributo sensible incluido en el conjunto de datos original. 

El primer aspecto que nos encontramos en la formación de grupos es 

conseguir Estabilidad en la solución final de los grupos y de los elementos que 

conforman cada uno de los grupos finales. 

La búsqueda de los centroides iniciales sobre los cuales se van a formar 

los conjuntos finales es fundamental. Se trata de eliminar la aleatoriedad en la 

búsqueda de dichos centros y, por consiguiente, que la formación de los grupos 

finales siempre contenga a los mismos elementos. 

Como segundo aspecto tenemos el alcanzar la mayor Eficiencia o 

precisión en la formación de los conjuntos finales, y asegurar que el resultado 


4 – Metodología del Algoritmo Propuesto  

~ 99 ~ 
 

final obtenido guarde tanto los principios de similitud de los elementos dentro de 

sus grupos como la disimilitud entre distintos grupos. 

Aunque la clasificación en cluster es un método no supervisado, para 

comprobar la eficiencia en el ajuste de los grupos finales, usaremos las Bases 

de Datos utilizadas para este tipo de investigaciones y que poseen un atributo 

con la solución del cluster final. Dicho atributo se eliminará en todos los procesos 

de la investigación y únicamente se utilizará para comprobar el grado de 

eficiencia obtenida al final del proceso.  

Como tercer aspecto tenemos la Equidad sobre el atributo sensible o 

protegido en el resultado final, asegurando que no se produzca ningún tipo de 

sesgo o discriminación sobre el atributo protegido (género, raza, estado civil, 

edad, religión, etc.) en el resultado final de los grupos, evitando la manipulación 

manual en la agrupación final. 

4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES 

4.2.1. Respecto del Agrupamiento 

Un tema clave para el desempeño en la agrupación de clusters es la 

selección de las semillas o centroides iniciales. Para superar este problema, se 


4 – Metodología del Algoritmo Propuesto  

~ 100 ~ 
 

han sugerido algunas soluciones en la literatura sobre diferentes algoritmos de 

agrupamiento.  

K-Means (Forgy, 1965; McQueen, 1967), K-Modes (Huang, 1997a, 1998) 

y K-Prototypes (Huang, 1997b) son tres de los algoritmos más populares para 

agrupar datos numéricos, categóricos y mixtos, respectivamente. 

Todos estos métodos se basan en la misma metodología: 

a. Seleccionan “K” centroides iniciales de forma aleatoria. 

b. Asignan cada observación de la base de datos al punto 

representativo más cercano.  

c. Aplican distintas técnicas de distancia y agrupación al tratarse de 

diferentes tipos de datos. 

d. Recalculan repetidamente los centroides a lo largo del proceso, 

hasta que no existan más cambios sobre ningún cluster. 

Por lo general, esto se hace mediante algún procedimiento aleatorio, pero 

esta selección aleatoria de las semillas o centroides iniciales, a menudo conduce 

a agregaciones de conglomerados finales muy diferentes.  

El algoritmo se vuelve inestable, porque al realizar varias ejecuciones 

aleatorias sobre el mismo conjunto de datos suelen dar diferentes grupos finales, 


4 – Metodología del Algoritmo Propuesto  

~ 101 ~ 
 

tal y como se reconoce en Ahmad & Hashmi (2016), Ahmad & Khan (2019), 

Huang (1998), Huang et al. (2005), Khan & Ahmad (2004), Li (2011), entre otros. 

El rendimiento del algoritmo K-Modes se ha mejorado utilizando la técnica 

de búsqueda tabú (Ng & Wong, 2002) y algoritmos genéticos (Gan et al., 2005). 

Se han aplicado técnicas de detección de valores atípicos a la 

inicialización de K-Modes (Jiang et al., 2016; Knor & Ng, 1998), basándose en la 

idea de que los valores atípicos no deben seleccionarse como centros iniciales 

de los conglomerados.  

Kondo et al. (2016) introducen el método robusto y disperso de K-Means 

(RSKC) que refuerza el método disperso de Witten & Tibshirani (2010) 

incorporando un concepto de recorte, pero se vuelve más problemático cuando 

hay valores atípicos en la distribución. 

Brodinova et al. (2019) introducen un procedimiento basado en Sparse K-

Means, capaz de encontrar la estructura subyacente en datos con valores 

atípicos y variables de ruido simultáneamente. Incorporan una función de 

ponderación que emplea una medida de los valores atípicos para asignar 

automáticamente un peso a cada observación. 


4 – Metodología del Algoritmo Propuesto  

~ 102 ~ 
 

DeSarbo et al. (1984) introdujeron el primer método de ponderación sobre 

K-Means con el algoritmo SYNCLUS, el cual utiliza primero el algoritmo K-Means 

para dividir los datos iniciales en “K” cluster, optimiza una función de coste 

cuadrática del conjunto de datos inicial y realiza una estimación de pesos 

óptimos, pero no es posible su uso sobre grandes volúmenes de datos al requerir 

mucho tiempo de cálculo. 

De Soete (1986) propuso un método para encontrar pesos en las variables 

y resolver su problema de ponderación, para lo cual se realiza un ajuste ultra 

métrico y aditivo en los métodos de agrupación de tipo jerárquico únicamente. 

Makarenkow & Legendre (2001) extendió el método de Soete a la 

ponderación optima de variables de K-Means, asignando a cada variable un peso 

relativo al cálculo de la distancia entre dos objetos, y de esta forma encontrar los 

pesos óptimos. 

Foss et al. (2016) propusieron el algoritmo KAMILA (KAy-means for MIxed 

LArge data sets), que combina las características de dos algoritmos. El algoritmo 

K-Means para datos numéricos y el modelo mixto Multinomial-Gaussiano (Hunt 

& Jorgensen 2011) para datos categóricos. Introducen un estimador de densidad 

calculado a partir de los datos, de forma que se equilibre la contribución de las 

variables continuas y categóricas. 


4 – Metodología del Algoritmo Propuesto  

~ 103 ~ 
 

La condensación de datos multiescala basada en la densidad, también se 

ha utilizado junto con la distancia de Hamming para extraer los centros de cluster 

iniciales de los conjuntos de datos; véase entre otros: Khan & Ahmad (2013, 

2015), y Mitra et al. (2002).  

Cao et al. (2009) calculan la densidad de cada grupo de datos y proponen 

como grupos iniciales aquellos con densidades medias máximas. 

Wu et al. (2007) desarrollan un método basado en la densidad para 

calcular los centros iniciales y así reducir la complejidad algorítmica. Sin 

embargo, existe cierta aleatoriedad en los resultados finales y es posible 

conseguir nuevamente los mismos resultados.  

Bai et al. (2012) proponen un método para calcular los centros de 

conglomerados iniciales basado en una función de densidad y una función de 

distancia. 

Dinh & Huynh (2020) proponen un algoritmo llamado k-Pbc, para mejorar 

la inicialización del centro de conglomerados para el agrupamiento de datos 

categóricos. 

Khan & Ahmad (2013) proponen una metodología de selección de 

centros, mediante tres métodos distintos según la importancia de los atributos: 


4 – Metodología del Algoritmo Propuesto  

~ 104 ~ 
 

a. El primer método, llamado enfoque de vainilla, se consideran 

significativos a todos los atributos. 

b. El segundo método, llamado de atributo prominente, donde un atributo 

es significativo si el número de valores únicos de los atributos es menor 

o igual que el número requerido de conglomerados (Khan & Ahmad, 

2012).  

c. El tercer método, consiste en identificar los atributos más significativos 

midiendo la coexistencia de sus valores con los valores de los demás 

atributos (Ahmad & Dey, 2007a, 2007b).  

Finalmente, el algoritmo de selección para los centros iniciales se aplica 

a los atributos obtenidos mediante los tres métodos, y posteriormente ejecuta el 

algoritmo K-Modes (Sajidha et al., 2020) para el agrupamiento final. 

El rendimiento del algoritmo K- Prototypes se ha mejorado evitando los 

cálculos de la distancia de las observaciones y sus centros de cluster, mediante 

el cálculo de la distancia parcial (Kim, 2017) o mediante agrupamiento de 

densidad rápido basado en un escaneo único con centros de grupo determinados 

automáticamente (Jinyin et al., 2017).  

Sajidha et al. (2020) han aplicado técnicas para introducir una nueva 

medida de distancia única, en donde la distancia de los atributos numéricos se 


4 – Metodología del Algoritmo Propuesto  

~ 105 ~ 
 

escala de manera que puedan ser comparables a los atributos categóricos, 

asegurando la selección de los centros iniciales para que las pueda tratar el 

algoritmo K-Means. 

Jia & Song (2020) desarrollan un método que mejora la selección inicial 

de los centros de cluster con un nuevo método para calcular el coeficiente de 

disimilitud híbrida entre los objetos y los centros de cluster.  

Liu et al. (2017) propone un algoritmo de agrupación de flujo de datos 

rápido basado en densidad con centros de agrupación determinados, basado en 

el gráfico de distribución de intensidad-distancia de campo para cada objeto de 

datos, el modelo de regresión lineal y el análisis de residuos.  

En general, estos métodos son difíciles de implementar, algunos de ellos 

no eliminan por completo la aleatoriedad, otros cambian el significado de las 

características que contienen los atributos para ser tratados como datos 

numéricos, y en otros es necesario dividir el conjunto de datos en varias partes, 

según sean los datos numéricos o categóricos e incluso dentro de estos, aquellos 

que son de tipo binario con los que son de tipo nominal, incrementando y 

complicando significativamente la preparación de los Datos. 


4 – Metodología del Algoritmo Propuesto  

~ 106 ~ 
 

En la presente Tesis Doctoral, se propone una nueva metodología con un 

algoritmo de agrupamiento para datos categóricos puros y datos mixtos, 

superando los problemas de inestabilidad que se han descrito anteriormente por 

otros algoritmos populares y por consiguiente teniendo Estabilidad en las 

agrupaciones finales de los grupos y sus elementos, y por otro lado 

proporcionando una mayor Eficiencia en el agrupamiento final (Santos & Heras, 

2020; 2021). 

4.2.2. Respecto de la Equidad 

Además de la eficiencia en la clasificación y la estabilidad de los 

resultados, un nuevo problema ha recibido mucha atención en los últimos años. 

La necesidad de prevenir los sesgos de clasificación debido a la raza, el 

género, el estatus socioeconómico, religión, etc., ha aumentado el interés en 

diseñar algoritmos de agrupamiento justos.  

La idea principal es garantizar que la salida del algoritmo no esté sesgada 

a favor o en contra de subgrupos específicos de la población. 

Para superar este problema, se han sugerido algunas soluciones en la 

literatura. Por ejemplo, Zemel et al. (2013) realizan una formulación de la equidad 

como un problema de optimización para conseguir una buena representación de 


4 – Metodología del Algoritmo Propuesto  

~ 107 ~ 
 

los datos con dos objetivos contrapuestos: codificar los datos lo mejor posible y, 

al mismo tiempo, ocultar cualquier información sobre la pertenencia al grupo 

protegido. 

Chierichetti et al. (2017) realizan un enfoque similar al de Zemel et al. 

(2013), pero formulando el primer paso como un problema combinatorio 

explícito, y mostrando garantías de aproximación, que se traducen en una mejor 

aproximación sobre la solución óptima.  

Chen et al. (2019) definen una noción de agrupación proporcionalmente 

justa en la que todos los grupos posibles de tamaño razonablemente grande 

tienen derecho a elegir un centro por sí mismos. 

Kleindessner et al. (2019) estudian el problema de hacer cumplir una 

representación justa en los puntos de datos elegidos como centros de grupos. 

Abraham et al. (2020) proponen un método de agrupamiento justo FairKM, 

inspirado en la popular formulación de agrupamiento de K-Means. 

Esmaeili et al. (2020) asumen un conocimiento imperfecto de la 

pertenencia al cluster a través de asignaciones probabilísticas.   


4 – Metodología del Algoritmo Propuesto  

~ 108 ~ 
 

Ziko et al. (2019) proponen un marco variacional general de agrupamiento 

justo, integrando un término de equidad de Kullback-Leibler (Kullback & Leibler, 

1951; Sankaran et al., 2016). 

Backurs et al. (2019) estudiaron una variante sobre el agrupamiento de K-

Mediana introducido por Chierichetti et al. (2017), en donde los puntos están 

coloreados de diferentes colores y cuyo objetivo es minimizar la distancia media 

intentando garantizar que todos los clusters tengan igual número de puntos de 

cada color y que el tiempo de ejecución sea casi lineal.  

Calders & Verwer (2010) realizaron una modificación al clasificador Naive-

Bayes para realizar una clasificación restringida a la independencia con respecto 

a un atributo sensible o protegido.  

Ghadiri et al. (2020) proponen el algoritmo Fair-Lloyd que está basado en 

una modificación del algoritmo k-Means con la heurística de Lloyd.   

Schmidt et al. (2018) proponen una variante del algoritmo de Lloyd que 

calcula agrupaciones justas, pero extendiéndolo a un algoritmo de agrupación 

de medias justa.  

La presente Tesis Doctoral, propone una nueva metodología para agrupar 

datos categóricos y datos mixtos (nominal, de intervalo, ordinal, binario), basado 


4 – Metodología del Algoritmo Propuesto  

~ 109 ~ 
 

en el método propuesto por Santos & Heras (2020, 2021) sobre datos 

categóricos, obteniendo agrupaciones Estables, Eficientes y Equitativas 

respecto a los atributos sensibles o protegidos que tenga la Base de Datos, 

como: género, sexo, raza, estado civil, religión, u otros.  

Por supuesto, existe un equilibrio entre la equidad y la eficiencia, por lo 

que, si queremos aumentar la equidad, tenemos que renunciar a cierta eficiencia 

de clasificación. Sin embargo, es posible alcanzar un compromiso razonable 

entre estos objetivos (Santos & Heras, 2020; 2021). 

4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO 

La metodología del algoritmo propuesto consiste en tres fases 

perfectamente diferenciadas y a la vez totalmente conexas, puesto que los 

resultados obtenidos en cada fase sirven de entrada en la siguiente fase, de 

manera que la comprensión y seguimiento del algoritmo sea fácil y lo más 

transparente posible. 

La primera fase marca la pauta para conseguir la Estabilidad en el 

agrupamiento final y por tanto la búsqueda de los mejores centroides para la 

agrupación final.  


4 – Metodología del Algoritmo Propuesto  

~ 110 ~ 
 

Se comienza por calcular todas las posibles combinaciones no vacías que 

forman los clusters de los valores de cada atributo de la Base de Datos, formando 

lo que llamaremos en adelante Multicluster, los cuales nos servirán como 

centroides iniciales para realizar el posterior agrupamiento y a su vez como 

número máximo de cluster en el que se puede agrupar el conjunto de datos 

inicial. 

En la segunda fase se consigue la Eficiencia del agrupamiento, partiendo 

de la matriz Multicluster obtenida en la Fase anterior de Estabilidad, se construye 

la matriz de coincidencias entre cada par de Multicluster. 

Aquellos Multiclusters que muestren un gran número de coincidencias 

entre sus atributos eventualmente se vincularán, dando lugar a Multiclusters o 

grupos de mayor tamaño, que comparten muchos de sus atributos, aunque no 

necesariamente todos ellos, y que formarán los Multiclusters Óptimos para 

nuestro agrupamiento final. 

Finalmente, en la tercera fase de Equidad, se crean los conjuntos 

equitativos en base al atributo sensible o protegido, tomando los Multiclusters 

Óptimos obtenidos en la fase anterior y agrupando cada uno de ellos con el resto. 


4 – Metodología del Algoritmo Propuesto  

~ 111 ~ 
 

Formaremos los Multiclusters Óptimos y Equitativos, en función de la 

distancia mínima obtenida, a partir del ratio observado de cada Multicluster 

Óptimo y Equitativo formado y el ratio deseado que contiene la Base de Datos, 

finalizando el proceso cuando se alcanza el número deseado de grupos finales. 

4.3.1. Estabilidad (Fase 1) 

Esta fase comienza con la lectura de todo el conjunto de datos, se realiza 

la identificación y la composición de los clusters de cada atributo de forma 

individual y dependiendo únicamente de los diferentes valores que contenga 

cada atributo, bien sean estos de tipo categórico o de tipo numérico. 

Si un determinado atributo sólo tiene dos valores A y B, éstos son también 

los clusters asociados a dicho atributo, de esta manera conseguimos que cada 

atributo no se vea influenciado o sesgado por la incidencia de otros atributos del 

conjunto de datos, y que puedan tener cierta asociación. Por ejemplo, un atributo 

que identifique el área o zona geográfica de una ciudad con el atributo que 

identifique el tipo de raza o etnia que allí pueda vivir.  

Combinando los números de cluster de cada atributo por cada 

observación del conjunto de datos, obtenemos el conjunto inicial de 

combinaciones o conjunto de múltiples clusters, al cual llamaremos Multicluster. 


4 – Metodología del Algoritmo Propuesto  

~ 112 ~ 
 

Si sólo hay dos atributos con valores A, B y C, D, E, respectivamente, 

tendremos entonces seis Multiclusters, a saber: AC, AD, AE, como combinación 

del valor A con cada uno de los valores del segundo atributo, y por otro lado BC, 

BD y BE, que son las combinaciones entre el valor B y el resto de valores del 

segundo atributo. 

Obsérvese que todos los elementos pertenecientes a un determinado 

Multicluster presentan una coincidencia total de los valores de sus atributos.  

Al conjunto inicial resultante, la llamaremos, Matriz de 

Multicluster_Máximo, en adelante MM, el cual nos da el número máximo de 

clusters, aunque pueda ser grande, en todas las pruebas realizadas sobre 

diferentes Bases de Datos, muchos de ellos suelen estar vacíos, por lo que el 

número de MM no vacíos es mucho más reducido.  

Esta fase nos ofrece la ventaja de que la agrupación de estos máximos, 

la matriz MM, siempre será la misma independientemente del número de 

repeticiones sobre el mismo conjunto de datos, ya que está basada en el número 

de clusters que tiene cada atributo de cada observación, fijando los centroides 

iniciales para poder agrupar todos los elementos posteriormente, y evita 

cualquier incidencia de los atributos sobre el atributo protegido (Figura 4.1). 


4 – Metodología del Algoritmo Propuesto  

~ 113 ~ 
 

Figura 4.1: Fase 1 de Estabilidad Algoritmo propuesto 


4 – Metodología del Algoritmo Propuesto  

~ 114 ~ 
 

4.3.2. Eficiencia (Fase 2) 

Con la Matriz MM obtenida en la Fase 1, formamos la Matriz de 

Coincidencias (r x r), representando “r” el número máximo de Multiclusters 

obtenidos. Para cada par de Multiclusters (fila y columna), calculamos el número 

de coincidencias entre sus atributos.  

Por ejemplo, el número de coincidencias entre AC y AD es uno (A), y el 

número de coincidencias entre AC y BD es cero, dicha información se mostrará 

y conformará la matriz de Coincidencias. 

En este procedimiento no se vuelve a considerar ninguna fila que ya haya 

sido considerada anteriormente, y por esta razón sólo necesitamos trabajar con 

el triángulo superior de la matriz. Es decir, no es necesario tener en cuenta el 

término de la fila "i" y la columna "j" cuando i > j, porque este término ya ha sido 

considerado antes, en la fila "j" y la columna "i". O, en otros términos, si ya hemos 

comparado el cluster "A" y el cluster "B", no es necesario seguir comparando el 

cluster "B" y el cluster "A". 

En Santos & Heras (2020) se muestra que este procedimiento suele 

conducir a conjuntos óptimos de clusters. Además, tomar en consideración todos 


4 – Metodología del Algoritmo Propuesto  

~ 115 ~ 
 

los elementos de la Matriz de Coincidencia podría conducir a bucles 

computacionales, y a un proceso sin término. 

Por lo tanto y teniendo en cuenta que la matriz de Coincidencias es 

simétrica y solo se trabaja con la matriz superior, de cada fila de la matriz de 

Coincidencias, seleccionamos la columna que contenga el número más grande 

de coincidencias con su fila correspondiente y se fusionan los datos del 

Multicluster Emisor (fila) con los datos del Multicluster Receptor (columna).  

Los elementos pertenecientes al nuevo Multicluster tienen un mayor 

número de elementos y comparten muchos atributos (pero no necesariamente 

todos).  

En el caso de que existan dos o más Multiclusters Receptores (columna) 

con el mismo número máximo de coincidencias, procedemos a realizar el 

desempate entre ellas mediante el coeficiente Kappa de Fleiss (Fleiss et al., 

1969, 2003; Fleiss, 1971), medida ampliamente utilizada del grado de similitud 

entre objetos, seleccionando aquella combinación que tenga un menor 

coeficiente. 


4 – Metodología del Algoritmo Propuesto  

~ 116 ~ 
 

Con los Multiclusters Receptores finales obtenidos, se construye la Matriz 

de Multiclusters_Óptimos, en adelante MO, siendo este conjunto de grupos 

óptimos los que ofrecen una mayor precisión en el agrupamiento (Figura 4.2). 

 
Figura 4.2: Fase 2 de Eficiencia Algoritmo propuesto 


4 – Metodología del Algoritmo Propuesto  

~ 117 ~ 
 

4.3.3. Equidad (Fase 3) 

Con la Matriz MO, obtenida en la Fase 2, se crea una matriz (t x t), donde 

“t” es el número máximo de Óptimos obtenido, clasificada en orden creciente 

según el número de elementos de cada grupo. 

 Se toma el primer Multicluster Emisor (fila) y se fusionan sus elementos 

con cada uno de los Multiclusters Receptores (columna) de la matriz. Se calcula 

el ratio observado existente dentro de cada nuevo grupo fusionado, y se calcula 

la distancia euclídea entre dicho ratio observado y el ratio deseado, que es aquel 

que contiene la Base de Datos inicial sobre el atributo protegido fijado. 

Seleccionamos la distancia menor entre ambos ratios, obteniendo el 

Multicluster Receptor Óptimo, se fusionan definitivamente los elementos del 

Multicluster Emisor con los elementos del Multicluster Receptor Óptimo. 

Una vez agrupados los elementos del Emisor dentro del cluster del 

Receptor Óptimo, se elimina el Multicluster Emisor de la Matriz MO, es decir la 

primera fila de la matriz MO, y se recalcula nuevamente la matriz en orden 

ascendente del número de elementos que contiene cada los Óptimos de la matriz 

MO, obteniendo una matriz idéntica, pero con una fila menos. 


4 – Metodología del Algoritmo Propuesto  

~ 118 ~ 
 

 Se ejecuta nuevamente el paso anterior con el primer Multicluster Emisor 

(fila) de la matriz MO, hasta alcanzar el número deseado de clusters “K”, los 

cuales contendrán a todos los elementos de la Base de Datos con un alto grado 

de homogeneidad y equidad en cada uno de ellos (Figura 4.3). 

 
Figura 4.3: Fase 3 de Equidad Algoritmo propuesto 


4 – Metodología del Algoritmo Propuesto  

~ 119 ~ 
 

4.4. PROCESO DEL ALGORITMO PROPUESTO 

El siguiente ejemplo ilustra el proceso de ejecución de la metodología del 

algoritmo propuesto, utilizando para ello un conjunto de datos de Seguros de 

automóviles “Cars Insurance”, obtenido de Macquarie Australia University Data 

Repository (Department of Applied Finance and Actuarial Studies 

(http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finan

ce_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets). 

Para una mejor exposición del funcionamiento del algoritmo propuesto, 

del total de pólizas que contiene la Base de Datos, se ha tomado una muestra 

aleatoria de 20 observaciones, que contengan en el campo Exposición 

(Exposure) de la póliza un valor igual o superior a 0.95, puesto que este campo 

toma valores entre 0 y 1, ambos inclusive. La Base de Datos tiene 6 atributos 

categóricos y 3 atributos numéricos (ver Tabla 4.1). 

El significado de las columnas es el siguiente: 

a. Observation: representa el número de observación o identificación única 

que tiene cada registro de la Base de Datos. 

b. Veh_Value: atributo numérico, es el valor del vehículo, representado en 

10.000 $. 

http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets
http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets


4 – Metodología del Algoritmo Propuesto  

~ 120 ~ 
 

c. Exposure: atributo numérico, representa el número de años que tiene la 

póliza, estando sus valores entre 0 y 1. 

d. Numclaims: atributo numérico discreto, representa el número de 

siniestros que ha tenido el vehículo, al tener pocos valores también se 

puede considerar como atributo categórico. 

e. Claimcst0: atributo numérico, representa el importe total de los siniestros 

por póliza, siendo 0 si no hay siniestros. 

f. Veh_body: atributo categórico, representa la división en 12 tipos de 

vehículo diferentes, siendo sus valores:  

 CONVT = descapotable 

 COUPE = vehículo con dos puertas 

 HBACK = portón trasero 

 HDTOP = techo duro 

 MCARA = caravana motorizada 

 MIBUS = minibús 

 PANVN = furgoneta 

 RDSTR = roadster 

 SEDAN = vehículo con maletero separado del habitáculo 

 STNWG = camioneta 

 TRUCK = camión 

 UTE – utilitario 


4 – Metodología del Algoritmo Propuesto  

~ 121 ~ 
 

g. Veh_age: atributo categórico, que representa la edad del vehículo, siendo 

sus valores: 1 (el más joven), 2, 3, 4. 

h. Gender: atributo categórico y protegido, que representa el género o sexo 

del conductor del vehículo, siendo sus valores: (M: Male/hombre) y (F: 

Female/Mujer). 

i. Área: atributo categórico, que representa la zona de residencia del 

conductor del vehículo, siendo sus valores: A, B, C, D, E, F. 

j. Agecat: atributo categórico, que representa la edad del conductor, siendo 

sus valores: 1 (el más joven), 2, 3, 4, 5. 

 
Tabla 4.1: Matriz de datos del conjunto inicial 

 
Observacion veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat

48112 1,000 0,9993 0 0,00 SEDAN 4 M C 2
12898 1,090 0,9993 0 0,00 TRUCK 4 F B 4
43094 0,390 0,9993 0 0,00 STNWG 4 F C 5
54857 1,660 0,9829 0 0,00 HBACK 2 M A 2
40398 2,560 0,9884 0 0,00 SEDAN 1 M D 5
9413 0,370 0,9993 0 0,00 HBACK 4 F A 4
51946 1,480 0,9856 1 480,00 HBACK 1 F D 3
6506 4,000 0,9993 1 390,00 STNWG 3 F F 4
41937 1,684 0,9993 0 0,00 HBACK 1 F A 2
51891 1,210 0,9802 0 0,00 HBACK 2 M E 5
27351 4,000 0,9993 0 0,00 STNWG 3 M F 3
45716 0,580 0,9993 0 0,00 SEDAN 4 M C 4
39410 2,760 0,9774 0 0,00 STNWG 1 F F 3
16236 1,560 0,9993 0 0,00 SEDAN 1 M C 5
48031 0,840 0,9610 0 0,00 SEDAN 3 F C 1
55110 1,600 0,9911 0 0,00 HBACK 2 F C 2
64230 0,460 0,9993 0 0,00 PANVN 4 M C 4
51551 1,300 0,9966 0 0,00 HBACK 2 F A 1
44909 0,420 0,9774 1 353,77 SEDAN 4 M A 4
59744 2,220 0,9555 0 0,00 STNWG 4 M B 3


4 – Metodología del Algoritmo Propuesto  

~ 122 ~ 
 

4.4.1. Proceso de la fase de Estabilidad 

Como primer paso del algoritmo, calculamos para cada atributo de la Base 

de Datos su clasificación cluster, dependiendo de si el atributo es categórico 

(nominal, de intervalo, ordinal o binario) o si el atributo es numérico (discreto o 

continuo) (Figura 4.4).  

 
Figura 4.4: Distribución gráfica de cada atributo 


4 – Metodología del Algoritmo Propuesto  

~ 123 ~ 
 

Se ha representado como diagrama de barras a los atributos que contiene 

la Base de Datos, figurando en el eje X de abcisas, los valores que contiene 

dicho atributo, y en el eje Y de ordenadas la frecuencia de dicho atributo. 

La división de los atributos categóricos se hace en base a los diferentes 

valores que contienen de forma natural.  

Por ejemplo, si el atributo género toma los valores “Hombre” (M) y “Mujer” 

(F) dentro de la Base de Datos, ese atributo se dividirá en 2 cluster, conteniendo 

cada uno de ellos aquellas observaciones de datos que contengan dicho valor y 

no otro, lo que nos asegura que cada cluster contiene únicamente los valores 

exactos de la característica del atributo y que ningún otro atributo influirá en su 

clasificación. 

Respecto a los atributos numéricos, tanto en su forma discreta como en 

su forma continua, el número de cluster en que se debe dividir dicho atributo 

numérico puede ser demasiado grande, dependiendo del número de valores 

distintos que contenga el atributo.  

Partiendo de la base que el número óptimo en el que dividir cualquier 

atributo numérico debe de cumplir la mejor eficiencia y mayor equidad en la 

agrupación, el número de clusters en el que se debe dividir dicho atributo debe 


4 – Metodología del Algoritmo Propuesto  

~ 124 ~ 
 

de estar entre el valor final en el que se quiere dividir el conjunto de datos y el 

número de valores distintos que contiene dicho atributo numérico (Ecuación 4.1): 

K < K(a) ≤ V(a)     (4.1) 

Donde: 

 K: Número de clusters finales elegidos para clasificar la Base de Datos. 

 a: Atributo numérico dentro de la Base de Datos. 

 K(a): Número de clusters en que se quiere dividir el atributo numérico “a”. 

 V(a): Número de valores distintos que contiene el atributo "a". 

Una de las preguntas importantes en todas las técnicas de clasificación, 

es en cuantas clases se puede dividir un atributo, para que dicho atributo pueda 

recoger toda su distribución y además que su clasificación sea óptima. 

Sturges (1926) propuso una regla sencilla para clasificar elementos, 

aunque no ofrece buenos resultados para grandes conjuntos de datos, al no 

ofrecer suficientes clases que demuestren la distribución de los datos (Hyndman, 

1995). 

Dogan & Dogan (2010) realizan un análisis sobre 23 aproximaciones 

distintas para conseguir un número de clases óptimo de un atributo, y afirman 


4 – Metodología del Algoritmo Propuesto  

~ 125 ~ 
 

que, el número de clases en el que se va a clasificar un atributo, no solo depende 

del número de elementos del conjunto de datos. 

Según los resultados que se obtienen utilizando la regla de Scott (1979) y 

la regla de Freedman & Diaconis (1981), el número de clases aumenta muy 

rápidamente a medida que aumenta el rango y la desviación estándar de los 

datos. 

Knuth (2006) utilizando la teoría de la probabilidad bayesiana, derivó un 

algoritmo que calculaba la probabilidad posterior del número de clases para un 

conjunto de datos. 

La regla de Ishikawa (1986) ofrece un nivel demasiado alto en la formación 

de clases de un atributo, incrementándose exponencialmente para Bases de 

datos superiores a 300 elementos, y, por otro lado, la regla de Larson (1982) 

obtiene un número muy reducido de clases (Westlake & Larson, 1970). 

Rudemo (1982) propuso una técnica de validación cruzada para 

seleccionar el número óptimo de clases con el que poder clasificar un atributo. 

Un mayor número de clases permite mostrar más detalles del atributo; sin 

embargo, si el número de clases es demasiado grande, la clasificación pierde su 

eficacia. Por otro lado, si el número de clases es demasiado pequeño, los datos 


4 – Metodología del Algoritmo Propuesto  

~ 126 ~ 
 

se agruparán tanto que se obtendrá muy poca información del atributo (Cargill et 

al., 1980; Plane & Oppermann, 1981). 

Existen muchos criterios y directrices para abordar el problema, puesto 

que el número de clases de un atributo aumenta a medida que aumenta el 

tamaño del conjunto de datos (Dogan & Dogan, 2010). 

Si consideramos el caso más desfavorable, donde ningún valor del 

atributo numérico se repite, entonces V(a) sería igual a N, siendo N el total de 

elementos del conjunto de datos, lo que significa que nuestro óptimo para dicho 

atributo estaría comprendido en el intervalo dado por la Ecuación (4.2): 

K < K(a) ≤ V(a)  =  N     (4.2) 

Para el valor de K(a), nos hemos basado en la formulación propuesta por 

Rice (Dogan & Dogan, 2010; Lohaka, 2007), quedando finalmente nuestro 

intervalo dado por la Ecuación 4.3: 

K < K(a) = 2 ∗ √N3 ≤ V(a) = N    (4.3) 

En la Tabla 4.2, observamos la distribución llevada a cabo sobre el atributo 

numérico “Exposure”, del ejemplo (Tabla 4.1), siguiendo la Ecuación 4.3.  


4 – Metodología del Algoritmo Propuesto  

~ 127 ~ 
 

Tabla 4.2: Distribución de cluster sobre el atributo “Exposure” 

En la Tabla 4.3, observamos la distribución de cluster natural que se ha 

realizado sobre el atributo categórico “Veh_body” del ejemplo (Tabla 4.1). 

 
Tabla 4.3: Distribución de cluster sobre el atributo “Veh_body” 


4 – Metodología del Algoritmo Propuesto  

~ 128 ~ 
 

La Tabla 4.4, muestra la distribución de cluster que se ha calculado para 

cada atributo en el conjunto de datos considerado y expuesto en la Tabla 4.1. 

 
Tabla 4.4: Distribución de cluster para cada atributo 

La Tabla 4.5, muestra el resumen de la distribución de cluster que se ha 

calculado para cada atributo en el conjunto de datos considerado, la división 

natural para los atributos categóricos y según la Ecuación 4.3 en los atributos 

numéricos. 

veh_value Frecuencia Nº Clúster exposure Frecuencia Nº Clúster numclaims Frecuencia Nº Clúster
4,000 2 1 0,991 1 1 1 3 1
2,220 1 0,997 1 2 0 17 2
2,560 1 0,956 1 3
2,760 1 0,983 1
1,210 1 0,986 1
1,300 1 0,988 1
1,480 1 0,961 1
0,580 1 0,977 2
0,840 1 0,980 1
1,000 1 0,999 10 6
1,090 1
0,370 1
0,390 1
0,420 1
0,460 1
1,560 1
1,600 1
1,660 1
1,684 1

claimcst0 Frecuencia Nº Clúster veh_body Frecuencia Nº Clúster veh_age Frecuencia Nº Clúster
480,00 1 1 PANVN 1 1 3 3 1
390,00 1 2 TRUCK 1 2 2 4 2
353,77 1 3 STNWG 5 3 1 5 3

0,00 17 4 SEDAN 6 4 4 8 4
HBACK 7 5

gender Frecuencia Nº Clúster area Frecuencia Nº Clúster agecat Frecuencia Nº Clúster
F 10 1 E 1 1 1 2 1
M 10 2 B 2 2 2 4 2

D 2 3 3 4 3
F 3 4 5 4 4
A 5 5 4 6 5
C 7 6

6

4

5

2

3

4

5


4 – Metodología del Algoritmo Propuesto  

~ 129 ~ 
 

Tabla 4.5: Resumen distribución de clusters de todos los atributos 

A la luz de los resultados obtenidos en la Tabla 4.5, si tomamos el valor 

de cluster en el que se divide cada atributo, tenemos el número máximo de 

combinaciones posibles con todos los resultados obtenidos para cada atributo, 

ver (Ecuación 4.4): 

∏ K(a(i)) = 6 ∗ 6 ∗ 2 ∗ 4 ∗ 5 ∗ 4 ∗ 2 ∗ 6 ∗ 5 =  345.600 r
i=1    (4.4) 

Donde: 

 a(i): denota el atributo i-ésimo. 

 r: es el número total de atributos incluidos en nuestro conjunto de datos. 

 K(a): representan el número de grupos calculados para cada atributo.  

Atributo Nº de 
Clusters

Veh_value 6

Exposure 6

Numclaims 2

Claimcst0 4

Veh_body 5

Veh_age 4

Gender 2

Area 6

Agecat 5


4 – Metodología del Algoritmo Propuesto  

~ 130 ~ 
 

Sin embargo y aunque aparentemente el número de clusters (Ecuación 

4.5), pueda parecer demasiado grande, las combinaciones sobre cualquier 

conjunto de Datos usado, casi siempre están vacías y no contienen ninguna 

observación del conjunto de datos. Como se puede observar en este ejemplo, el 

número de grupos reales obtenido ha sido de 20, lo que significa un 6 ∗ 10−5% 

aproximadamente, de Multiclusters distintos. 

En la tabla 4.6, cada multicluster contiene una sola observación. Para 

identificar los multiclusters, utilizamos los números asociados a los valores de 

los atributos en la Tabla 4.4. Obsérvese que las variables de la Tabla 4.1 tienen 

el etiquetado original dado en el conjunto de datos Cars Insurance: por ejemplo, 

los valores de los atributos de la primera observación (48112) están etiquetados 

como 1,000 (para el atributo "Veh_Value"), 0,9993 ("Exposure"), SEDAN 

("Veh_body"), etc.  

Para simplificar la notación, en la Tabla 4.6 estas etiquetas se sustituyen 

por números: según la Tabla 4.4, 1,000 será "4", 0,9993 será "6", SEDAN será 

"4", etc. En la Tabla 4.6 etiquetamos los Multiclusters con los valores numéricos 

adjuntos a los valores de sus atributos en la Tabla 4.4. Siguiendo esta regla, el 

Multicluster que contiene la observación 48112, por ejemplo, se etiquetará como 

"462444262”.  

 
4 – Metodología del Algoritmo Propuesto  

~ 131 ~ 
 

Tabla 4.6: Composición de los 20 Multiclusters no vacíos 

4.2.2. Proceso de la fase de Eficiencia 

En base a la información obtenida, con los Multiclusters obtenidos en la 

Tabla 4.6 (última columna), formamos una matriz cuadrada, a la que llamaremos 

Matriz de Coincidencias (Tabla 4.8). 

Estas coincidencias indican que, el número de cluster de un atributo 

cualquiera, es igual en cada par de Multiclusters, o lo que es lo mismo, que el 

valor que contiene un cierto atributo es igual en diferentes observaciones de 

nuestra Base de Datos, lo cual representa el porcentaje máximo de igualdad 

entre diferentes observaciones. 

Observacion veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat Multicluster

48112 4 6 2 4 4 4 2 6 2 462444262
12898 4 6 2 4 2 4 1 2 5 462424125
43094 5 6 2 4 3 4 1 6 4 562434164
54857 6 4 2 4 5 2 2 5 2 642452252
40398 2 4 2 4 4 3 2 3 4 242443234
9413 5 6 2 4 5 4 1 5 5 562454155
51946 3 4 1 1 5 3 1 3 3 341153133
6506 1 6 1 2 3 1 1 4 5 161231145
41937 6 6 2 4 5 3 1 5 2 662453152
51891 3 5 2 4 5 2 2 1 4 352452214
27351 1 6 2 4 3 1 2 4 3 162431243
45716 4 6 2 4 4 4 2 6 5 462444265
39410 2 5 2 4 3 3 1 4 3 252433143
16236 6 6 2 4 4 3 2 6 4 662443264
48031 4 5 2 4 4 1 1 6 1 452441161
55110 6 1 2 4 5 2 1 6 2 612452162
64230 5 6 2 4 1 4 2 6 5 562414265
51551 3 2 2 4 5 2 1 5 1 322452151
44909 5 5 1 3 4 4 2 5 5 551344255
59744 2 3 2 4 3 4 2 2 3 232434223


4 – Metodología del Algoritmo Propuesto  

~ 132 ~ 
 

Si nos fijamos en la Tabla 4.7, tenemos los Multiclusters_Máximos 

formados por las filas 5 y 14 respectivamente, 242443234 y 662443264, cuyo 

valor de Multicluster lo forma el string del cluster de cada atributo unidos entre 

sí.  

Podemos observar por tanto en la Tabla 4.7, que la coincidencia entre 

estos dos Multiclusters es de 6 (casillas marcadas en verde), lo que significa que 

los valores de los atributos de ambas observaciones y por tanto de ambos 

Multiclusters, al tener el mismo valor cada uno de ellos, se han ubicado en los 

mismos clusters. 

 
Tabla 4.7: Coincidencia de los atributos entre dos Multicluster 

En base a lo descrito anteriormente acerca de cómo se forman las 

coincidencias, podemos formar la Matriz de Coincidencias entre cada par de 

Multiclusters (Tabla 4.8): 

 
Multicluster veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat

242443234 2 4 2 4 4 3 2 3 4

662443264 6 6 2 4 4 3 2 6 4


4 – Metodología del Algoritmo Propuesto  

~ 133 ~ 
 

Tabla 4.8: Matriz de Coincidencias entre Multiclusters 

Según se puede observar en la matriz de la Tabla 4.8, el valor que figura 

en cada casilla entre cada par de Multiclusters, representa el número de atributos 

que coinciden en los mismos clusters, y por consiguiente el porcentaje de 

similitud a priori, entre cada par de Multiclusters. 

El proceso de fusión de los Multiclusters de la Matriz de Coincidencias en 

este paso del algoritmo está diseñado como un proceso "top-down" y siguiendo 

la formulación del algoritmo propuesto en Santos & Heras (2020), comenzando 

por la primera fila de la Matriz de Coincidencia.  

Multicluster Frecuencia

16
12

31
14

5

16
24

31
24

3

23
24

34
22

3

24
24

43
23

4

25
24

33
14

3

32
24

52
15

1

34
11

53
13

3

35
24

52
21

4

45
24

41
16

1

46
24

24
12

5

46
24

44
26

2

46
24

44
26

5

55
13

44
25

5

56
24

14
26

5

56
24

34
16

4

56
24

54
15

5

61
24

52
16

2

64
24

52
25

2

66
24

43
26

4

66
24

53
15

2

161231145 1 5 1 0 3 1 2 0 2 3 1 2 2 2 3 3 1 0 1 2

162431243 1 5 3 5 2 1 3 3 3 4 4 1 4 4 3 2 3 4 3

232434223 1 4 5 2 1 3 2 4 4 4 2 4 4 3 2 3 3 2

242443234 1 4 2 3 4 3 2 4 4 2 3 3 2 2 4 6 3

252433143 1 3 3 3 4 3 2 2 1 2 4 3 3 2 3 4

322452151 1 3 5 4 3 2 2 1 2 3 5 5 5 2 5

341153133 1 2 1 1 0 0 1 0 1 2 2 2 1 3

352452214 1 3 2 3 3 2 3 3 3 4 5 4 3

452441161 1 4 5 5 2 3 4 3 4 2 4 3

462424125 1 5 6 2 5 5 6 3 2 3 4

462444262 1 8 3 6 5 4 4 4 6 4

462444265 1 4 7 5 5 3 3 6 3

551344255 1 4 2 4 0 2 2 1

562414265 1 6 6 3 3 5 3

562434164 1 6 4 2 5 4

562454155 1 4 4 3 6

612452162 1 6 4 6

642452252 1 4 6

662443264 1 5

662453152 1 9


4 – Metodología del Algoritmo Propuesto  

~ 134 ~ 
 

En este procedimiento no volvemos a considerar ninguna fila que ya haya 

sido considerada anteriormente, y por esta razón sólo necesitamos trabajar con 

el triángulo superior de la matriz. Es decir, no necesitamos tener en cuenta el 

término de la fila "i" y la columna "j" cuando i > j, porque este término ya ha sido 

considerado antes, en la fila "j" y la columna "i". O, en otros términos, si ya hemos 

comparado el cluster "A" y el cluster "B", no necesitamos seguir comparando el 

cluster "B" y el cluster "A".  

En Santos y Heras (2020) mostramos que este procedimiento suele 

conducir a conjuntos óptimos de clusters. Además, tomar en consideración todos 

los elementos de la Matriz de Coincidencia podría conducir a bucles 

computacionales, y el algoritmo no podría funcionar. 

Para fusionar cada Multicluster (fila), llamado Emisor, con otro Multicluster 

(columna), llamado Receptor, de la Tabla 4.8, comprobamos el mayor número 

de coincidencias existentes de cada Emisor con todos sus posibles Receptores, 

lo que significa la igualdad del mayor número de características de los atributos 

de la Base de Datos, o lo que es lo mismo el mayor porcentaje de similitud entre 

ambos Multiclusters. 

Para reducir el número de clusters, fusionamos aquellos Multiclusters que 

comparten el mayor número de valores de atributos, y en este punto podemos 


4 – Metodología del Algoritmo Propuesto  

~ 135 ~ 
 

encontrarnos con dos posibilidades, que solo exista un valor máximo único en la 

fila o que el mismo valor máximo de fila lo contengan más de un Multicluster. 

 En caso de que haya un solo valor máximo, procedemos a unir el 

Multicluster-Emisor (fila) con el Multicluster-Receptor (columna), cuya 

intersección ha producido esa coincidencia máxima. Esta es la situación que se 

muestra en la Tabla 4.9, construida a partir de la segunda fila de la Matriz de 

Coincidencias (Tabla 4.8): en este caso, los Multiclusters 462444262 y 

462444265 deben fusionarse, porque comparten los mismos valores en 8 de los 

9 atributos que contiene la Base de Datos. 

Si observamos la fila 11 de la Tabla 4.8, se puede ver que solo existe una 

coincidencia máxima entre Multicluster_Emisor (fila) y Multicluster_Receptor 

(columna) (Tabla 4.9). 

 
Tabla 4.9: Fusión de Multiclusters, con una sola coincidencia 

 
Multicluster Frecuencia

16
12

31
14

5

16
24

31
24

3

23
24

34
22

3

24
24

43
23

4

25
24

33
14

3

32
24

52
15

1

34
11

53
13

3

35
24

52
21

4

45
24

41
16

1

46
24

24
12

5

46
24

44
26

2

46
24

44
26

5

55
13

44
25

5

56
24

14
26

5

56
24

34
16

4

56
24

54
15

5

61
24

52
16

2

64
24

52
25

2

66
24

43
26

4

66
24

53
15

2

462444262 1 8 3 6 5 4 4 4 6 4


4 – Metodología del Algoritmo Propuesto  

~ 136 ~ 
 

En el caso de que exista más de un valor igual de coincidencia entre el 

Multicluster-Emisor (fila) y el Multicluster-Receptor (columna), como se muestra 

en la Tabla 4.10, construida a partir de la fila 6 de la Matriz de Coincidencias 

(Tabla 4.8), donde se puede observar hasta cinco coincidencias iguales entre el 

Multicluster emisor y sus posibles Multiclusters receptores. 

 
Tabla 4.10: Fusión de Multiclusters, con varias coincidencias 

Calcularemos el Coeficiente Kappa de Fleiss (Fleiss et al., 1969, 2003; 

Fleiss, 1971), para romper el empate producido entre varios Receptores con el 

Emisor, eligiendo aquel Multicluster_Receptor que tenga el mayor coeficiente 

Kappa-Fleiss con el Emisor, lo que nos indicará la mayor afinidad entre ambos y 

por consiguiente producirá la mejor eficiencia en su agrupamiento (Tabla 4.11). 

 
Tabla 4.11: Mejor Kappa-Fleiss entre Multiclusters 

Multicluster Frecuencia

16
12

31
14

5

16
24

31
24

3

23
24

34
22

3

24
24

43
23

4

25
24

33
14

3

32
24

52
15

1

34
11

53
13

3

35
24

52
21

4

45
24

41
16

1

46
24

24
12

5

46
24

44
26

2

46
24

44
26

5

55
13

44
25

5

56
24

14
26

5

56
24

34
16

4

56
24

54
15

5

61
24

52
16

2

64
24

52
25

2

66
24

43
26

4

66
24

53
15

2

322452151 1 3 5 4 3 2 2 1 2 3 5 5 5 2 5

Multicluster
Optimo

Valor
Kappa-Fleiss

352452214 0,9137931

562454155 0,9143357

612452162 0,9066901

322452151 642452252 0,9066901

662453152 0,8908451

Multicluster
Máximo


4 – Metodología del Algoritmo Propuesto  

~ 137 ~ 
 

Si hubiese varios Multiclusters o agrupaciones conteniendo el mismo valor 

máximo de concordancia Kappa de Fleiss, se sigue la clasificación de los 

Multiclusters. En el ejemplo, si la fusión del Multicluster A con el Multicluster B y 

la fusión del Multicluster A con el Multicluster C tienen el mismo valor Kappa de 

Fleiss y el Multicluster B está clasificado antes que el Multicluster C, entonces la 

vinculación final será AB. Por supuesto, un orden diferente puede conducir a 

resultados distintos, afectando a la estabilidad del proceso.  

Por esta razón, hemos seleccionado un orden inicial razonable, en el que 

los valores de los atributos se clasifican en orden creciente según su tamaño. 

Por ejemplo, si la frecuencia del valor "a" es menor que la de "b", entonces "a" 

precede a "b", y esto puede representarse tomando los valores a = 1 y b = 2. 

Hemos seguido esta regla para la clasificación de los valores de los atributos que 

se muestran en la Tabla 4.4. 

Una vez realizado el proceso anterior para todos los Multiclusters (fila) de 

la Tabla 4.8, obtenemos la matriz de los mejores Multiclusters_Receptores y por 

consiguiente el óptimo Multicluster receptor para cada Multicluster emisor (fila) 

de la Matriz de Coincidencias (Tabla 4.8). 

Las observaciones que corresponden a cada Multicluster_Emisor se ha 

fusionado con su óptimo Multicluster_Receptor, obteniéndose finalmente la 


4 – Metodología del Algoritmo Propuesto  

~ 138 ~ 
 

llamada Matriz de Multiclusters_Óptimos con 11 Multiclusters no vacíos (ver 

Tabla 4.12), finalizando en este punto la fase 2 de la metodología propuesta. 

Obsérvese en la Tabla 4.12, que aquellos Multiclusters que tienen la misma 

frecuencia, se ordenan de forma lexicográfica. 

 
Tabla 4.12: Matriz de Multiclusters Óptimos 

Si no tuviésemos ningún atributo sensible o protegido en la Base de Datos, 

se podría construir una nueva Matriz de Coincidencias a partir de la Matriz de 

Multiclusters_Óptimos y ejecutar esta misma Fase 2 repetidamente hasta 

alcanzar el número de clusters final deseado, obteniendo los mejores clusters 

para la clasificación final de nuestra Base de Datos (Santos & Heras, 2020). 

 
Multicluster
Optimo

Frecuencia

162431243 1

562434164 1

662443264 1

252433143 2

562414265 2

642452252 2

462444265 3

562454155 3

662453152 5


4 – Metodología del Algoritmo Propuesto  

~ 139 ~ 
 

4.4.3. Proceso de la fase de Equidad 

En el último paso del algoritmo, nos centramos en el objetivo de equidad.  

Calculamos la proporción inicial que tiene el conjunto de datos respecto 

del atributo “Gender (Género)”, 50% (para mujeres) y 50% (para hombres) (ver 

Tabla 4.4), evitando de esta manera tener que asignar otra distribución manual, 

y por consiguiente evitando sesgos manuales o subjetivos respecto del atributo 

protegido (Tabla 4.13). 

 
Tabla 4.13: Ratio Deseado del atributo protegido. 

Formamos una Matriz cuadrada de los Multiclusters_Óptimos obtenidos 

en el paso anterior (Tabla 4.12), para calcular el ratio observado que se produce 

al fusionar dentro de cada Multicluster Óptimo Receptor (columna) las 

observaciones del Multicluster Óptimo Emisor (fila), de la misma forma que se 

hizo en la fase de eficiencia con los Multiclusters Máximos obtenidos y 

conformaban la Matriz de Coincidencias. 

Female 50%

Male 50%

Desired Distribution
"GENDER"
(in Dataset)

%


4 – Metodología del Algoritmo Propuesto  

~ 140 ~ 
 

El primer paso es calcular los ratios observados correspondiente a la 

primera fila, al fusionarse con cada uno de los otros Multiclusters óptimos que 

hacen de receptores en este caso, a continuación, calculamos la distancia 

euclídea entre las proporciones observadas del atributo protegido y las 

proporciones deseadas calculadas anteriormente, eligiendo la distancia menor, 

pues nos indicará la mejor equidad en la fusión de los elementos u observaciones 

de la Base de Datos y correspondiente a dichos Multiclusters óptimos (Tabla 

4.14). 

 
Tabla 4.14: Distancias entre ratio deseado y observado 

En este punto, nos podemos encontrar con dos posibilidades, por un lado 

que exista un unico ratio mínimo, como el observado en la Tabla 4.14, o bien, 

que exista mas de un ratio mínimo identico entre los Multiclusters receptores. 

M
U

LT
IC

LU
ST

ER
O

PT
IM

O

N
U

M
ER

O
O

BS
ER

VA
CI

O
N

ES

16
24

31
24

3

56
24

34
16

4

66
24

43
26

4

25
24

33
14

3

56
24

14
26

5

64
24

52
25

2

46
24

44
26

5

56
24

54
15

5

66
24

53
15

2

162431243 1 0,70711 0,00000 0,23570 0,23570 0,23570 0,35355 0,35355 0,23570

562434164 1

662443264 1

252433143 2

562414265 2

642452252 2

462444265 3

562454155 3

662453152 5

M
U

LT
IC

LU
ST

ER
_E

M
IS

O
R


4 – Metodología del Algoritmo Propuesto  

~ 141 ~ 
 

En nuestro ejemplo, dado que la distancia mínima en la primera fila de la 

matriz de Óptimos se alcanza uniendo el Multicluster_Emisor “162431243” y el 

Multicluster_Receptor “662443264”, los Multicluster uno (primera fila) y tercero 

(tercera fila), todas las observaciones contenidas en la Base de Datos de los dos 

Multiclusters, se unirán formando un nuevo Multicluster más eficiente y con una 

proporción más justa del atributo protegido “Género”. 

En el caso que existan varios Multiclusters con los mismos ratios mínimos 

observados, la selección entre los diferentes Multiclusters seguirán la 

clasificación de las agrupaciones, es decir, se procederá  de igual manera que la 

descrita en el punto 4.4.2 (pagina 137) del presente Capitulo, para la agrupación 

de los Multiclusters con idéntico valor Kappa de Fleiss en la Matriz de 

Coincidencias. 

Una vez realizada la fusión del primer Multicluster óptimo de la matriz 

(Tabla 4.12), se vuelve a calcular y ordenar la nueva matriz de óptimos, 

clasificando dicha matriz en orden ascendente del número de observaciones que 

tiene cada Multicluster Óptimo Emisor, y por orden lexicográfico del número de 

Multicluster para valores de frecuencia iguales. 


4 – Metodología del Algoritmo Propuesto  

~ 142 ~ 
 

Este procedimiento se realiza con el resto de Multiclusters Óptimos (filas) 

de la Tabla 4.14, hasta alcanzar los "K" clusters finales elegidos, en nuestro caso 

se ha elegido K = 2 (ver Tabla 4.15). 

 
Tabla 4.15: Distribución final de los “k” clusters elegidos 

 
4.5. RESULTADOS DEL PROCESO 

Vamos a analizar finalmente el resultado del algoritmo propuesto y por 

consiguiente de la Metodología propuesta, sobre la Base de Datos utilizada en 

este Capítulo, respecto a la hipótesis de partida, en cuanto a Estabilidad, 

Eficiencia y Equidad. 

Respecto a la Estabilidad, y comparada con otros dos algoritmos 

populares, que han sido descritos ampliamente en esta Tesis Doctoral, se puede 

observar que nuestro algoritmo propuesto mantiene el 100% de Estabilidad, 

manteniendo la misma agrupación de los elementos en los clusters finales, con 

MULTICLUSTER
OPTIMO CLUSTER NUMERO

OBSERVACIONES

462444265 1 10

662453152 2 10


4 – Metodología del Algoritmo Propuesto  

~ 143 ~ 
 

los mismos elementos en la Base de Datos inicial, sobre 10 ejecuciones llevadas 

a cabo. (Figura 4.5). 

 
Figura 4.5: Comparativa de Estabilidad 

Respecto a la Eficiencia, o precisión en el agrupamiento de los elementos 

del conjunto de datos en los clusters finales, en el Capitulo V, punto 5.3, de la 

presente Tesis Doctoral se muestra información detallada respecto a las distintas 

métricas llevadas a cabo para comprobar la eficiencia entre el cluster formado 

por cada algoritmo y la distribución final esperada. 

No obstante lo anterior, podemos observar en este punto, tomando el 

Índice de Fowlkes-Mallows (FMI) (Fowlkes & Mallows, 1983), dado por la 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

 Proposed Algorithm  KAMILA  TCLUST


4 – Metodología del Algoritmo Propuesto  

~ 144 ~ 
 

ecuación   FMI=� TP
TP+FP

 ∙ TP
TP+FN

 , y en donde los valores altos del índice 

indican una gran similitud entre dos clusters P y R de un conjunto de datos dado, 

siendo P la agrupación propuesta por el algoritmo de agrupamiento objeto de la 

presente Tesis Doctoral y R la agrupación real observada en el conjunto de 

datos, en donde: 

 TP: Se define como el número de pares de puntos que están en la 

agrupación P y en la R. 

 FP: Se define como el número de pares de puntos que están en la 

agrupación P, pero no en la R. 

 FN: Se define como el número de pares de puntos que están en la 

agrupación R, pero no en la P. 

 TN: Se define como el número de pares de puntos que están en 

diferentes agrupaciones en P y en R. 

Se observa en la Tabla 4.16, como el mayor indice de agrupamiento o 

eficiencia se consigue con el algoritmo propuesto, respecto de otros algoritmos 

populares. 

 
Tabla 4.16: Distribución Final de la Efiiencia 

FMI

 PROPOSED ALGORITHM 0,5811

KAMILA 0,5779

TCLUST 0,5400


4 – Metodología del Algoritmo Propuesto  

~ 145 ~ 
 

Respecto a la Equidad, se puede observar en la Tabla 4.17 la distribución 

final conseguida del atributo protegido dentro de cada cluster, alcanzando el 

100% en ratio de equidad, y superando a los algoritmos de la comparativa. 

 
Tabla 4.17: Distribución Final del Ratio Observado por cluster 

 
1 2

Female 50% 50% Female 50%

Male 50% 50% Male 50% KAMILA 78,57%

Total achieved per Cluster 100% 100% TCLUST 61,43%

Overall total achieved  PROPOSED ALGORITHM 100,00%100%

Observed Distribution
"GENDER"

(Proposed Algorithm)

Final Clusters Desired Distribution
"GENDER"
(in Dataset)

%


4 – Metodología del Algoritmo Propuesto  

~ 146 ~ 
 

5 - Resultados  

~ 147 ~ 
 

5 

RESULTADOS 

 
5 – RESULTADOS 


5 - Resultados  

~ 148 ~ 
 

5 - Resultados  

~ 149 ~ 
 

5.1. INTRODUCCIÓN 

Para la evaluación de la eficiencia de clustering del algoritmo y su 

comparación con otros algoritmos, trabajamos con bases de datos categóricas y 

mixtas, donde la variable respuesta es conocida pero no utilizada en el análisis.  

Las Bases de Datos usadas e incluidas en la Tabla 5.1 y especificadas 

brevemente en el apartado 5.2.1 del presente Capítulo, son conjuntos de datos 

supervisados, al contener variables de entrada o atributos del propio conjunto de 

datos y una variable de salida o variable respuesta, la cual nos indica el objetivo 

de agrupación deseado para cada elemento del conjunto de datos. 

Por ejemplo, el conjunto de datos Bank Marketing incluido en la Tabla 5.1, 

contiene una variable respuesta de salida para cada elemento o cliente, 

indicando si el cliente ha suscrito un deposito a plazo o no, lo cual identifica dicha 

respuesta el cluster deseado en donde se deberia de agrupar dicho elemento. 

La variable respuesta en definitiva, se puede identificar con los clusters o 

grupos reales a los que pertenecen los elementos incluidos en cada Base de 

Datos. 

 
5 - Resultados  

~ 150 ~ 
 

Con cada conjunto de datos, realizamos un análisis en dos pasos: 

 En el primer paso realizamos el análisis de clustering de los datos, 

donde se ha omitido la variable respuesta (los clusters reales). 

 En el segundo paso usamos esa información omitida para 

comprobar la eficiencia y precisión del algoritmo (comparando los 

clusters reales con los dados por el algoritmo).  

En realidad, este es un procedimiento comúnmente utilizado en la 

literatura de agrupamiento: véase, entre otros, Yu et al. (2018), y Zhu & Ma 

(2018). 

En cuanto a la evaluación de la Equidad de la clasificación, medimos la 

distancia entre la distribución deseada del atributo protegido y su distribución 

final en los clusters dados por el algoritmo. Se ha tomado como distribución 

deseada del atributo protegido, aquella que se encuentra fijada por las 

proporciones iniciales de los valores del atributo protegido en el conjunto de 

datos, de forma que no se pueda fijar manualmente otra proporción, ya que eso 

nos llevaría nuevamente a introducir un sesgo manual sobre el atributo protegido.  


5 - Resultados  

~ 151 ~ 
 

En otros términos, las proporciones de los valores del atributo protegido 

en los clusters finales (la salida del algoritmo) deben estar próximas a las 

proporciones observadas iniciales en todo el conjunto de datos. 

5.2. BASES DE DATOS 

Para evaluar el desempeño del algoritmo propuesto y su metodología, se 

realizará el análisis en 16 Bases de Datos, las cuales contienen atributos 

categóricos y/o numéricos, nueve de ellas son de tipo mixto y las siete restantes 

son de tipo categórico (Tabla 5.1). 

Para comprobar la Estabilidad, Eficiencia y Equidad por la metodología 

propuesta mediante el algoritmo FairMclus, se ha realizado la comparación 

con algoritmos de clustering populares y conocidos, para datos de tipo mixto: K-

Prototypes (Huang, 1997b; 1998), Kamila (Foss et al., 2016) y Tclust (Fritz et al., 

2012) en cuanto a datos de tipo categórico: K-Modes (Huang, 1997a), Daisy y 

Pam (Kaufman & Rousseeuw, 1990) y Tclust (Fritz et al., 2012). 

La interpretación de las columnas de la Tabla 5.1 es la siguiente: 

 Tipo de Datos: Tipo de datos que contiene el conjunto de datos (mixto o 

categórico). 

 Nombre Base de datos: Nombre del conjunto de datos utilizado. 


5 - Resultados  

~ 152 ~ 
 

 N.º Elementos: Número de elementos u observaciones (filas) que contiene 

el conjunto de datos. 

 N.º total Atributos: Número total de variables o atributos que contiene el 

conjunto de datos. 

 N.º Atributos Categóricos: Número de atributos categóricos en el conjunto 

de datos (binario, nominal, ordinal, razón o intervalo). 

 N.º Atributos Numéricos: Número de atributos numéricos en el conjunto 

de datos (continuo, discreto). 

 Tipo Atributo Protegido: Tipo de atributo protegido dentro del conjunto de 

datos para el análisis de equidad. 

 N.º de valores diferentes del Atributo Protegido: Número de características 

o valores diferentes que contiene el atributo protegido. 

 N.º de clusters finales “k”: Número deseado (k) de clusters finales para 

dividir el conjunto de datos. 


5 - Resultados  

~ 153 ~ 
 

Tabla 5.1: Bases de Datos utilizadas en el análisis 

Ti
po

de
 D

at
os

No
mb

re
Ba

se
 de

 D
at

os
Nº

El
em

en
to

s

Nº
 

to
ta

l
At

rib
ut

os

Nº
 

At
rib

ut
os

 
Ca

te
gó

ric
os

Nº
 

At
rib

ut
os

 
Nu

mé
ric

os

Ti
po

At
rib

ut
o

Pr
ot

eg
id

o

Nº
 

va
lo

re
s d

ife
re

nt
es

At
rib

ut
o P

ro
te

gi
do

Nº
clú

st
er

s 
fin

ale
s

"k
"

(1
)

Ab
se

nte
eis

m
83

36
9

6
3

Ge
ne

ro
2

6

(2
)

Ai
rlin

e
50

00
12

11
1

Ge
ne

ro
2

2

(3
)

Au
str

ali
an

 C
re

dit
69

0
14

8
6

Ge
ne

ro
2

2

(4
)

Ba
nk

 M
ar

ke
tin

g
43

34
16

9
7

Ed
uc

ac
ión

3
2

(5
)

Cu
sto

me
r S

eg
me

nta
tio

n
66

65
9

6
3

Ge
ne

ro
2

4

(6
)

Ge
rm

an
 C

re
dit

 F
C1

10
00

20
17

3
Es

tad
o C

ivi
l

5
2

(7
)

He
ar

t D
ise

as
e

29
7

13
8

5
Ge

ne
ro

2
5

(8
)

Au
tis

m
60

9
18

18
0

Ge
ne

ro
2

2

(9
)

Br
ea

st 
ca

nc
er

26
5

8
8

0
Ed

ad
6

2

(1
0)

Ca
rs

 In
su

ra
nc

e
36

37
5

5
0

Ge
ne

ro
2

2

(1
1)

Ce
ns

us
 In

co
me

20
00

8
8

0
Ra

za
5

2

(1
2)

Ge
rm

an
 C

re
dit

 F
C2

10
00

16
16

0
Ge

ne
ro

2
2

(1
3)

Ge
rm

an
 C

re
dit

 F
C3

10
00

16
16

0
Es

tad
o C

ivi
l

3
2

(1
4)

HR
 IB

M
14

70
23

23
0

Ed
uc

ac
ión

5
3

(1
5)

Hu
ma

n R
es

ou
rc

es
29

2
19

19
0

Ge
ne

ro
2

4

(1
6)

Nu
rs

er
y

12
63

2
8

8
0

Si
tua

cio
n E

co
nó

mi
ca

2
4

Mi
xto

Ca
teg

ór
ico


5 - Resultados  

~ 154 ~ 
 

5.2.1.  Bases de Datos de tipo Mixto 

(1)   El conjunto de datos "Absenteeism" se puede encontrar en el 

Repositorio de KAGGLE (https://www.kaggle.com/). 

Contiene 8336 elementos y 9 atributos, de los cuales 6 son 

atributos categóricos y 3 son atributos numéricos, los datos son ficticios y 

la base de datos ha sido construida para investigadores de RRHH, debido 

a que el absentismo es un gasto importante para las organizaciones. 

Estos datos finalmente se clasifican en 6 clusters diferentes, 

correspondiente a la variable respuesta del conjunto de datos y que se 

corresponden con las diferentes unidades de negocio dentro de la 

empresa. Su atributo protegido “Género” contiene dos características o 

valores diferentes. 

(2)   El conjunto de datos "Airline" se puede encontrar en el Repositorio 

de KAGGLE (https://www.kaggle.com/).  

Contiene 5000 elementos y 12 atributos, de los cuales 11 son 

atributos categóricos y 1 es atributo numérico, relativo a una encuesta de 

satisfacción de los pasajeros de una aerolínea. Estos datos finalmente se 

clasifican en 2 clusters diferentes, correspondiente a la variable respuesta 

https://www.kaggle.com/
https://www.kaggle.com/


5 - Resultados  

~ 155 ~ 
 

del conjunto de datos y que se corresponde con el nivel de satisfacción 

con la linea aerea. Su atributo protegido “Género” contiene 2 valores o 

características diferentes. 

(3)   El conjunto de datos “Australian credit” se puede encontrar en el 

Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 690 elementos 14 atributos, de los cuales 8 son atributos 

categóricos y 6 son numéricos, relativos a solicitudes de tarjetas de crédito 

de clientes, en donde los nombres y valores se han cambiado para 

proteger la confidencialidad de los datos. Estos datos finalmente se 

clasifican en 2 grupos diferentes, correspondiente a la variable respuesta 

del conjunto de datos y que se corresponde con la respuesta positiva o 

negariva a la solicitud. Su atributo protegido “Género” contiene 2 

características diferentes. 

(4)   El conjunto de datos “Bank Marketing” se puede encontrar en el 

Repositorio de UCI-Machine Learning             

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

https://archive.ics.uci.edu/ml/datasets.php
https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 156 ~ 
 

Contiene 4334 elementos y 16 atributos, de los cuales 9 son 

atributos categóricos y 7 son numéricos, recopilados a través de 

campañas de marketing directo (llamadas telefónicas) de un instituto 

bancario portugués. Estos datos finalmente se clasifican en 2 grupos 

diferentes, correspondiente a la variable respuesta del conjunto de datos 

y que se corresponde a si el cliente ha suscrito o no un depósito a plazo 

con la entidad bancaria. Su atributo protegido “Educación” contiene 3 

características diferentes. 

(5)   El conjunto de datos “Customer Segmentation” puede encontrar en 

el Repositorio de KAGGLE (https://www.kaggle.com/). 

Contiene 6665 elementos y 9 atributos, de los cuales 6 son 

atributos numéricos y 3 son atributos categóricos, basado en estudio de 

mercado de una empresa de automóviles para introducir sus productos en 

un nuevo mercado similar al que tienen actualmente. Estos datos 

finalmente se clasifican en 4 grupos diferentes, correspondiente a la 

variable respuesta del conjunto de datos y que se corresponde con la 

clasificación realizada a los clientes por segmento de mercado. Su atributo 

protegido “Género” contiene 2 características diferentes. 

https://www.kaggle.com/)


5 - Resultados  

~ 157 ~ 
 

(6)   El conjunto de datos "German Credit FC1" se puede encontrar en 

el Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 1000 elementos y 20 atributos, de los cuales 17 son 

atributos categóricos 3 son numéricos, relativos a las calificaciones 

crediticias de los clientes. Estos datos finalmente se clasifican en 2 

clusters diferentes, correspondiente a la variable respuesta del conjunto 

de datos y que se corresponde en función de si es o no un trabajador 

extranjero. Su atributo protegido “Estado Civil” tiene 5 valores diferentes. 

(7)   El conjunto de datos "Heart Disease" se puede encontrar en el 

Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 297 elementos y 13 atributos, de los cuales 8 son 

atributos categóricos y 5 son atributos numéricos, relativos a 

experimentos llevados a cabo sobre los datos recogidos en V.A. Medical 

Center, Long Beach and Cleveland Clinic Foundation, sobre la presencia 

o ausencia de una enfermedad cardiaca en los pacientes. Estos datos 

finalmente se clasifican en 5 clusters diferentes, correspondiente a la 

variable respuesta del conjunto de datos y que se corresponde con la 

https://archive.ics.uci.edu/ml/datasets.php
https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 158 ~ 
 

presencia o ausencia de la enfermedad en una escala de 0 a 4, siendo 0 

ausencia de enfermedad. Su atributo protegido “Género” tiene 2 valores 

diferentes. 

5.2.2.  Bases de Datos de tipo Categórico 

(8)   El conjunto de datos "Autism" se puede encontrar en el Repositorio 

de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) 

(Dua & Graff, 2019). 

Contiene 609 elementos y dieciocho atributos categóricos, relativos 

al cribado del trastorno del espectro autista en adultos. Estos datos 

finalmente se clasifican en 2 cluster diferentes, correspondiente a la 

variable respuesta del conjunto de datos y que se corresponde a si el 

paciente puede tener o no rasgos del trastorno del espectro autista. Su 

atributo protegido “Género” contiene 2 características o valores diferentes. 

(9)   El conjunto de datos "Breast Cancer" se pueden encontrar en el 

Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 265 elementos y 8 atributos categóricos, tomados del 

Centro Médico Universitario, Instituto de Oncología, Ljubljana, Eslovenia. 

https://archive.ics.uci.edu/ml/datasets.php
https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 159 ~ 
 

Estos datos finalmente se clasifican en 2 clusters diferentes, 

correspondiente a la variable respuesta del conjunto de datos y que se 

corresponde con si el paciente pertenece o no a caso control. Su atributo 

protegido “Edad” tiene 6 valores diferentes. 

(10)   El conjunto de datos “Cars Insurance” se puede encontrar en el 

Repositorio de Datos de la Universidad Macquarie de Australia 

(Departamento de Finanzas Aplicadas y Estudios Actuariales)   

http://www.businessandeconomics.mq.edu.au/our_departments/Applied_

Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/

data_sets). 

Contiene 3.637 pólizas de seguros de vehículos y 5 atributos 

categóricos. Los datos se basan en pólizas de seguro de vehículos de un 

año de duración y con un campo de exposición al menos igual a 0,95. 

Estos datos finalmente se clasifican en 2 clusters diferentes, 

correspondiente a la variable respuesta del conjunto de datos y que se 

corresponde en si el cliente ha tenido o no un siniestro. Su atributo 

protegido “Género” contiene 2 valores diferentes. 

http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets
http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets
http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets


5 - Resultados  

~ 160 ~ 
 

(11)   El conjunto de datos "Census Income" se puede encontrar en el 

Repositorio de MLD-API Spreadsheets 

(https://www.apispreadsheets.com/datasets). 

Contiene 2000 elementos, que han sido tomados como una 

muestra aleatoria del conjunto total, con 8 atributos categóricos, relativos 

a datos censales. Estos datos finalmente se clasifican en 2 clusters 

diferentes, correspondiente a la variable respuesta del conjunto de datos 

y que se corresponde a si los ingresos exceden o no los 50.000$ al año. 

Su atributo protegido “Raza” contiene 5 características diferentes. 

(12)   El conjunto de datos "German Credit FC2” se puede encontrar en 

el Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 1000 elementos y 16 atributos categóricos, relativos a las 

calificaciones crediticias de los clientes. Estos datos finalmente se 

clasifican en 2 clusters diferentes, correspondiente a la variable respuesta 

del conjunto de datos y que se corresponde en función de si es o no un 

trabajador extranjero. Su atributo protegido “Género” tiene 2 valores 

diferentes.  

https://www.apispreadsheets.com/datasets
https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 161 ~ 
 

(13)   El conjunto de datos "German Credit FC3” se puede encontrar en 

el Repositorio de UCI-Machine Learning 

(https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). 

Contiene 1000 elementos y 16 atributos categóricos, relativos a las 

calificaciones crediticias de los clientes. Estos datos finalmente se 

clasifican en 2 clusters diferentes, correspondiente a la variable respuesta 

del conjunto de datos y que se corresponde en función de si es o no un 

trabajador extranjero. Su atributo protegido “Estado Civil” tiene 3 valores 

diferentes.  

(14)   El conjunto de datos "HR IBM" se puede encontrar en el Repositorio 

de KAGGLE (https://www.kaggle.com/). 

Contiene 1470 observaciones y 23 atributos categóricos, relativos 

a un conjunto de datos ficticio creado por científicos de datos de IBM, 

respecto a los factores que conducen al abandono de los empleados. 

Estos datos finalmente se clasifican en 3 clusters diferentes, 

correspondiente a la variable respuesta del conjunto de datos y que se 

corresponde con los diferentes departamentos dentro de la empresa. Su 

atributo protegido “Educación” contiene 5 valores o características 

diferentes. 

https://archive.ics.uci.edu/ml/datasets.php
https://www.kaggle.com/


5 - Resultados  

~ 162 ~ 
 

(15)   El conjunto de datos "Human Resources" se puede encontrar en el 

Repositorio de KAGGLE (https://www.kaggle.com/). 

Contiene 292 observaciones con 19 atributos categóricos, los datos 

relacionados con los RRHH y utilizados en el curso de postgrado HR 

Metrics and Analytics, en el New England College of Business. Estos 

datos finalmente se clasifican en 4 clusters diferentes, correspondiente a 

la variable respuesta del conjunto de datos y que se corresponde con la 

puntuación del rendimiento mas reciente del empleado. Su atributo 

protegido “Género” tiene 2 valores o características diferentes. 

(16)   El conjunto de datos “Nursery” se puede encontrar en el Repositorio 

de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php) 

(Dua & Graff, 2019). 

Contiene 12632 observaciones y 8 atributos categóricos, los datos 

se refieren a guarderías que se derivó de un modelo de decisión jerárquico 

desarrollado originalmente para clasificar las solicitudes de guarderías, en 

donde las solicitudes rechazadas necesitaban con frecuencia una 

explicación objetiva. Estos datos finalmente se clasifican en 4 clusters, 

correspondiente a la variable respuesta del conjunto de datos y que se 

corresponde con las diferentes clases recomendadas. Su atributo 

https://www.kaggle.com/)
https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 163 ~ 
 

protegido “Situación Económica” contiene 2 características o valores 

diferentes. 

5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS 

En la literatura se han propuesto muchas medidas del grado de similitud 

entre diferentes particiones del mismo conjunto de datos: ver, entre otros, Dom 

(2002), Headden et al. (2008), Meilâ (2007), Reichart & Rappoport (2009), 

Rosenberg & Hirschberg (2007), Vinh et al. (2010), Wagner & Wagner (2007), 

Walker & Ringger (2008).  

Hemos seleccionado cuatro medidas bien conocidas de la similitud entre 

dos particiones P y R de un conjunto de datos dado, siendo P la agrupación 

propuesta por el algoritmo de agrupamiento FairMclus y R la agrupación real 

observada en el conjunto de datos. 

I. Índice de Fowlkes-Mallows (FMI) (Fowlkes & Mallows, 1983), en donde 

los valores altos del índice indican una gran similitud entre los clusters 

(Ecuación 5.1). 

FMI=� TP
TP+FP

 ∙ TP
TP+FN

   (5.1) 


5 - Resultados  

~ 164 ~ 
 

Dónde: 

 TP: Se define como el número de pares de puntos que están en la 

agrupación P y en la R. 

 FP: Se define como el número de pares de puntos que están en la 

agrupación P, pero no en la R. 

 FN: Se define como el número de pares de puntos que están en la 

agrupación R, pero no en la P. 

 TN: Se define como el número de pares de puntos que están en 

diferentes agrupaciones en P y en R 

II. Índice Máximum-Match Measure (MMM) (Meilâ & Heckerman, 2001), 

Meila y Heckerman utilizan otra medida asimétrica, que aplican para 

comparar algoritmos de clustering, no comparan los resultados de los 

diferentes métodos de clustering entre sí, sino que nos sirve para 

comparar cada resultado de clustering con una solución óptima de 

clustering, que viene dada por la variable respuesta que ya tiene el propio 

conjunto de datos, y en donde P es la agrupación que proporciona el 

algoritmo y R es la agrupación óptima (Ecuación 5.2.) 

MMM(P, R) = 1
n
∑ maxjk
i=1 mij   (5.2) 


5 - Resultados  

~ 165 ~ 
 

Donde: 

 𝑚𝑚𝑖𝑖𝑖𝑖: número de observaciones o elementos que están en ambos 

clusters 

 n: número total de observaciones en 𝑃𝑃𝑖𝑖𝑅𝑅𝑖𝑖 

III. Índice Normalized Variation of Information Measure (NVI) (Reichart & 

Rappoport, 2009), es una versión normalizada de la Variación de la 

medida de información (VI) de Meila (2007), y en donde NVI es 

independiente del total de la muestra y sus valores para las agrupaciones 

consideradas buenas por VI se encuentran en [0, 1]. Por lo tanto, NVI 

puede utilizarse para comparar el rendimiento de la agrupación entre 

conjuntos de datos y ademas mantiene la propiedad aditiva convexa de 

VI pero no sus axiomas metricos. (Ecuación 5.3): 

NVI= �  
H(P|R)+ H(R|P)

H(P)
                    H(P) ≠ 0

H(R)                             H(P) = 0 
  (5.3) 

Donde; 

 H(P) y H(R) son las entropías de las particiones P y R. 

 H(P| R) y H(R| P) son sus entropías condicionales. 


5 - Resultados  

~ 166 ~ 
 

IV. Índice de superposición (OI) (Vijaymeena & Kavitha, 2016), también 

conocido como coeficiente de Szymkiewicz-Simpson, es una medida de 

similitud basada en el concepto de superposición entre dos conjuntos.  

Dados dos conjuntos finitos X e Y, la superposición entre ellos se define 

como el tamaño de la intersección dividido por el tamaño más pequeño de 

los dos conjuntos (Ecuación 5.4) 

OI = X∩Y
min (|X|,|Y|)

     (5.4) 

V. Índice de Equidad (Santos & Heras, 2021), 

La evaluación de la Equidad está basada en calcular la media de las 

distancias euclideas entre los valores observados y deseados que tiene el 

atributo protegido, en función del numero de clusters finales construidos 

(Ecuación 5.5). 

Fairness ratio = ∑ (1− euclidean distance(Observedi ; Desired)i=k
i=1

number of clusters (k)
    (5.5) 

Donde:  

 Euclidean distance: Realiza el cálculo de la distancia euclídea entre 

dos puntos, a saber: Ratio_Observado y Ratio_Deseado, 


5 - Resultados  

~ 167 ~ 
 

pertenecientes a un espacio n_dimensional (ℝ𝑛𝑛), dependiendo del 

número de características que tenga el atributo protegido en cada 

caso, si por ejemplo el atributo protegido fuera la raza y este atributo 

tuviera 4 características distintas e identificables, los puntos estarían 

en un espacio de dimensión 4 (ℝ4). 

o Ratio_Deseado: El punto definido por la distribución que 

contiene el conjunto de datos respecto al atributo protegido,  

o Ratio_Observado: El punto definido por la distribución obtenida 

en los clusters finales respecto al atributo protegido. 

 k: Es el número final de clusters en el que se va a dividir el conjunto de 

datos inicial. 

5.4. RESULTADOS 

5.4.1. Respecto de la Estabilidad 

Independientemente del número de veces que se tenga que ejecutar un 

algoritmo de clustering sobre el mismo conjunto de datos, la Estabilidad es la 

primera característica que debe de cumplir, pues debe de garantizar que los 

elementos se clasifiquen siempre sobre los mismos clusters y no cambien de 

cluster por el hecho de ejecutarse varias veces. 


5 - Resultados  

~ 168 ~ 
 

 Para probar esta característica, se ha ejecutado, el algoritmo FairMclus 

presentado en esta Tesis Doctoral, y diferentes algoritmos en función del tipo de 

datos a tratar, mixto o categórico, diez veces cada uno de ellos sobre el mismo 

conjunto de datos. 

En todas las ejecuciones llevadas a cabo sobre cada conjunto de datos, 

el algoritmo FairMclus siempre es estable en el resultado final, obteniendo el 

mismo conjunto de elementos en cada cluster especificado, mientras que los 

otros algoritmos tienen resultados dispersos y heterogéneos, tal y como ha 

quedado recogido ampliamente en la presente Tesis Doctoral en los capítulos 1, 

3 y 4, y lo demuestran diversos estudios, entre ellos: Ahmad &Khan (2019) y 

Huang (1997a, 1998). 

Se exponen a continuación a modo de ejemplo, los resultados de 

estabilidad sobre algunas de las Bases de Datos de tipo mixto y de tipo 

categórico, incluidas en el punto 5.2 de la presente Tesis Doctoral (Figura 5.1 a 

Figura 5.4), como se puede observar, el algoritmo FairMclus obtiene en cada 

ejecución realizada, el mismo resultado de agrupación de sus elementos en los 

clusters correspondientes, y sobre cada una de las Bases de Datos utilizadas y 

descritas en la Tabla 5.1. Todas las gráficas correspondientes a todas las Bases 

de Datos se enuentran recogidas en el Anexo 1. 


5 - Resultados  

~ 169 ~ 
 

Figura 5.1: Base de Datos de tipo mixto “Australian Credit” 

 
Figura 5.2: Base de Datos de tipo mixto “Heart Disease” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST


5 - Resultados  

~ 170 ~ 
 

Figura 5.3: Base de Datos categórica “Human Resources” 

 
Figura 5.4: Base de Datos categórica “Breast Cancer” 

 
0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST


5 - Resultados  

~ 171 ~ 
 

5.4.2. Respecto de la Eficiencia 

La Tabla 5.2 muestra la eficiencia de agrupación sobre datos de tipo mixto 

(categórico y numérico) del algoritmo propuesto FairMclus, y su comparativa 

con los algoritmos k-Prototypes, Kamila y Tclust.  

La Tabla 5.3 muestra la eficiencia de agrupación sobre datos de tipo 

categórico del algoritmo propuesto FairMclus, y su comparativa con los 

algoritmos k-Modes, Daisy + Pam y Tclust. 

Los conjuntos de datos utilizados en la comparativa están mostrados en 

la Tabla 5.1, y las medidas usadas para su comparación han sido expuestas en 

el punto 5.3 del Capítulo 5 de la presente Tesis Doctoral [Índice de Fowlkes-

Mallows (FMI), Índice Máximum-Match Measure (MMM), Índice Normalized 

Variation of Information Measure (NVI), Índice de superposición (OI)]. 

Las casillas coloreadas en verde, muestran los mejores resultados de la 

comparativa, pudiendo observar que el algoritmo FairMclus, objeto de esta 

Tesis Doctoral, supera en precisión a los otros algoritmos, independientemente 

de que los datos sean de tipo mixto o categórico en la práctica totalidad de las 

Bases de Datos utilizadas y sobre las diferentes métricas usadas. 


5 - Resultados  

~ 172 ~ 
 

Tabla 5.2: Eficiencia de clustering Datos de tipo Mixto 

FM
I

MM
M

NV
I

OI
FM

I
MM

M
NV

I
OI

FM
I

MM
M

NV
I

OI
FM

I
MM

M
NV

I
OI

Ab
se

nte
eis

m
0,5

46
0,4

31
0,9

77
0,9

66
0,4

15
0,2

41
0,9

58
0,9

59
0,4

15
0,2

34
0,8

93
0,9

70
0,4

00
0,2

21
0,9

31
0,9

64

Air
line

0,7
05

0,9
85

0,9
51

0,9
74

0,5
30

0,6
03

0,9
61

0,5
31

0,5
06

0,5
30

0,9
98

0,5
10

0,4
80

0,4
85

0,9
99

0,5
09

Au
str

alia
n c

red
it

0,5
66

0,7
64

0,9
95

0,6
36

0,5
64

0,6
74

0,9
15

0,5
65

0,5
37

0,6
12

0,9
69

0,5
45

0,5
07

0,5
78

0,9
60

0,5
24

Ba
nk

 M
ark

eti
ng

0,8
63

0,9
64

0,9
99

0,9
34

0,6
44

0,5
85

0,9
93

0,8
02

0,6
72

0,6
62

0,9
94

0,8
06

0,6
55

0,6
41

0,9
84

0,8
19

Cu
sto

me
r S

eg
me

nta
tio

n
0,3

83
0,7

51
0,9

98
0,5

87
0,3

53
0,5

42
0,9

17
0,4

09
0,3

48
0,4

94
0,8

91
0,3

66
0,3

60
0,5

44
0,9

13
0,4

13

Ge
rm

an
 C

red
it F

C1
0,7

34
0,9

57
0,9

95
0,9

24
0,5

38
0,5

05
1,0

00
0,5

79
0,5

40
0,5

36
0,9

97
0,5

82
0,5

23
0,4

94
0,9

89
0,5

91

He
art

 D
ise

as
e

0,4
18

0,6
77

0,9
68

0,4
93

0,3
52

0,3
77

0,8
67

0,4
53

0,3
32

0,3
54

0,8
76

0,4
35

0,3
09

0,3
50

0,9
41

0,3
88

DA
TA

SE
T

Fa
irM

clu
s 

(pr
op

os
ed

)
K-

Pr
oto

typ
es

Ka
mi

la
Tc

lus
t


5 - Resultados  

~ 173 ~ 
 

Tabla 5.3: Eficiencia de clustering Datos de tipo Categórico 

FM
I

MM
M

NV
I

OI
FM

I
MM

M
NV

I
OI

FM
I

MM
M

NV
I

OI
FM

I
MM

M
NV

I
OI

Au
tis

m
0,6

90
0,9

15
0,9

87
0,8

30
0,6

31
0,7

19
0,6

90
0,6

75
0,7

77
0,8

57
0,5

18
0,8

31
0,5

55
0,6

70
0,9

99
0,5

82

Br
ea

st 
Ca

nc
er

0,6
83

0,8
23

0,9
97

0,7
16

0,5
69

0,5
77

0,9
96

0,6
40

0,5
65

0,5
17

0,9
99

0,6
43

0,6
92

0,7
28

0,9
07

0,7
36

Ca
rs 

Ins
ura

nc
e

0,7
32

0,8
01

1,0
00

0,7
89

0,6
46

0,6
19

1,0
00

0,7
90

0,6
59

0,6
51

0,9
99

0,7
93

0,6
28

0,6
25

1,0
00

0,7
91

Ce
ns

us
 in

co
me

0,6
13

0,7
64

0,9
92

0,6
26

0,5
94

0,6
51

0,9
01

0,6
57

0,5
75

0,6
56

0,9
07

0,6
08

0,6
98

0,9
04

0,9
92

0,8
09

Ge
rm

an
 C

re
dit

 F
C2

0,6
90

0,9
06

0,9
99

0,8
26

0,5
76

0,7
23

0,9
75

0,5
86

0,5
67

0,6
77

0,9
99

0,5
76

0,5
40

0,6
20

0,9
99

0,5
85

Ge
rm

an
 C

re
dit

 F
C3

0,7
15

0,9
36

1,0
00

0,8
81

0,6
01

0,7
35

0,9
98

0,6
17

0,5
49

0,6
22

0,9
87

0,5
74

0,5
32

0,5
88

0,9
97

0,5
85

HR
 IB

M
0,4

86
0,5

76
0,9

97
0,5

30
0,4

48
0,4

78
0,9

78
0,5

32
0,4

43
0,4

69
0,9

67
0,5

44
0,4

06
0,3

88
0,9

97
0,5

19

Hu
ma

n R
es

ou
rce

s
0,4

38
0,4

35
0,9

88
0,6

43
0,3

94
0,2

98
0,9

82
0,6

25
0,3

95
0,2

98
0,9

84
0,6

25
0,3

96
0,3

63
0,9

00
0,6

27

Nu
rse

ry
0,3

46
0,4

94
0,9

97
0,3

56
0,3

42
0,4

08
0,9

45
0,3

71
0,3

31
0,3

67
0,9

44
0,3

69
0,3

51
0,5

41
0,9

86
0,3

62

DA
TA

SE
T

Fa
irM

clu
s 

(p
ro

po
se

d)
K-

Mo
de

s
Da

isy
 + 

Pa
m 

Tc
lu

st


5 - Resultados  

~ 174 ~ 
 

5.4.3. Respecto de la Equidad 

La Tabla 5.4 muestra la equidad de agrupación sobre datos de tipo mixto 

(categórico y numérico) y la Tabla 5.5 muestra la equidad de agrupación sobre 

datos de tipo categórico, del algoritmo propuesto FairMclus, y su comparativa 

con los algoritmos k-Prototypes, Kamila y Tclust para datos de tipo mixto y k-

Modes, Daisy + Pam y Tclust para datos de tipo categórico, sobre los conjuntos 

de datos de la Tabla 5.1, y con la métrica de Fairness expuesta en la ecuación 

5.5, en el punto 5.3 del Capítulo 5 de la presente Tesis Doctoral (Santos & Heras, 

2021). 

 
Tabla 5.4: Equidad de clustering Datos de tipo Mixto 

DATASET FairMclus 
(proposed) K-Prototypes Kamila Tclust

Absenteeism 0,99 0,71 0,98 0,98

Airline 1,00 0,80 0,85 0,97

Australian credit 1,00 0,93 0,93 0,92

Bank Marketing 0,96 0,85 0,94 0,94

Customer Segmentation 1,00 0,81 0,96 0,95

German Credit FC1 0,93 0,88 0,97 0,94

Heart Disease 0,96 0,68 0,83 0,89


5 - Resultados  

~ 175 ~ 
 

Tabla 5.5: Equidad de clustering Datos de tipo Categórico 

En las tablas 5.4 y 5.5, las celdas en color verde, muestran los mejores 

resultados de la comparativa, pudiendo observar que el algoritmo FairMclus, 

objeto de esta Tesis Doctoral, supera en equidad a los otros algoritmos, 

independientemente de que los datos sean de tipo mixto o categórico. 

En base a los resultados obtenidos anteriormente y mostrados en las 

Tablas 5.2 a 5.5, concluimos que el algoritmo FairMclus propuesto y su 

metodología implícita tiene un excelente rendimiento en términos de la medida 

de equidad, mientras que al mismo tiempo supera a algoritmo conocidos 

popularmente en términos de eficiencia de clasificación, tanto para datos de tipo 

mixto como para datos de tipo categórico. 

DATASET FairMclus 
(proposed) K-Modes Daisy + Pam Tclust

Autism 0,99 0,83 0,88 0,92

Breast Cancer 0,93 0,70 0,78 0,88

Cars Insurance 0,99 0,63 0,64 0,79

Census income 1,00 0,97 0,96 0,87

German Credit FC2 0,99 0,95 0,95 0,97

German Credit FC3 1,00 0,57 0,77 0,95

HR IBM 0,99 0,88 0,94 0,94

Human Resources 1,00 0,66 0,86 0,93

Nursery 1,00 0,78 0,67 0,92


5 - Resultados  

~ 176 ~ 
 

5.5. APLICACIONES EMPRESARIALES 

Tal y como hemos demostrado en el Capítulo 4, la metodología propuesta 

en la presente Tesis Doctoral, realiza una total estabilidad en la agrupación de 

los datos, y una mejor eficiencia o precisión en el agrupamiento final de los datos. 

Todo ello se ha realizado sobre Bases de Datos supervisadas, lo cual nos 

da un ratio óptimo de las tres cualidades al mismo tiempo (Estabilidad, Eficiencia, 

Equidad), tanto si lo comparamos con el resultado esperado que tiene la Base 

de Datos, como al ser comparado su resultado con otras metodologías 

populares. 

Para evaluar el desempeño de la metodología propuesta en aplicaciones 

empresariales, vamos a tomar un fichero de datos de seguros no vida con datos 

de tipo mixto y un fichero de datos de créditos con datos de tipo categórico, 

ambos sin supervisar, debido a que en cualquier organización empresarial los 

datos que contienen sus Bases de Datos carecen de un atributo que indique en 

donde se debe de agrupar el elemento, pues eso es precisamente lo que se 

quiere realizar, descubrir el agrupamiento de los datos de forma precisa y mas 

equitativa. 


5 - Resultados  

~ 177 ~ 
 

Podemos por tanto agrupar el conjunto de datos en el número de grupos 

o clusters que se desee y que pueda ser de utilidad para la empresa y su 

Dirección, de manera que se puedan realizar diferentes acciones sobre los 

grupos, como por ejemplo: acciones de marketing específicas, entrevistas a 

candidatos para cubrir vacantes en la organización, estudios de mercado sobre 

cada grupo o cluster obtenido. 

5.5.1. Sector Seguros (Primas No Vida) 

Utilizamos un conjunto de datos no supervisado "Cars Insurance" 

obtenido del Repositorio de Datos de la Universidad Macquarie de Australia 

(Departamento de Finanzas Aplicadas y Estudios Actuariales), y usado para 

demostrar el funcionamiento de la metodología expuesta en el Capítulo 4 de la 

presente Tesis Doctoral. 

(http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finan

ce_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets ) 

El conjunto de datos "Cars Insurance" contiene 3.637 pólizas de seguros 

de vehículos, con 9 atributos, de los cuales, 6 son atributos categóricos y 3 

atributos numéricos. Los datos se basan en pólizas de seguro de vehículos de 

un año de duración y con un campo de exposición al menos igual a 0,95. Su 

http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets
http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets


5 - Resultados  

~ 178 ~ 
 

atributo protegido “Género” contiene 2 valores diferentes. El punto 4.4 y la Figura 

4.4. de la presente Tesis Doctoral, muestran ampliamente los atributos incluidos 

en el conjunto de datos “Cars Insurance”, asi como el significado de cada 

atributo. 

Para probar esta característica, se ha comparado el algoritmo 

FairMclus, así como su metodología implícita y presentada en esta Tesis 

Doctoral, respecto a algunos de los algoritmos más populares que tratan 

atributos de tipo mixto (numéricos de tipo continuo, numéricos de tipo discreto y 

categóricos), como son el algoritmo K-Prototypes, el algoritmo Kamila y el 

algoritmo Tclust. 

La Tabla 5.6 y la Figúra 5.5 muestran la equidad de agrupación y su 

comparativa con los algoritmos K-Prototypes, Kamila y Tclust, al realizar 

diferentes agrupaciones en los clusters finales, a modo de ejemplo se han 

tomado desde 2 clusters hasta 10 clusters. 

Observamos que en todas las ejecuciones llevadas a cabo y en donde la 

variación es respecto al número de grupos o clusters, el algoritmo FairMclus 

siempre obtiene mejores resultados, obteniendo el 100% de equidad en la 

agrupación final, si tenemos en cuenta la distribución original que tiene el 


5 - Resultados  

~ 179 ~ 
 

conjunto de datos, incluso cuando se aumenta el número de clusters finales en 

los que se pretende agrupar el con junto de datos inicial. 

 
Tabla 5.6: Equidad de clustering del algoritmo FairMclus 

 
Figura 5.5: Equidad de clustering del algoritmo FairMclus 

NUMERO
de

CLÚSTERS

 ALGORITMO 
PROPUESTO
(FairMclus)

 K-PROTOTYPES  KAMILA  TCLUST

k=2 100% 84% 88% 97%

k=3 100% 84% 90% 96%

k=4 100% 63% 89% 92%

k=5 99% 68% 89% 91%

k=6 99% 66% 90% 91%

k=7 99% 64% 93% 91%

k=8 99% 63% 91% 88%

k=9 100% 66% 91% 86%

k=10 100% 62% 90% 87%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10

 ALGORITMO PROPUESTO
(FairMclus)

 K-PROTOTYPES  KAMILA  TCLUST


5 - Resultados  

~ 180 ~ 
 

En la Tabla 5.7, se puede observar, como ejemplo, la distribución 

realizada sobre 9 clusters y su comparativa con la distribución original del 

conjunto de datos Cars Insurance (Tabla 5.8). 

 
Tabla 5.7: Distribución sobre 9 clusters del atributo protegido Género 

 
Tabla 5.8: Distribución original del atributo protegido Género 

 
Final Clusters Female Male

1 54,50% 45,50% 100%

2 54,50% 45,50% 100%

3 54,50% 45,50% 100%

4 55,40% 44,60% 99%

5 54,50% 45,50% 100%

6 53,40% 46,60% 98%

7 54,90% 45,10% 99%

8 54,70% 45,30% 100%

9 54,70% 45,30% 100%

Observed Distribution per Cluster

Overall total achieved

99,53%

Desired Distribution "GENDER"
(in Dataset) %

Female 54,50%

Male 45,50%


5 - Resultados  

~ 181 ~ 
 

5.5.2. Sector Crediticio 

Utilizamos un conjunto de datos no supervisado "German Credit" obtenido 

del Repositorio de Datos UCI-Machine Learning y usado para demostrar el 

funcionamiento de la metodología expuesta en el Capítulo 4 de la presente Tesis 

Doctoral. 

(https://archive.ics.uci.edu/ml/datasets.php) (Dua & Graff, 2019). 

El conjunto de datos "German Credit FC3" contiene 1000 elementos y se 

han seleccionado únicamente 17 atributos categóricos, relativos a las 

calificaciones crediticias de los clientes, clasificando a las personas descritas por 

un conjunto de atributos como buenos o malos riesgos crediticios. Estos datos 

finalmente se clasifican en 2 clusters diferentes y su atributo protegido “Estado 

Civil” tiene 3 valores diferentes.  

El significado de los atributos es el siguiente (Figura 5.6): 

a. Status of checking account: atributo categórico, representa el estado 

de la cuenta corriente. 

b. Credit history: atributo categórico, representa el historial de créditos 

que tiene el cliente. 

https://archive.ics.uci.edu/ml/datasets.php


5 - Resultados  

~ 182 ~ 
 

c. Purpose: atributo categórico, representa la finalidad a la que se va 

destinar el crédito. 

d. Savings acc.: atributo categórico, representa el rango que tiene en 

cuenta de ahorro el cliente. 

e. Installment rate5: atributo categórico, representa el tiempo que lleva 

en el empleo actual el cliente. 

f. Marital status: atributo categórico, representa el estado civil que tiene 

el cliente actualmente. 

g. Debtors guarantors: atributo categórico, representa si es deudor o 

avalista de otras operaciones. 

h. Present Residence: atributo categórico, representa la residencia 

actual del cliente. 

i. Property: atributo categórico, representa que otros inmuebles tiene el 

cliente. 

j. Others plans: atributo categórico, representa otros planes de pago a 

plazos que tiene el cliente. 

k. Housing: atributo categórico, representa el tipo de vivienda actual del 

cliente, si es de alquiler o cualquier otra. 

l. Nbr. Existing credits: atributo categórico, representa el número de 

créditos existentes con el banco. 


5 - Resultados  

~ 183 ~ 
 

m. Job: atributo categórico, representa la situación de empleo actual que 

tiene el cliente. 

n. Nbr. People to prov. maintenance: atributo categórico, representa el 

número de personas que están obligadas a prestar alimentos. 

o. Telephone: atributo categórico, representa el teléfono. 

p. Foreign worker: atributo categórico, representa si es trabajador 

extranjero el cliente. 

 
Figura 5.6: Atributos de la Base de Datos “German Credit” 


5 - Resultados  

~ 184 ~ 
 

Para probar esta característica, se ha comparado el algoritmo 

FairMclus, así como su metodología implícita y presentada en esta Tesis 

Doctoral, respecto a algunos de los algoritmos más populares que tratan datos 

de tipo categórico, como el algoritmo K-Modes, la combinación de los algoritmos 

Daisy y Pam, y el algoritmo Tclust. 

La Tabla 5.9 y la Figúra 5.7 muestran la equidad de agrupación y su 

comparativa con los algoritmos k-Modes, Daisy y Pam, Tclust, al realizar 

diferentes agrupaciones en los clusters finales, a modo de ejemplo se han 

tomado desde 2 clusters hasta 10 clusters. 

Observamos que en todas las ejecuciones llevadas a cabo y en donde la 

variación es respecto al número de grupos o clusters, el algoritmo FairMclus 

siempre obtiene mejores resultados en la agrupación final, si tenemos en cuenta 

la distribución original que tiene el conjunto de datos, incluso cuando se aumenta 

el número de clusters finales en los que se pretende agrupar el conjunto de datos 

inicial. 


5 - Resultados  

~ 185 ~ 
 

Tabla 5.9: Equidad de clustering del algoritmo FairMclus  

 
Figura 5.7: Equidad de clustering del algoritmo FairMclus 

NUMERO
de

CLÚSTERS

ALGORITMO
PROPUESTO
(FairMclus)

K-MODES DAISY + PAM TCLUST

k=2 100% 98% 75% 96%

k=3 96% 93% 71% 94%

k=4 94% 77% 67% 75%

k=5 95% 71% 77% 88%

k=6 96% 74% 66% 82%

k=7 96% 78% 67% 85%

k=8 97% 65% 67% 82%

k=9 94% 61% 63% 88%

k=10 90% 67% 59% 77%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10

 ALGORITMO PROPUESTO
(FairMclus)

 K-MODES  DAISY + PAM  TCLUST


5 - Resultados  

~ 186 ~ 
 

En la Tabla 5.10, se puede observar, como ejemplo, la distribución 

realizada sobre 8 clusters y su comparativa con la distribución original del 

conjunto de datos German Credit FC3 (Tabla 5.11). 

 
Tabla 5.10: Distribución sobre 9 clusters del atributo protegido Estado Civil 

 
Tabla 5.11: Distribución original del atributo protegido Estado Civil 

 
Final Clusters Divorced Married Single

1 36,40% 9,10% 54,50% 100%

2 36,40% 9,10% 54,50% 100%

3 36,40% 9,10% 54,50% 100%

4 36,40% 9,10% 54,50% 100%

5 35,00% 10,00% 55,00% 99%

6 38,50% 15,40% 46,20% 89%

7 40,00% 14,30% 45,70% 89%

8 35,80% 8,80% 55,40% 99%

Observed Distribution per Cluster

Overall total achieved

96,75%

Desired Distribution "MARITAL STATUS"
(in Dataset) %

Divorced 36,00%

Married 9,20%

Single 54,80%


5 - Resultados  

~ 187 ~ 
 

A partir de los resultados mostrados en la Tabla 5.6 en Bases de datos de 

tipo mixto y en la Tabla 5.9 en Bases de datos de tipo categórico, podemos 

concluir que el algoritmo FairMclus y la metodología que lleva implícita tiene 

un excelente desempeño en términos de Equidad. 

Cuando trabajamos con datos sin supervisar en aplicaciones 

empresariales, en la totalidad de los casos, el atributo protegido o sensible, 

incluido en el connjunto de datos inicial, obtiene la misma distribución original o 

muy próxima a ella, en cada cluster final, independientemente del número de 

grupos o clusters que se pretenda analizar. 

 
5 - Resultados  

~ 188 ~ 
 

6- Software R  

~ 189 ~ 
 

6 

SOFTWARE R 

 
6 – SOFTWARE R 


6- Software R  

~ 190 ~ 
 

6- Software R  

~ 191 ~ 
 

En este capítulo se incluye el software necesario para realizar cualquier 

análisis de clustering en conjuntos de datos de tipo categórico únicamente o bien 

de tipo mixto (numérico y categórico), y que contengan un atributo protegido o 

sensible, para poder llevar a cabo la agrupación equitativa y eficiente, según la 

distribución que tenga dicho atributo en los datos originales. 

Se trata de obtener tantos grupos de elementos como se estime necesario 

sobre el conjunto de datos inicial, y que en cada grupo se mantenga la misma 

distribución que posee el atributo protegido en los datos iniciales o lo más 

próxima posible a dicha distribución. 

El desarrollo del algoritmo que incluye la metodología expuesta en la 

presente Tesis Doctoral, se ha realizado con el software , el cual ha sido 

autorizado y publicado, y se encuentra disponible para toda la comunidad de 

usuarios que quieran usarlo bajo dicha plataforma de software. 

La función del algoritmo FairMclus ejecuta la metodología objeto de la 

presente Tesis Doctoral, y se compone de seis parámetros de entrada y de seis 

parámetros de salida. 

 
6- Software R  

~ 192 ~ 
 

Parámetros de Entrada 

 El comando de llamada de la función FairMclus (versión 2.2.1), se 

compone de seis parámetros de entrada: 

FairMclus (data, typedata, protected, ncores, kclus, numpos) 

(1)   data:   Representa el fichero de datos de entrada, que puede ser 

con datos únicamente de tipo categórico o de tipo mixto, y en donde los 

elementos estarán en filas y los atributos en columnas. 

(2)   typedata: Representa el tipo de datos de entrada, “m” si los datos son 

de tipo mixto, o bien “c” si son de tipo categórico. 

(3)   protected: Representa el nombre de la columna que contiene el atributo 

sensible o protegido, por ejemplo: “género”, “raza” …. otros. 

(4)   ncores: número de procesadores lógicos del ordenador que 

queremos dedicar al proceso paralelo del algoritmo, si se pone 0, se tomara 

por defecto 2 núcleos lógicos. 

(5)   kclus:  Número de clusters para agrupar los datos. 

(6)   numpos: Vector numérico que representan las posiciones que ocupan 

nuestros atributos de tipo numérico real o discreto en nuestra Base de Datos, 

si los datos son de tipo categórico únicamente entonces se pondrá c(0). 

 
6- Software R  

~ 193 ~ 
 

Parámetros de Salida 

(1)   $cluster:  Número de cluster asignado a cada elemento del fichero de 

datos de entrada, dependiendo del número de clusters que se haya 

seleccionado en el parámetro de entrada correspondiente. 

(2)   $fairdis: Distribución que tiene la base de datos original, según el 

atributo protegido que contienen los datos iniciales. 

(3)   $fairatio: Distribución equitativa total alcanzada por el algoritmo en la 

clasificación final realizada de los datos originales. 

(4)   $fairclus: Distribución equitativa total alcanzada por el algoritmo en la 

clasificación final realizada de los datos originales por cada cluster definido, 

y por cada valor del atributo protegido. 

(5)   $clusize: Número de elementos que contiene cada cluster construido. 

(6)   $fairsize: Número de elementos que contiene cada cluster construido 

y por cada valor del atributo protegido 

 
6- Software R  

~ 194 ~ 
 

Ejemplo de ejecución del Algoritmo FairMclus 

(1)   Instalamos el paquete correspondiente al algoritmo FairMclus: 

  
(2)   Cargamos la Librería del algoritmo: 

 
(3)   Conjunto de librerías necesarias del Algoritmo 

 
6- Software R  

~ 195 ~ 
 

(4)   Ejecución del algoritmo para datos de tipo mixto: 

 Tomamos el ejemplo incluido en el comando de ayuda del propio algoritmo 

dentro de R, el cual configura un conjunto de datos con valores en sus atributos 

de forma aleatoria, tanto de tipo categórico como de tipo numérico, y se incluye 

un atributo protegido. 

 
## EJECUCIÓN CON DATOS DE TIPO MIXTO 
# 
## generate data set with 4 columns and 20 rows: 
a <- c(1:20)                                     # name of element 
b <- c(1:5)                                      # categorical attribute 
c <- c(1:2)                                      # protected attribute 
d <- rbind(matrix(rnorm(20, mean=10, sd = 1), ncol = 1))   # numerical value 
# 
# 
dataM <- cbind(a,b,c,d) 
# 
colnames(dataM) <- c("V0", "V1", "gender", "V3") 
# 
# 
## FICHERO DE DATOS GENERADO 
# 
> dataM 
      V0 V1 gender        V3 
 [1,]  1  1      1  9.857207 
 [2,]  2  2      2 10.240603 
 [3,]  3  3      1 10.426926 
 [4,]  4  4      2 10.841425 
 [5,]  5  5      1 10.906296 
 [6,]  6  1      2  8.416753 
 [7,]  7  2      1  9.622248 
 [8,]  8  3      2 10.288196 
 [9,]  9  4      1 10.847620 
[10,] 10  5      2  9.509984 
[11,] 11  1      1 10.118701 
[12,] 12  2      2 10.853467 
[13,] 13  3      1 11.594939 
[14,] 14  4      2 10.360534 
[15,] 15  5      1  9.210204 
[16,] 16  1      2  9.729036 
[17,] 17  2      1 10.751257 
[18,] 18  3      2 11.241220 
[19,] 19  4      1  8.968505 
[20,] 20  5      2 10.453559 
 
 
## run algorithm on mixed-type of data:  
 
FairMclus(dataM, "m", "V2", 0, 2, c(3)) 
 
 
6- Software R  

~ 196 ~ 
 

FairMclus - A Fairness Clustering for categorical and mixed data with protected 
attribute  
 
Dataset has 20 rows and 3 attributes 
2 categorical attributes and 1 numeric attribute 
Will use 2 logical cores of computer, and is going to be clustered in 2 clusters 
Protected attribute -gender- contains 2 different values 
 
 
$cluster 
 [1] 2 1 1 2 2 2 2 1 1 2 2 1 1 1 2 2 1 2 2 2 
 
$fairdis 
 1     2     
 "1"   "2"   
 "50%" "50%" 
 
$fairatio 
[1] "100%" 
 
$fairclus 
    1   2 
1 50% 50% 
2 50% 50% 
 
$clusize 
 
 1  2  
 8 12  
 
$fairsize 
  1 2 
1 4 4 
2 6 6 

(5)   Ejecución del algoritmo para datos de tipo categórico: 

 Tomamos el ejemplo incluido en el comando de ayuda del propio algoritmo 

dentro de R, el cual configura un conjunto de datos con valores en sus atributos 

de forma aleatoria y únicamente de tipo categórico, y se incluye un atributo 

protegido. 

 
## EJECUCIÓN CON DATOS DE TIPO MIXTO 
# 
## generate data set with 4 columns and 20 rows: 
a <- c(1:20)                                     # name of element 

b <- c(1:5)                                      # categorical attribute 

d <- rbind(matrix(rnorm(20, mean=10, sd = 1), ncol = 1))   # numerical value 

e <- c(1:4)                                                # categorical value 

# 
dataC <- cbind(a,b,c,e) 


6- Software R  

~ 197 ~ 
 

# 
colnames(dataC) <- c("V0", "V1", "gender", "V3") 
# 
# 
## FICHERO DE DATOS GENERADO 
# 
> dataC 
      V0 V1 gender V3 
 [1,]  1  1      1  1 
 [2,]  2  2      2  2 
 [3,]  3  3      1  3 
 [4,]  4  4      2  4 
 [5,]  5  5      1  1 
 [6,]  6  1      2  2 
 [7,]  7  2      1  3 
 [8,]  8  3      2  4 
 [9,]  9  4      1  1 
[10,] 10  5      2  2 
[11,] 11  1      1  3 
[12,] 12  2      2  4 
[13,] 13  3      1  1 
[14,] 14  4      2  2 
[15,] 15  5      1  3 
[16,] 16  1      2  4 
[17,] 17  2      1  1 
[18,] 18  3      2  2 
[19,] 19  4      1  3 
[20,] 20  5      2  4 
 
 
## run algorithm on categorical data: 
 
FairMclus(dataC, "c", "gender", 0, 2, c(0)) 
 
FairMclus - A Fairness Clustering for categorical and mixed data with protected 
attribute  
Dataset has 20 rows and 3 attributes 
3 categorical attributes and 0 numeric attributes 
Will use 2 logical cores of computer, and is going to be clustered in 2 clusters 
Protected attribute -gender- contains 2 different values 
 
$cluster 
 [1] 1 1 2 2 2 1 2 2 1 2 2 2 1 1 2 2 1 1 2 2 
$fairdis 
 1     2     
 "1"   "2"   
 "50%" "50%" 
 
$fairatio 
[1] "100%" 
 
$fairclus 
    1   2 
1 50% 50% 
2 50% 50% 
 
$clusize 
 1  2  
 8 12  
 
$fairsize 
  1 2 
1 4 4 
2 6 6 

 
6- Software R  

~ 198 ~ 
 

Contenido en el comando de ayuda ¿FairMclus 

 
6- Software R  

~ 199 ~ 
 

6- Software R  

~ 200 ~ 
 

Conclusiones  

~ 201 ~ 
 

7  

CONCLUSIONES 

 
CONCLUSIONES 

  
Conclusiones  

~ 202 ~ 
 

Conclusiones  

~ 203 ~ 
 

La exhaustiva revisión llevada a cabo sobre el análisis de cluster y sus 

métodos de clasificación, así como la equidad en la clasificación de datos cuando 

se tienen datos protegidos o sensibles, nos ha permitido: 

(1)   Conocer el impacto que tiene la clasificación o clustering de datos, cuando 

estos conjuntos de datos tienen atributos protegidos o sensibles, y los sesgos 

que se producen al pretender agrupar elementos de una forma equitativa por 

distintos departamentos de la empresa.  

(2)   Conocer los métodos existentes para el análisis de clustering, realizar un 

exhaustivo estudio de los mismos, lo que nos ha permitido estudiar las 

diferencias entre ellos, cuando se trata de datos categóricos puros o mixtos, 

y el tratamiento que estos dan sobre los atributos sensibles. 

(3)   Proponer una metodología para la clasificación de datos de tipo categórico 

puro y datos de tipo mixto, que contengan atributos sensibles o protegidos, 

como la raza, el género o el estatus social, para encontrar clusters 

homogéneos y justos. Los clusters deben ser homogéneos, es decir, 

formados por elementos similares, y también deben ser justos, no sesgados 

hacia o contra subgrupos específicos de la población, manteniendo el 

compromiso entre la equidad y la eficiencia, que no suponga una pérdida de 

uno de los dos factores. 


Conclusiones  

~ 204 ~ 
 

(4)   Con respecto al objetivo de Estabilidad, la metodología propuesta en la 

presente Tesis Doctoral, muestra la mejor estabilidad en conseguir los 

mismos grupos con los mismos elementos dentro de cada uno de dichos 

clusters finales en todos los casos, alcanzando una puntuación máxima del 

100% con todas las Bases de Datos utilizadas (Figuras A.1 a A.16).  

(5)   Con respecto al objetivo de Eficiencia de la metodología propuesta en la 

presente Tesis Doctoral, se ha comprobado sobre 16 Bases de datos de 

distintos ámbitos empresariales, realizando la comparación con algoritmos 

populares y conocidos, tanto en el tratamiento de datos de tipo categórico 

puro (K-Modes, Daisy y Pam, Tclust), como en el tratamiento de datos de tipo 

mixto (K-Prototypes, Kamila, Tclust), utilizando cuatro medidas conocidas de 

eficiencia y una medida de equidad basada en la distancia entre la 

distribución final del atributo protegido y su distribución deseada (Tabla 5.2 y 

Tabla 5.3). 

(6)   Con respecto al objetivo de Equidad la metodología propuesta en la 

presente Tesis Doctoral, muestra el mejor rendimiento en todos los casos, 

alcanzando una puntuación máxima del 100% en prácticamente todos ellos 

(Tabla 5.4 y Tabla 5.5), lo que nos permite estar en consonancia con las 

diferentes normativas existentes en Derechos Humanos, sobre la no 

discriminación por razones de genero, sexo, edad, raza, etc. 


Conclusiones  

~ 205 ~ 
 

(7)   La metodología propuesta, se ha aplicado a conjuntos de datos no 

supervisados, siendo uno de ellos un conjunto de seguros no vida, con datos 

de tipo mixto y con el atributo protegido Género, (Tabla 5.6) y otro conjunto 

de datos de créditos, con datos de tipo categórico puro y con el atributo 

protegido Estado Social (Tabla 5.9), para descubrir el agrupamiento de los 

datos más preciso y equitativo según la variación llevada a cabo sobre el 

número de clusters finales que se quiera agrupar, obteniendo en la práctica 

totalidad de las ejecuciones el 100% de equidad (Tabla 5.7 y Tabla 5.10). 

(8)   Se ha desarrollado un paquete de software en lenguaje R (FairMclus), 

para uso de la comunidad científica, que realiza una agrupación eficiente y 

equitativa sobre datos de tipo categórico puro o de tipo mixto, que contengan 

un atributo protegido. 

(9)   La estabilidad, la eficacia de la clasificación y la equidad son las 

principales ventajas de la metodología propuesta en la presente Tesis 

Doctoral. 

(10)   Entre los futuros desarrollos de esta metodología, destacamos su 

aplicación a conjuntos de datos con varios (más de uno) atributos protegidos, 

así como extender la metodología a bases de datos con mayor numero de 

observaciones. 

 
Conclusiones  

~ 206 ~ 
 

Bibliografía  

~ 207 ~ 
 

7 

BIBLIOGRAFÍA 

 
BIBLIOGRAFÍA 

 
Bibliografía  

~ 208 ~ 
 

Bibliografía  

~ 209 ~ 
 

Abasi, A. K., Khader, A. T., Al-Betar, M. A., Naim, S., Makhadmeh, S. N., & Alyasseri, 
Z. A. A. (2021). An improved text feature selection for clustering using binary grey 
wolf optimizer. Lecture Notes in Electrical Engineering, 666, 503–516. 
https://doi.org/10.1007/978-981-15-5281-6_34 

Abraham, S. S., P, D., & Sundaram, S. S. (2020). Fairness in Clustering with Multiple 
Sensitive Attributes. Advances in Database Technology - EDBT, 287–298. 
http://arxiv.org/abs/1910.05113 

Adebayo, J., & Kagal, L. (2016). Iterative Orthogonal Feature Projection for Diagnosing 
Bias in Black-Box Models. https://arxiv.org/abs/1611.04967v1 

Adhikari, S. K., Sing, J. K., Basu, D. K., & Nasipuri, M. (2015). Conditional spatial fuzzy 
C-means clustering algorithm for segmentation of MRI images. Applied Soft 
Computing Journal, 34, 758–769. https://doi.org/10.1016/J.ASOC.2015.05.038 

Agarwal, S., & Upadhyay, S. (2014). A Fast Fraud Detection Approach using Clustering 
Based Method. Journal of Basic and Applied Engineering Research, 1(10), 33–37. 
Krishi Sanskriti Publications http://www.krishisanskriti.org/jbaer.html 

Aggarwal, C.C., & Reddy, C.K. (2014). Data Clustering: Algorithms and Applications 
(1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9781315373515 

Agrawal, R., Gehrke, J., Gunopulos, D., & Raghavan, P. (2005). Automatic Subspace 
Clustering of High Dimensional Data. Min Knowl. Disc. 11, 5–33. 
https://doi.org/10.1007/S10618-005-1396-1 

Agresti, A. (2019). An Introduction to Categorical Data Analysis (Third Edition; Wiley, 
ed.). Wiley Series in Probability and Statistics. 

Ahmad, A., & Dey, L. (2007a). A k-mean clustering algorithm for mixed numeric and 
categorical data. Data & Knowledge Engineering, 63(2), 503–527. 
https://doi.org/10.1016/j.datak.2007.03.016 

Ahmad, A., & Dey, L. (2007b). A method to compute distance between two categorical 
values of same attribute in unsupervised learning for categorical data set. Pattern 
Recognition Letters, 28(1), 110–118. https://doi.org/10.1016/j.patrec.2006.06.006 

Ahmad, A., & Hashmi, S. (2016). K-Harmonic means type clustering algorithm for 
mixed datasets. Applied Soft Computing Journal, 48, 39–49. 
https://doi.org/10.1016/J.ASOC.2016.06.019 

Ahmad, A., & Khan, S. S. (2019). Survey of State-of-the-Art Mixed Data Clustering 
Algorithms. IEEE Access, 7, 31883–31902. 
https://doi.org/10.1109/ACCESS.2019.2903568 

Ahmad, A., & Khan, S. S. (2021). initKmix-A novel initial partition generation algorithm 
for clustering mixed data using k-means-based clustering. Expert Systems with 
Applications, 167. https://doi.org/10.1016/J.ESWA.2020.114149 

https://doi.org/10.1007/978-981-15-5281-6_34
http://arxiv.org/abs/1910.05113
https://arxiv.org/abs/1611.04967v1
https://doi.org/10.1016/J.ASOC.2015.05.038
http://www.krishisanskriti.org/jbaer.html
https://doi.org/10.1201/9781315373515
https://doi.org/10.1007/S10618-005-1396-1
https://doi.org/10.1016/j.datak.2007.03.016
https://doi.org/10.1016/j.patrec.2006.06.006
https://doi.org/10.1016/J.ASOC.2016.06.019
https://doi.org/10.1109/ACCESS.2019.2903568
https://doi.org/10.1016/J.ESWA.2020.114149


Bibliografía  

~ 210 ~ 
 

Alamuri, M., Surampudi, B. R., & Negi, A. (2014). A survey of distance/similarity 
measures for categorical data. Proceedings of the International Joint Conference 
on Neural Networks, 1907–1914. https://doi.org/10.1109/IJCNN.2014.6889941 

Aldenderfer, M., & Blashfield, R. (1984). Cluster Analysis. SAGE Publications 
https://doi.org/10.4135/9781412983648 

Almeida, B. F., Correia, I., & Saldanha-da-Gama, F. (2018). A biased random-key 
genetic algorithm for the project scheduling problem with flexible resources. TOP 
26, 283–308. https://doi.org/10.1007/S11750-018-0472-9 

Altaf, S., Waseem, M., & Kazmi, L. (2020). IDCUP Algorithm to Classifying Arbitrary 
Shapes and Densities for Center-based Clustering Performance Analysis. 
Interdisciplinary Journal of Information, Knowledge, and Management, 15, 091–
108. https://doi.org/10.28945/4541 

Altman, D. G. (1980). Statistics and ethics in medical research. Misuse of statistics is 
unethical. British Medical Journal, 281(6249), 1182–1184. 
https://doi.org/10.1136/bmj.281.6249.1182 

Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016). Machine Bias. ProPublica 
website: https://www.propublica.org/article/machine-bias-risk-assessments-in-
criminal-sentencing 

Arthur, D., & Vassilvitskii, S. (2007). K-Means++: The Advantages of Careful Seeding. 
SODA '07: Proceedings of the eighteenth annual ACM-SIAM symposium on 
Discrete algorithms, Society for Industrial and Applied Mathematics, USA, 1027-
1035. https://dl.acm.org/doi/10.5555/1283383.1283494 

Avati, A., Jung, K., Harman, S., Downing, L., Ng, A., & Shah, N. H. (2017). Improving 
Palliative Care with Deep Learning. Proceedings - 2017 IEEE International 
Conference on Bioinformatics and Biomedicine, page 311–316. 
https://arxiv.org/abs/1711.06402v1 

Ávila Camacho, J. (2021). Clustering Jerárquico. JacobSoft website: 
https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/ 

Baçak Aydemir, F., Giorgini, P., & Mylopoulos, J. (2016). Multi-objective risk analysis 
with goal models. IEEE Tenth International Conference on Research Challenges 
in Information Science (RCIS), 1–10. https://doi.org/10.1109/RCIS.2016.7549302  

Backurs, A., Indyk, P., Onak, K., Schieber, B., Vakilian, A. H., & Wagner, T. (2019). 
Scalable Fair Clustering. 36th International Conference on Machine Learning, 
623–634. https://arxiv.org/abs/1902.03519v2 

Bagirov, A., Karmitsa, N., & Taheri, S. (2020). Introduction to Clustering. Partitional 
Clustering via Nonsmooth Optimization. In Unsupervised and Semi-Supervised 
Learning. Springer, Cham. https://doi.org/10.1007/978-3-030-37826-4 

Bai, L., Liang, J., Dang, C., & Cao, F. (2012). A cluster centers initialization method for 
clustering categorical data. Expert Systems with Applications, 39(9), 8022–8029. 
https://doi.org/10.1016/j.eswa.2012.01.131 

https://doi.org/10.1109/IJCNN.2014.6889941
https://doi.org/10.4135/9781412983648
https://doi.org/10.1007/S11750-018-0472-9
https://doi.org/10.28945/4541
https://doi.org/10.1136/bmj.281.6249.1182
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
https://dl.acm.org/doi/10.5555/1283383.1283494
https://arxiv.org/abs/1711.06402v1
https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/
https://doi.org/10.1109/RCIS.2016.7549302
https://arxiv.org/abs/1902.03519v2
https://doi.org/10.1007/978-3-030-37826-4
https://doi.org/10.1016/j.eswa.2012.01.131


Bibliografía  

~ 211 ~ 
 

Bailey, K. D. (1975). Cluster Analysis. Sociological Methodology, 6, 59. 
https://doi.org/10.2307/270894 

Baker, R. S., & Hawn, A. (2021). Algorithmic Bias in Education. Manuscript under 
Review, 36. https://edarxiv.org/pbmvz/ 

Bandyopadhyay, A., Datta, K., Zhang, J., Yang, W., Raychaudhuri, S., Miyao, M., & 
Datta, S. K. (2007). Enhanced photosynthesis rate in genetically engineered 
indica rice expressing pepc gene cloned from maize. Plant Science, 172(6), 1204–
1209. https://doi.org/10.1016/j.plantsci.2007.02.016. 

Banfield, J. D., & Raftery, A. E. (1993). Model-based Gaussian and non-Gaussian 
clustering. Biometrics, 49, 803–821. https://doi.org/10.2307/2532201 

Barbará, D., Li, Y., & Couto, J. (2002). COOLCAT: an entropy-based algorithm for 
categorical clustering. Proceedings of the Eleventh International Conference on 
Information and Knowledge Management - CIKM ’02, 582–589. 
https://doi.org/10.1145/584792.584888 

Barocas, S., & Selbst, A. D. (2016). Big Data’s Disparate Impact. SSRN Electronic 
Journal, 104(3), 671–732. https://doi.org/10.2139/ssrn.2477899 

Behzadi, S., Müller, N. S., Plant, C., & Böhm, C. (2020). Clustering of mixed-type data 
considering concept hierarchies: problem specification and algorithm. International 
Journal of Data Science and Analytics, 10(3), 233–248. 
https://doi.org/10.1007/s41060-020-00216-2 

Benitez-Eyzaguirre, L. (2020). La invisible perspectiva de género en la transparencia. 
Transparencia y participación para un gobierno abierto (Cap 16), 345–358. 
Wolters Kluwer. http://hdl.handle.net/10498/22456  

Bensaude-Vincent, B. (1986). Mendeleev’s Periodic System of Chemical Elements. 
The British Journal for the History of Science, 19, 3–17. 
https://www.jstor.org/stable/4026481 

Bera, S. K., Chakrabarty, D., Flores, N. J., & Negahbani, M. (2019). Fair Algorithms for 
Clustering. http://arxiv.org/abs/1901.02393 

Berk, R., Heidari, H., Jabbari, S., Kearns, M., & Roth, A. (2017). Fairness in Criminal 
Justice Risk Assessments: The State of the Art. Sociological Methods and 
Research, 50(1), 3–44. https://arxiv.org/abs/1703.09207v2 

Bezdek, J.C. (1981) Pattern Recognition with Fuzzy Objective Function Algorithms. 
Plenum, New York. http://dx.doi.org/10.1007/978-1-4757-0450-1 

Bezdek, J.C. (2011). Fuzzy C-means cluster analysis. Scholarpedia, 6(7), 2057. 
https://doi.org/10.4249/scholarpedia.2057 

Bhattacharyya, A. (1943) On a Measure of Divergence between Two Statistical 
Populations Defined by Their Probability Distributions. Bulletin of the Calcutta 
Mathematical Society, 35, 99-109. 

https://doi.org/10.2307/270894
https://edarxiv.org/pbmvz/
https://doi.org/10.1016/j.plantsci.2007.02.016
https://doi.org/10.2307/2532201
https://doi.org/10.1145/584792.584888
https://doi.org/10.2139/ssrn.2477899
https://doi.org/10.1007/s41060-020-00216-2
http://hdl.handle.net/10498/22456
https://www.jstor.org/stable/4026481
http://arxiv.org/abs/1901.02393
https://arxiv.org/abs/1703.09207v2
http://dx.doi.org/10.1007/978-1-4757-0450-1
https://doi.org/10.4249/scholarpedia.2057


Bibliografía  

~ 212 ~ 
 

Bigu, D., & Cernea, M-V. (2019). Algorithmic Bias in Current Hiring Practices: An 
Ethical Examination. Proceedings of the International Management Conf., Faculty 
of Management, Academy of Economic Studies, Bucharest, Romania, 13(1), 
1068-1073. https://ideas.repec.org/a/rom/mancon/v13y2019i1p1068-1073.html 

Binns, R. (2017). Fairness in Machine Learning: Lessons from Political Philosophy. 
Conference on Fairness, Accountability, and. Transparency, New York, 
Forthcoming. Proceedings of Machine Learning Research, 81, 1–11. 
https://arxiv.org/abs/1712.03586v3 

Bishnoi, S., & Hooda, B. (2020). A survey of distance measures for mixed variables. 
International Journal of Chemical Studies, 8(4), 338–343. 
https://doi.org/10.22271/CHEMI.2020.V8.I4F.10087 

Biswas, G., Weinberg, J. B., & Fisher, D. H. (1998). Iterate: A conceptual clustering 
algorithm for data mining. IEEE Transactions on Systems, Man and Cybernetics 
Part C: Applications and Reviews, 28(2), 219–230. 
https://doi.org/10.1109/5326.669556 

BOE. (2007). Ley Orgánica 3/2007, de 22 de marzo, para la igualdad efectiva de 
mujeres y hombres. https://www.boe.es/buscar/doc.php?id=BOE-A-2007-6115 

Bohanec, M., & Rajkovic, V. (1988). Knowledge Acquisition and Explanation for Multi-
Attribute Decision. 8 Th International Workshop “Expert Systems and Their 
Applications", 1, 59–78. 
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.142.2542 

Boriah, S., Chandola, V., & Kumar, V. (2008). Similarity measures for categorical data: 
A comparative evaluation. Society for Industrial and Applied Mathematics - 8th 
SIAM International Conference on Data Mining 2008, Proceedings in Applied 
Mathematics 130, 1, 243–254. https://doi.org/10.1137/1.9781611972788.22 

Bouveyron, C., Celeux, G., Murphy, T. B., & Raftery, A. E. (2019). Model-based 
clustering and classification for data science: With applications in R. Model-Based 
Clustering and Classification for Data Science: With Applications in R, 1–427. 
https://doi.org/10.1017/9781108644181 

Box, G. E. P., Hunter, S., & Hunter, W. G. (2005). Statistics for Experimenters: Design, 
Innovation, and Discovery (2nd edition). John Wiley & Sons, Inc. Hoboken, New 
Jersey 

Branke, J., Deb, K., Miettinen, K., & Słowiński, R. (2008). Multiobjective Optimization. 
Lecture Notes in Computer Science, vol 5252. Springer, Berlin, Heidelberg. 
https://doi.org/10.1007/978-3-540-88908-3_15  

Bray, J. R., & Curtis, J. T. (1957). An Ordination of the Upland Forest Communities of 
Southern Wisconsin. Ecological Monographs, 27(4), 325–349. 
https://doi.org/10.2307/1942268 

Brodinova, Š., Filzmoser, P., Ortner, T., Breiteneder, C., & Rohm, M. (2019). Robust 
and sparse k-means clustering for high-dimensional data. Advances in Data 
Analysis and Classification, 13(4), 905–932. https://doi.org/10.1007/s11634-019-
00356-9 

https://ideas.repec.org/a/rom/mancon/v13y2019i1p1068-1073.html
https://arxiv.org/abs/1712.03586v3
https://doi.org/10.22271/CHEMI.2020.V8.I4F.10087
https://doi.org/10.1109/5326.669556
https://www.boe.es/buscar/doc.php?id=BOE-A-2007-6115
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.142.2542
https://doi.org/10.1137/1.9781611972788.22
https://doi.org/10.1017/9781108644181
https://doi.org/10.1007/978-3-540-88908-3_15
https://doi.org/10.2307/1942268
https://doi.org/10.1007/s11634-019-00356-9
https://doi.org/10.1007/s11634-019-00356-9


Bibliografía  

~ 213 ~ 
 

Calders, T., Kamiran, F., & Pechenizkiy, M. (2009). Building Classifiers with 
Independency Constraints. ICDM Workshops 2009 - IEEE International 
Conference on Data Mining, 13–18. https://doi.org/10.1109/ICDMW.2009.83 

Calders, T., & Verwer, S. (2010). Three naive Bayes approaches for discrimination-free 
classification. Data Mining and Knowledge Discovery, 21(2), 277–292. 
https://doi.org/10.1007/S10618-010-0190-X 

Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically 
from language corpora contain human-like biases. Science, 356(6334), 183–186. 
https://doi.org/10.1126/science.aal4230 

Cao, Q., Bouqata, B., Mackenzie, P. D., Messier, D., & Salvo, J. J. (2009). A grid-
based clustering method for mining frequent trips from large-scale, event-based 
telematics datasets. 2009 IEEE International Conference on Systems, Man and 
Cybernetics, 2996–3001. https://doi.org/10.1109/ICSMC.2009.5345924 

Cargill, T. F., Berenson, M. L., & Levine, D. M. (1980). Basic Business Statistics: 
Concepts and Application. Journal of the American Statistical Association, 
75(372), 1037. https://doi.org/10.2307/2287209 

Celis, L. E., Deshpande, A., Kathuria, T., & Vishnoi, N. K. (2016). How to be Fair and 
Diverse? https://arxiv.org/abs/1610.07183v1 

Celis, L. E., Straszak, D., & Vishnoi, N. K. (2018). Ranking with Fairness Constraints. 
http://arxiv.org/abs/1704.06840 

Cha, S.-H., Tappert, C., & Yoon, S. (2006). Enhancing Binary Feature Vector Similarity 
Measures. Journal of Pattern Recognition Research, 1(1), 63–77. 
https://doi.org/10.13176/11.20 

Cha, S.H. (2007). Comprehensive Survey on Distance Similarity Measures between 
Probability Density Functions. International Journal of Mathematical Models and 
Methods in Applied Sciences, 1(4), 300-307.  

Chakrapani, C. (2004). Statistics in market research. London. Hodder Arnold. 

Chatzis, S.P. (2011). A fuzzy c-means-type algorithm for clustering of data with mixed 
numeric and categorical attributes employing a probabilistic dissimilarity 
functional. Expert Systems with Applications, 38(7), 8684–8689. 
https://doi.org/10.1016/J.ESWA.2011.01.074 

Chaudhury, S. (2020). Different Types of Distances Used in Machine Learning, 
https://medium.com/swlh/different-types-of-distances-used-in-machine-learning-
ec7087616442 

Chen, J.Y., & He, H. H. (2016). A fast density-based data stream clustering algorithm 
with cluster centers self-determined for mixed data. Information Sciences, 345, 
271–293. https://doi.org/10.1016/J.INS.2016.01.071 

https://doi.org/10.1109/ICDMW.2009.83
https://doi.org/10.1007/S10618-010-0190-X
https://doi.org/10.1126/science.aal4230
https://doi.org/10.1109/ICSMC.2009.5345924
https://doi.org/10.2307/2287209
https://arxiv.org/abs/1610.07183v1
http://arxiv.org/abs/1704.06840
https://doi.org/10.13176/11.20
https://doi.org/10.1016/J.ESWA.2011.01.074
https://medium.com/swlh/different-types-of-distances-used-in-machine-learning-ec7087616442
https://medium.com/swlh/different-types-of-distances-used-in-machine-learning-ec7087616442
https://doi.org/10.1016/J.INS.2016.01.071


Bibliografía  

~ 214 ~ 
 

Chen, X., Fain, B., Lyu, L., & Munagala, K. (2019). Proportionally Fair Clustering. 36th 
International Conference on Machine Learning, ICML 2019, 2019-June, 1782–
1791. https://arxiv.org/abs/1905.03674v3 

Cheng, C.H., Fu, A. W., & Zhang, Y. (1999). Entropy-based subspace clustering for 
mining numerical data. 84–93. https://doi.org/10.1145/312129.312199 

Cherif, W. (2018). Optimization of K-NN algorithm by clustering and reliability 
coefficients: Application to breast-cancer diagnosis. Procedia Computer Science, 
127, 293–299. https://doi.org/10.1016/j.procs.2018.01.125 

Chierichetti, F., Kumar, R., Lattanzi, S., & Vassilvitskii, S. (2017). Fair Clustering 
Through Fairlets. In Proceedings of the 31st International Conference on Neural 
Information Processing Systems (NIPS'17). Curran Associates Inc., Red Hook, 
NY, USA, 5036–5044. http://arxiv.org/abs/1802.05733 

Chiu, T., Fang, D., Chen, J., Wang, Y., & Jeris, C. (2001). A robust and scalable 
clustering algorithm for mixed type attributes in large database environment. 
Proceedings of the Seventh ACM SIGKDD International Conference on 
Knowledge Discovery and Data Mining - KDD ’01, 263–268. 
https://doi.org/10.1145/502512.502549 

Choi, S.S. (Seung). (2008). Correlation analysis of binary similarity and dissimilarity 
measures. ETD Collection for Pace University. AAI3336169. 
https://digitalcommons.pace.edu/dissertations/AAI3336169 

Choi, S., Cha, S. & Tappert C. (2010). A survey of Binary similarity and distance 
measures. Journal of Systems, Cybernetics and Informatics, (8), 43--48. 
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.352.6123 

Chouldechova, A., & Roth, A. (2018). The Frontiers of Fairness in Machine Learning. 
https://arxiv.org/abs/1810.08810v1 

Cirillo, D., Catuara-Solarz, S., Morey, C., Guney, E., Subirats, L., Mellino, S., … 
Mavridis, N. (2020). Sex and gender differences and biases in artificial intelligence 
for biomedicine and healthcare. Npj Digital Medicine, 3, 1–11. 
https://doi.org/10.1038/s41746-020-0288-5 

Clements, F. E., Schenk, S. M., & Brown, T. K. (1926). A new objective method for 
showing special relationships. American Anthropologist, 28(4), 585–604. 
https://doi.org/10.1525/aa.1926.28.4.02a00010 

Coello, C. a C., Lamont, G. B., & Veldhuizen, D. a Van. (2007). Evolutionary Algorithms 
for Solving Multi-Objective Problems. (2nd Edition). Springer. 
https://doi.org/10.1007/978-0-387-36797-2 

Constitución Española. (1978). Constitución Española. 
https://app.congreso.es/consti/constitucion/indice/index.htm 

 
https://arxiv.org/abs/1905.03674v3
https://doi.org/10.1145/312129.312199
https://doi.org/10.1016/j.procs.2018.01.125
http://arxiv.org/abs/1802.05733
https://doi.org/10.1145/502512.502549
https://digitalcommons.pace.edu/dissertations/AAI3336169
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.352.6123
https://arxiv.org/abs/1810.08810v1
https://doi.org/10.1038/s41746-020-0288-5
https://doi.org/10.1525/aa.1926.28.4.02a00010
https://doi.org/10.1007/978-0-387-36797-2
https://app.congreso.es/consti/constitucion/indice/index.htm


Bibliografía  

~ 215 ~ 
 

Corbett-Davies, S., Pierson, E., Feller, A., Goel, S., & Huq, A. (2017). Algorithmic 
decision making and the cost of fairness. Proceedings of the ACM SIGKDD 
International Conference on Knowledge Discovery and Data Mining, Part F1296, 
797–806. https://doi.org/10.1145/3097983.309809 

Corbett-Davies, S., & Goel, S. (2018). The Measure and Mismeasure of Fairness: A 
Critical Review of Fair Machine Learning. https://arxiv.org/abs/1808.00023v2 

Correll, S. J., & Benard, S. (2006). Gender and racial bias in hiring. Memorandum 
report for University of Pennsylvania. https://interviewer.ai/explainable-ai/  

Courtland, R. (2018). Bias detectives: The researchers striving to make algorithms fair 
news-feature. Nature, 558(7710), 357–360. https://doi.org/10.1038/D41586-018-
05469-3 

Cowgill, B., & Tucker, C. E. (2020). Algorithmic Fairness and Economics. SSRN 
Electronic Journal. https://doi.org/10.2139/SSRN.3361280 

Craw, S. (2011). Manhattan Distance. Encyclopedia of Machine Learning, 639–639. 
https://doi.org/10.1007/978-0-387-30164-8_506 

Cuadras, C. M. (1989). Distancias Estadísticas. Estadística española, 30(119), 295–
378. https://studylib.es/doc/5514841/distancias-estadísticas---instituto-nacional-
de-estadistica. 

Cui, Y., Geng, Z., Zhu, Q., & Han, Y. (2017). Review: Multi-objective optimization 
methods and application in energy saving. Energy, Elsevier, 125(C), 681-704. 
https://ideas.repec.org/a/eee/energy/v125y2017icp681-704.html 

Deb K. (2012). Advances in Evolutionary Multi-objective Optimization. In: Fraser G., 
Teixeira de Souza J. (eds) Search Based Software Engineering.Lecture Notes in 
Computer Science, vol 7515, 1-26. Springer, Berlin, Heidelberg.  
https://doi.org/10.1007/978-3-642-33119-0_1 

Delgado, R. (2018). Introducción a la Redes Neuronales Artificiales en R. RPubs by 
Rstudio. https://rpubs.com/rdelgado/402754 

Demey, J. R., Pla, L., Vicente-Villardón, J. L., Di Rienzo, J., & Casanoves, F. (2011). 
Medidas de distancia y similitud. (Capítulo 5). Valoración y análisis de la 
diversidad funcional y su relación con los servicios ecosistémicos, 384, 47–59. 
Turrialba: CATIE. Costa Rica. 

Department of Justice USA. (1964). Title VI Of The Civil Rights Act Of 1964. 
https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos-
civiles-de-1964-title-vi-civil-rights-act 

DeSarbo, W. S., Carroll, J. D., Clark, L. A., & Green, P. E. (1984). Synthesized 
clustering: A method for amalgamating alternative clustering bases with differential 
weighting of variables. Psychometrika, 49(1), 57–78. 
https://doi.org/10.1007/BF02294206 

https://doi.org/10.1145/3097983.309809
https://arxiv.org/abs/1808.00023v2
https://interviewer.ai/explainable-ai/
https://doi.org/10.1038/D41586-018-05469-3
https://doi.org/10.1038/D41586-018-05469-3
https://doi.org/10.2139/SSRN.3361280
https://doi.org/10.1007/978-0-387-30164-8_506
https://studylib.es/doc/5514841/distancias-estad%C3%ADsticas---instituto-nacional-de-estadistica
https://studylib.es/doc/5514841/distancias-estad%C3%ADsticas---instituto-nacional-de-estadistica
https://ideas.repec.org/a/eee/energy/v125y2017icp681-704.html
https://doi.org/10.1007/978-3-642-33119-0_1
https://rpubs.com/rdelgado/402754
https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos-civiles-de-1964-title-vi-civil-rights-act
https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos-civiles-de-1964-title-vi-civil-rights-act
https://doi.org/10.1007/BF02294206


Bibliografía  

~ 216 ~ 
 

De Soete, G. (1986). Optimal variable weighting for ultrametric and additive tree 
clustering. Quality and Quantity 1986 20:2, 20(2), 169–180. 
https://doi.org/10.1007/BF00227423 

Dice, L.R. (1945) Measures of the Amount of Ecologic Association between Species. 
Ecological Society of America. Ecology, 26(3), 297-302. 
https://doi.org/10.2307/1932409  

Dinh, D.T., & Huynh, V.N. (2020). k-PbC: an improved cluster center initialization for 
categorical data clustering. Applied Intelligence, 50(8), 2610–2632. 
https://doi.org/10.1007/s10489-020-01677-5 

Dogan, N., & Dogan, I. (2010). Determination of the number of bins/classes used in 
histograms and frequency tables: a short bibliography. TurkStat, Journal of 
Statistical Research, 7(2), 77–86.  

Dom, B.E. (2012). An Information-Theoretic External Cluster-Validity Measure. 
http://arxiv.org/abs/1301.0565 

Domnich, A., & Anbarjafari, G. (2021). Responsible AI: Gender bias assessment in 
emotion recognition. https://arxiv.org/abs/2103.11436v1 

Dorman, K.S., & Maitra, R. (2020). An Efficient k-modes Algorithm for Clustering 
Categorical Datasets. http://arxiv.org/abs/2006.03936 

Dressel, J., & Farid, H. (2018). The accuracy, fairness, and limits of predicting 
recidivism. Science Advances, 4(1), eaao5580. 
https://doi.org/10.1126/SCIADV.AAO5580 

Driver, H.E., & Kroeber, A. L. (1932). Quantitative expression of cultural relationships. 
University of California Press. Publications in American Archaeology and 
Ethnology 31(4), 211-256. 

Dua, D., & Graff, C. (2019). UCI Machine Learning Repository. 
https://archive.ics.uci.edu/ml/citation_policy.html 

Duda, O., Hart, E., & Stork, D. G. (1973). Pattern Classification and scene analysis. 
New York: Wiley. 

Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. (2011). Fairness Through 
Awareness. Innovations in Theoretical Computer Science Conference, 214–226. 
https://arxiv.org/abs/1104.3913v2 

Ehrgott, M., Figueira, J., & Greco, S. (2005). Multiple Criteria Decision Analysis. State 
of the Art Surveys. New York. Springer (78) https://doi.org/10.1007/b100605 

El País. (2021). Algoritmos de predicción policial: para qué se usan y por qué se 
ensañan con los más pobres. Retrieved 27 July 2021, from Tecnología - 
Todonoticia: https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion-
policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/ 

https://doi.org/10.1007/BF00227423
https://doi.org/10.2307/1932409
https://doi.org/10.1007/s10489-020-01677-5
http://arxiv.org/abs/1301.0565
https://arxiv.org/abs/2103.11436v1
http://arxiv.org/abs/2006.03936
https://doi.org/10.1126/SCIADV.AAO5580
https://archive.ics.uci.edu/ml/citation_policy.html
https://arxiv.org/abs/1104.3913v2
https://doi.org/10.1007/b100605
https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion-policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/
https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion-policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/


Bibliografía  

~ 217 ~ 
 

Emmerich, M.T. M., & Deutz, A. H. (2018). A tutorial on multiobjective optimization: 
fundamentals and evolutionary methods. Natural Computing, 17(3), 585–609. 
https://doi.org/10.1007/s11047-018-9685-y 

Esmaeili, S.A., Brubach, B., Tsepenekas, L., & Dickerson, J. P. (2020). Probabilistic 
Fair Clustering. http://arxiv.org/abs/2006.10916 

Ester, M., Kriegel, H.P., Sander, S., & Xu, X. (1996). A density-based algorithm for 
discovering clusters in large spatial databases with noise. Proceedings of the 2nd 
International Conference on Knowledge Discovery and Data Miining (KDD-96), 
226–231. 

Estivill-Castro, V., & Yang, J. (2004). Fast and robust general purpose clustering 
algorithms. Data Mining and Knowledge Discovery, 8(2), 127–150. 
https://doi.org/10.1023/B:DAMI.0000015869.08323.B3 

European Union Agency. (2000). Artículo 21 - No discriminación | European Union 
Agency for Fundamental Rights. https://fra.europa.eu/es/eu-charter/article/21-no-
discriminacion 

Everitt, B.S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis. In Wiley 
series in probability and statistics. (5th Edition). John Wiley & Sons. 
https://doi.org/10.1002/9780470977811 

Feldman, M., Friedler, S. A., Moeller, J., Scheidegger, C., & Venkatasubramanian, S. 
(2015). Certifying and removing disparate impact. Proceedings of the ACM 
SIGKDD International Conference on Knowledge Discovery and Data Mining, 
2015-Augus, 259–268. https://doi.org/10.1145/2783258.2783311 

Ferrero, R. (2020). Qué son los árboles de decisión y para qué sirven. Maxima 
Formación. https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-
decision-y-para-que-sirven/ 

Filiberto, Y., Bello, R., Nowe, A., Filiberto, Y., Bello, R., & Nowe, A. (2018). A New 
Method For Personnel Selection Based On Ranking Aggregation Using A 
Reinforcement Learning Approach. Computación y Sistemas, 22(2), 537–546. 
https://doi.org/10.13053/CYS-22-2-2353 

Fisher, D.H. (1987). Knowledge acquisition via incremental conceptual clustering. 
Machine Learning 1987 2:2, 2(2), 139–172. https://doi.org/10.1007/BF00114265 

Fleiss, J.L., Cohen, J., & Everitt, B. S. (1969). Large sample standard errors of kappa 
and weighted kappa. Psychological Bulletin, 72(5), 323–327. 
https://doi.org/10.1037/h0028106 

Fleiss, J.L. (1971). Measuring nominal scale agreement among many raters. 
Psychological Bulletin, 76(5), 378–382. https://doi.org/10.1037/h0031619 

Fleiss, J.L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and 
Proportions. In Statistical Methods for Rates and Proportions. 
https://doi.org/10.1002/0471445428 

https://doi.org/10.1007/s11047-018-9685-y
http://arxiv.org/abs/2006.10916
https://doi.org/10.1023/B:DAMI.0000015869.08323.B3
https://fra.europa.eu/es/eu-charter/article/21-no-discriminacion
https://fra.europa.eu/es/eu-charter/article/21-no-discriminacion
https://doi.org/10.1002/9780470977811
https://doi.org/10.1145/2783258.2783311
https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-sirven/
https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-sirven/
https://doi.org/10.13053/CYS-22-2-2353
https://doi.org/10.1007/BF00114265
https://doi.org/10.1037/h0028106
https://doi.org/10.1037/h0031619
https://doi.org/10.1002/0471445428


Bibliografía  

~ 218 ~ 
 

Forgy, E.W. (1965). Cluster Analysis of multivariate data: Efficiency vs Interpretability 
of classification. Biometrics, 21, 768–780. 

Foss, A., Markatou, M., Ray, B., & Heching, A. (2016). A semiparametric method for 
clustering mixed data. Machine Learning, 105(3), 419–458. 
https://doi.org/10.1007/s10994-016-5575-7 

Foss, A. & Markatou, M. (2018). Kamila : Clustering Mixed-Type Data in R and 
Hadoop. Journal of Statistical Software. 83. https://doi.org/10.18637/jss.v083.i13 

Foss, A.H., Markatou, M., & Ray, B. (2019). Distance Metrics and Clustering Methods 
for Mixed‐type Data. International Statistical Review, 87(1), 80–109. 
https://doi.org/10.1111/insr.12274 

Fowlkes, E B., & Mallows, C. L. (1983). A Method for Comparing Two Hierarchical 
Clusterings. Journal of the American Statistical Association, 78(383), 553. 
https://doi.org/10.2307/2288117 

Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? 
Answers Via Model-Based Cluster Analysis. The Computer Journal, 41(8), 578–
588. https://doi.org/10.1093/comjnl/41.8.578 

Freedman, D., & Diaconis, P. (1981). On the histogram as a density estimator: L2 
theory. Zeitschrift Für Wahrscheinlichkeitstheorie Und Verwandte Gebiete, 57(4), 
453–476. https://doi.org/10.1007/BF01025868 

Friedler, S. A., Scheidegger, C., Venkatasubramanian, S., Choudhary, S., Hamilton, E. 
P., & Roth, D. (2018). A comparative study of fairness-enhancing interventions in 
machine learning. FAT* 2019 - Proceedings of the 2019 Conference on Fairness, 
Accountability, and Transparency, 329–338. https://arxiv.org/abs/1802.04422v1 

Frigui, H., & Krishnapuram, R. (1999). A robust competitive clustering algorithm with 
applications in computer vision. IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 21(5), 450–465. https://doi.org/10.1109/34.765656 

Fritz, H., García-Escudero, L. A., & Mayo-Iscar, A. (2012). Tclust: An R Package for a 
Trimming Approach to Cluster Analysis. Journal of Statistical Software, 47(12), 1–
26. https://doi.org/10.18637/JSS.V047.I12 

Gallego, A.J., Calvo-Zaragoza, J., Valero-Mas, J. J., & Rico-Juan, J. R. (2018). 
Clustering-based k-nearest neighbor classification for large-scale data with neural 
codes representation. Pattern Recognition, 74, 531–543. 
https://doi.org/10.1016/j.patcog.2017.09.038 

Gan, G., Yang, Z., & Wu, J. (2005). A Genetic k-Modes Algorithm for Clustering 
Categorical Data. In Lecture Notes in Computer Science (including subseries 
Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics): Vol. 
3584 LNAI, 195–202. https://doi.org/10.1007/11527503_23 

 
https://doi.org/10.1007/s10994-016-5575-7
https://doi.org/10.18637/jss.v083.i13
https://doi.org/10.1111/insr.12274
https://doi.org/10.2307/2288117
https://doi.org/10.1093/comjnl/41.8.578
https://doi.org/10.1007/BF01025868
https://arxiv.org/abs/1802.04422v1
https://doi.org/10.1109/34.765656
https://doi.org/10.18637/JSS.V047.I12
https://doi.org/10.1016/j.patcog.2017.09.038
https://doi.org/10.1007/11527503_23


Bibliografía  

~ 219 ~ 
 

Garfinkel, P. (2016). A Linguist Who Cracks the Code in Names to Predict Ethnicity. 
Retrieved 27 July 2021, from The New York Times website, 
https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in-
names-to-predict-ethnicity.html 

Ghadiri, M., Samadi, S., & Vempala, S. (2020). Socially Fair k-Means Clustering. 
FAccT 2021 - Proceedings of the 2021 ACM Conference on Fairness, 
Accountability, and Transparency, 438–448. 
https://doi.org/10.1145/3442188.3445906 

Giacoumidis, E., Matin, A., Wei, J., Doran, N. J., Barry, L. P., & Wang, X. (2018). Blind 
Nonlinearity Equalization by Machine-Learning-Based Clustering for Single- and 
Multichannel Coherent Optical OFDM. Journal of Lightwave Technology, 36(3), 
721–727. https://doi.org/10.1109/JLT.2017.2778883 

Gibbons, J.D. (1973). A Question of Ethics. In Source: The American Statistician, 
27(2), 72-76. Taylor & Francis, Ltd. https://doi.org/10.2307/2683960 

Gillis, T., & Spiess, J. (2019). Big Data and Discrimination. University of Chicago Law 
Review, 86(2). https://chicagounbound.uchicago.edu/uclrev/vol86/iss2/4 

Goldin, C., & Rouse, C. (2000). Orchestrating Impartiality: The Impact of “Blind” 
Auditions on Female Musicians. American Economic Review, 90(4), 715–741. 
https://doi.org/10.1257/AER.90.4.715 

Gordon, A. (1999). Classification (2nd ed.). Boca Raton (Fla.); New York: Chapman & 
Hall. https://doi.org/10.1201/9780367805302 

Gower, J.C. (1971). A general coefficient of similarity and some of its properties. 
Biometrics, 27, 857–874. 
http://www.jstor.org/stable/2528823?seq=1#page_scan_tab_contents 

Gower, J.C., & Legendre, P. (1986). Metric and Euclidean Properties of Dissimilarity 
Coefficients. Journal of Classification, 3, 5–48. 
http://fitelson.org/coherence/gower_legendre.pdf 

Green, P.E., Frank, R.E., & Robinson, P.J. (1967). Cluster Analysis in Test Market 
Selection. Management Science, 13(8), B-387-B-400. 
https://doi.org/10.1287/MNSC.13.8.B387 

Guha, S., Rastogi, R., & Shim, K. (2000). Rock: A robust clustering algorithm for 
categorical attributes. Information Systems, 25(5), 345–366. 
https://doi.org/10.1016/S0306-4379(00)00022-3 

Guha, S., Rastogi, R., & Shim, K. (2001). Cure: an efficient clustering algorithm for 
large databases. Information Systems, 26(1), 35–58. 
https://doi.org/10.1016/S0306-4379(01)00008-4 

Gustriansyah, R., Suhandi, N. & Antony, F. (2020). Clustering optimization in RFM 
analysis Based on k-Means. Indonesian Journal of Electrical Engineering and 
Computer Science, 18(1), 470-477. https://doi.org/10.11591/ijeecs.v18.i1.pp470-
477 

https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in-names-to-predict-ethnicity.html
https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in-names-to-predict-ethnicity.html
https://doi.org/10.1145/3442188.3445906
https://doi.org/10.1109/JLT.2017.2778883
https://doi.org/10.2307/2683960
https://chicagounbound.uchicago.edu/uclrev/vol86/iss2/4
https://doi.org/10.1257/AER.90.4.715
https://doi.org/10.1201/9780367805302
http://www.jstor.org/stable/2528823?seq=1#page_scan_tab_contents
http://fitelson.org/coherence/gower_legendre.pdf
https://doi.org/10.1287/MNSC.13.8.B387
https://doi.org/10.1016/S0306-4379(00)00022-3
https://doi.org/10.1016/S0306-4379(01)00008-4
https://doi.org/10.11591/ijeecs.v18.i1.pp470-477
https://doi.org/10.11591/ijeecs.v18.i1.pp470-477


Bibliografía  

~ 220 ~ 
 

Haimes, Y., & Li, D. (1989). Risk Management within a Hierarchical Multiobjective 
Framework. IFAC Proceedings Volumes, 22(10), 43–51. 
https://doi.org/10.1016/S1474-6670(17)53143-2 

Halkidi, M., Batistakis, Y., & Vazirgiannis, M. (2001). On clustering validation 
techniques. Journal of Intelligent Information Systems, 17(2–3), 107–145. 
https://doi.org/10.1023/A:1012801612483 

Hamerly, G., & Elkan, C. (2002). Alternatives to the k-means algorithm that find better 
clusterings. International Conference on Information and Knowledge 
Management, Proceedings, 600–607. https://doi.org/10.1145/584792.584890 

Hamann, U. (1961). Merkmalsbestand und Verwandtschaftsbeziehungen der 
Farinosae. Ein Beitrag zum System der Monokotyledonen. Willdenowia 2: 639–
768. Botanischer Garten und Botanisches Museum, Berlin-Dahlem. 

Han, J., Kamber, M., & Pei, J. (2012). Data Mining (3rd edition). The Morgan Kaufmann 
Series in Data Management. https://doi.org/10.1016/C2009-0-61819-5 

Handl J., & Knowles J. (2006) Multi-Objective Clustering and Cluster Validation. In: Jin 
Y. (eds) Multi-Objective Machine Learning. Studies in Computational Intelligence, 
vol 16. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-33019-4_2 

Hardesty, L. (2018). Study finds gender and skin-type bias in commercial artificial-
intelligence systems. Retrieved 27 July 2021, from Massachusetts Institute of 
Technology website: https://news.mit.edu/2018/study-finds-gender-skin-type-bias-
artificial-intelligence-systems-0212 

Hardt, M., Price, E., & Srebro, N. (2016). Equality of opportunity in supervised learning. 
Advances in Neural Information Processing Systems, 3323–3331. Retrieved from 
https://arxiv.org/abs/1610.02413v1 

Harikumar, S., & Surya, P. V. (2015). K-Medoid Clustering for Heterogeneous 
Datasets. Procedia Computer Science, 70, 226–237. 
https://doi.org/10.1016/J.PROCS.2015.10.077 

Haykin, S. (2009). Neural Networks and Learning Machines. (3rd edition) Prentice Hall. 
Pearson Education, Inc., Upper Saddle River, New Jersey 

Headden, W.P., McClosky, D., & Charniak, E. (2008). Evaluating unsupervised part-of-
speech tagging for grammar induction. Coling 2008 - 22nd International 
Conference on Computational Linguistics, Proceedings of the Conference, 1, 329–
336. https://doi.org/10.3115/1599081.1599123 

Hinneburg, A. & Keim, D. (1998) An Efficient Approach to Clustering in Large 
Multimedia Databases with Noise. Proceeding 4th International Conference on 
Knowledge Discovery & Data Mining, 58-65. 

 
https://doi.org/10.1016/S1474-6670(17)53143-2
https://doi.org/10.1023/A:1012801612483
https://doi.org/10.1145/584792.584890
https://doi.org/10.1016/C2009-0-61819-5
https://doi.org/10.1007/3-540-33019-4_2
https://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212
https://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212
https://arxiv.org/abs/1610.02413v1
https://doi.org/10.1016/J.PROCS.2015.10.077
https://doi.org/10.3115/1599081.1599123


Bibliografía  

~ 221 ~ 
 

Hitka, M., Lorincová, S., Ližbetinová, L., Bartáková, G. P., & Merková, M. (2017). 
Cluster Analysis Used as the Strategic Advantage of Human Resource 
Management in Small and Medium-sized Enterprises in the Wood-Processing 
Industry. BioResources, 12(4), 7884–7897. 
https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_
Cluster_Analysis_Strategic_Advantage 

Hoffmann, A.L., Roberts, S. T., Wolf, C. T., & Wood, S. (2018). Beyond fairness, 
accountability, and transparency in the ethics of algorithms: Contributions and 
perspectives from LIS. Proceedings of the Association for Information Science and 
Technology, 55(1), 694–696. https://doi.org/10.1002/PRA2.2018.14505501084 

Holstein, K., Vaughan, J. W., Daumé III, H., Dudík, M., & Wallach, H. (2019). Improving 
fairness in machine learning systems: What do industry practitioners need?. In 
Proceedings of the 2019 CHI Conference on Human Factors in Computing 
Systems (CHI '19). Association for Computing Machinery, New York, NY, USA, 
Paper 600, 1–16. https://doi.org/10.1145/3290605.3300830 

Hossain, S., Mladenovic, A., & Shah, N. (2020). Designing Fairly Fair Classifiers Via 
Economic Fairness Notions. The Web Conference 2020 - Proceedings of the 
World Wide Web Conference, 1559–1569. 
https://doi.org/10.1145/3366423.3380228 

Hsu, C.C., & Chen, Y. C. (2007). Mining of mixed data with application to catalog 
marketing. Expert Systems with Applications, 32(1), 12–23. 
https://doi.org/10.1016/J.ESWA.2005.11.017 

Hu, X. (1999). Multinomial processing tree models: An implementation. Behavior 
Research Methods, Instruments, & Computers 1999 31:4, 31(4), 689–695. 
https://doi.org/10.3758/BF03200747 

Hu, X.B., Wang, M., Ye, T., & Shi, P. (2016). A New Method for Resource Allocation 
Optimization in Disaster Reduction and Risk Governance. International Journal of 
Disaster Risk Science; Heidelberg, 7(2), 138-150. https://doi.org/10.1007/s13753-
016-0089-2 

Hu, Q., & Rangwala, H. (2020). Towards Fair Educational Data Mining: A Case Study 
on Detecting At-Risk Students. Proceedings of The 13th International Conference 
on Educational Data Mining 

Huang, Z. (1997a). Clustering large data sets with mixed numeric and categorical 
values. Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery 
and Data Mining, 21--34. 
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.9984 

Huang, Z. (1997b). A Fast Clustering Algorithm to Cluster Very Large Categorical Data 
Sets in Data Mining. In Research Issues on Data Mining and Knowledge 
Discovery, 1--8. https://doi.org/10.1.1.6.4718 

Huang, Z. (1998). Extensions to the k-means algorithm for clustering large data sets 
with categorical values. Data Mining and Knowledge Discovery, 2, 283–304. 
https://doi.org/10.1023/A:1009769707641 

https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_Cluster_Analysis_Strategic_Advantage
https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_Cluster_Analysis_Strategic_Advantage
https://doi.org/10.1002/PRA2.2018.14505501084
https://doi.org/10.1145/3290605.3300830
https://doi.org/10.1145/3366423.3380228
https://doi.org/10.1016/J.ESWA.2005.11.017
https://doi.org/10.3758/BF03200747
https://doi.org/10.1007/s13753-016-0089-2
https://doi.org/10.1007/s13753-016-0089-2
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.9984
https://doi.org/10.1.1.6.4718
https://doi.org/10.1023/A:1009769707641


Bibliografía  

~ 222 ~ 
 

Huang, Z., & Ng, M.K. (1999). Title A fuzzy k-modes Algorithm for Clustering 
Categorical Data. IEEE Transactions on Fuzzy Systems, 7(4), 446–452. 
http://hdl.handle.net/10722/42992 

Huang, J.Z., Ng, M.K., Hongqiang Rong, & Zichen Li. (2005). Automated variable 
weighting in k-means type clustering. IEEE Transactions on Pattern Analysis and 
Machine Intelligence, 27(5), 657–668. https://doi.org/10.1109/TPAMI.2005.95 

Huang, C.L., Chen, M.C., & Wang, C.J. (2007). Credit scoring with a data mining 
approach based on support vector machines. Expert Systems with Applications, 
33(4), 847–856. https://doi.org/10.1016/J.ESWA.2006.07.007 

Huang, J., Sun, H., Kang, J., Qi, J., Deng, H., & Song, Q. (2013). ESC: An efficient 
synchronization-based clustering algorithm. Knowledge-Based Systems, 40, 111–
122. https://doi.org/10.1016/j.knosys.2012.11.015 

Hubalek, Z. (1982). Coefficients of association and similarity, based on binary 
(Presence-Absence) Data: an evaluation. Biological Reviews, 57(4), 669–689. 
https://doi.org/10.1111/j.1469-185X.1982.tb00376.x 

Hunt, L., & Jorgensen, M. (2011). Clustering mixed data. Wiley Interdisciplinary 
Reviews: Data Mining and Knowledge Discovery, 1(4), 352–361. 
https://doi.org/10.1002/widm.33 

Hyndman, R. J. (1995). The problem with Sturges’ rule for constructing histograms. 
Department of Econometrics and Business Statistics, Monash University, Clayton, 
Victoria, Australia. 

Ishikawa, K. (1986). Guide to quality control (2nd edition). Tokyo. White Plains N.Y. 
Asian Productivity Organization. https://doi.org/10.1002/qre.4680010318 

Jaccard, P. (1908). Nouvelles Recherches Sur la Distribution Florale. Bull. Soc. 
Vaudoise Sci. Nat., 44, 223–270. https://doi.org/10.5169/seals-268384 

Jackson, D. A., Somers, K.M., & Harvey, H.H. (1989). Similarity Coefficients: Measures 
of Co-Occurrence and Association or Simply Measures of Occurrence?. The 
American Naturalist, 133(3), 436–453. https://doi.org/10.1086/284927 

Jain, A.K., & Dubes, R. (1980). Clustering Methodologies in Exploratory Data Analysis. 
Advances in Computers, 19(C), 113–228. https://doi.org/10.1016/S0065-
2458(08)60034-0 

Jain, A.K., & Dubes, R.C. (1988). Algorithms for clustering data. (1st edition) Prentice-
Hall, Inc., USA. 

Jain, A.K., Murty, M.N., & Flynn, P.J. (1999). Data clustering. ACM Computing 
Surveys, 31(3), 264–323. https://doi.org/10.1145/331499.331504 

Jang, H.J., Kim, B., Kim, J., & Jung, S.Y. (2018). An Efficient Grid-Based K-Prototypes 
Algorithm for Sustainable Decision-Making on Spatial Objects. Sustainability 2018, 
Vol. 10, Page 2614, 10(8), 2614. https://doi.org/10.3390/SU10082614 

http://hdl.handle.net/10722/42992
https://doi.org/10.1109/TPAMI.2005.95
https://doi.org/10.1016/J.ESWA.2006.07.007
https://doi.org/10.1016/j.knosys.2012.11.015
https://doi.org/10.1111/j.1469-185X.1982.tb00376.x
https://doi.org/10.1002/widm.33
https://doi.org/10.1002/qre.4680010318
https://doi.org/10.5169/seals-268384
https://doi.org/10.1086/284927
https://doi.org/10.1016/S0065-2458(08)60034-0
https://doi.org/10.1016/S0065-2458(08)60034-0
https://doi.org/10.1145/331499.331504
https://doi.org/10.3390/SU10082614


Bibliografía  

~ 223 ~ 
 

Ji, J., Pang, W., Zhou, C., Han, X., & Wang, Z. (2012). A fuzzy k-prototype clustering 
algorithm for mixed numeric and categorical data. Knowledge-Based Systems, 30, 
129–135. https://doi.org/10.1016/j.knosys.2012.01.006 

Ji, J., Bai, T., Zhou, C., Ma, C., & Wang, Z. (2013). An improved k-prototypes clustering 
algorithm for mixed numeric and categorical data. Neurocomputing, 120, 590–596. 
https://doi.org/10.1016/j.neucom.2013.04.011 

Ji, J., Pang, W., Li, Z., He, F., Feng, G., & Zhao, X. (2020). Clustering Mixed Numeric 
and Categorical Data With Cuckoo Search. IEEE Access, 8, 30988–31003. 
https://doi.org/10.1109/ACCESS.2020.2973216 

Jia, Z., & Song, L. (2020). Weighted k-Prototypes Clustering Algorithm Based on the 
Hybrid Dissimilarity Coefficient. Mathematical Problems in Engineering, 2020. 
https://doi.org/10.1155/2020/5143797 

Jiang, H., Deng, Y., Chen, H.S., Tao, L., Sha, Q., Chen, J., … Zhang, S. (2004). Joint 
analysis of two microarray gene-expression data sets to select lung 
adenocarcinoma marker genes. BMC Bioinformatics, 5. 
https://doi.org/10.1186/1471-2105-5-81 

Jiang, F., Liu, G., Du, J., & Sui, Y. (2016). Initialization of K-modes clustering using 
outlier detection techniques. Information Sciences, 332, 167–183. 
https://doi.org/10.1016/j.ins.2015.11.005 

Jimenez, M. (2021). La UE establece líneas rojas a la inteligencia artificial: ¿Por qué, 
¿cuáles son y a quién afectan?. 
https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_37875
1.html 

Jinyin, C., Huihao, H., Jungan, C., Shanqing, Y., & Zhaoxia, S. (2017). Fast Density 
Clustering Algorithm for Numerical Data and Categorical Data. Mathematical 
Problems in Engineering, 2017. https://doi.org/10.1155/2017/6393652 

Kamiran, F., Žliobaitė, I., & Calders, T. (2013). Quantifying explainable discrimination 
and removing illegal discrimination in automated decision making. Knowledge and 
Information Systems, 35(3), 613–644. https://doi.org/10.1007/s10115-012-0584-8 

Kamishima, T., Akaho, S., Asoh, H., & Sakuma, J. (2012). Fairness-Aware Classifier 
with Prejudice Remover Regularizer. In: Flach P.A., De Bie T., Cristianini N. (eds) 
Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2012. 
Lecture Notes in Computer Science, vol 7524. Springer, Berlin, Heidelberg. 
https://doi.org/10.1007/978-3-642-33486-3_3 

Kasa, N., Dahbura, A., Ravoori, C., & Adams, S. (2019). Improving credit card fraud 
detection by profiling and clustering accounts. Systems and Information 
Engineering Design Symposium, SIEDS 2019. 
https://doi.org/10.1109/SIEDS.2019.8735623 

Kaufman, L., & Rousseeuw, P. (1990). Finding Groups in Data: An Introduction to 
Cluster Analysis. (1st edition). New York. Wiley. 

https://doi.org/10.1016/j.knosys.2012.01.006
https://doi.org/10.1016/j.neucom.2013.04.011
https://doi.org/10.1109/ACCESS.2020.2973216
https://doi.org/10.1155/2020/5143797
https://doi.org/10.1186/1471-2105-5-81
https://doi.org/10.1016/j.ins.2015.11.005
https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_378751.html
https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_378751.html
https://doi.org/10.1155/2017/6393652
https://doi.org/10.1007/s10115-012-0584-8
https://doi.org/10.1007/978-3-642-33486-3_3
https://doi.org/10.1109/SIEDS.2019.8735623


Bibliografía  

~ 224 ~ 
 

Khan, S.S., & Ahmad, A. (2004). Cluster center initialization algorithm for K-means 
clustering. Pattern Recognition Letters, 25(11), 1293–1302. 
https://doi.org/10.1016/j.patrec.2004.04.007 

Khan, S.S., & Ahmad, A. (2012). Cluster Center Initialization for Categorical Data Using 
Multiple Attribute Clustering. SDM, 3–10. 
http://www.dbs.ifi.lmu.de/research/MultiClust2012/ 

Khan, S.S., & Ahmad, A. (2013). Cluster center initialization algorithm for K-modes 
clustering. Expert Systems with Applications, 40(18), 7444–7456. 
https://doi.org/10.1016/j.eswa.2013.07.002 

Khan, S.S., & Ahmad, A. (2015). Computing Initial points using Density Based 
Multiscale Data Condensation for Clustering Categorical data. 2nd International 
Conference on Applied Artificial Intelligence, ICCAI. 

Kim, B. (2017). A Fast K-prototypes Algorithm Using Partial Distance Computation. 
Symmetry 2017, Vol. 9, Page 58, 9(4), 58. https://doi.org/10.3390/SYM9040058 

King, B. (1967). Step-wise Clustering Procedures. Journal of the American Statistical 
Association, 62(317), 86–101. https://doi.org/10.1080/01621459.1967.10482890 

King, R.S. (2015). Cluster Analysis and Data Mining: An Introduction. Mercury Learning 
& Information Stylus Publishing. LLC. https://1lib.eu/book/3649097/9adf90 

Kleinberg, J., Mullainathan, S., & Raghavan, M. (2016). Inherent Trade-Offs in the Fair 
Determination of Risk Scores. Leibniz International Proceedings in Informatics, 
LIPIcs, 67. https://arxiv.org/abs/1609.05807v2 

Kleinberg, J., Lakkaraju, H., Leskovec, J., Ludwig, J., & Mullainathan, S. (2017). 
Human Decisions and Machine Predictions*. The Quarterly Journal of Economics, 
133(1), 237–293. https://doi.org/10.1093/qje/qjx032 

Kleindessner, M., Awasthi, P., & Morgenstern, J. (2019). Fair k-Center Clustering for 
Data Summarization. 36th International Conference on Machine Learning, 5984–
6003. https://arxiv.org/abs/1901.08628v2 

Knor, E.M., & Ng, R.T. (1998). Algorithms for Mining Distance-Based Outliers in Large 
datasets. Deutsche Medizinische Wochenschrift, 17(49), 1341–1342. 
https://doi.org/10.1055/s-0029-1206900 

Knuth, K.H. (2006). Optimal Data-Based Binning for Histograms. 
https://arxiv.org/abs/physics/0605197 

Köchling, A., & Wehner, M.C. (2020). Discriminated by an algorithm: a systematic 
review of discrimination and fairness by algorithmic decision-making in the context 
of HR recruitment and HR development. Business Research, 13(3), 795–848. 
https://doi.org/10.1007/S40685-020-00134-W 

Kohonen, T. (1998). The self-organizing map. Neurocomputing, 21(1–3), 1–6. 
https://doi.org/10.1016/S0925-2312(98)00030-7 

https://doi.org/10.1016/j.patrec.2004.04.007
http://www.dbs.ifi.lmu.de/research/MultiClust2012/
https://doi.org/10.1016/j.eswa.2013.07.002
https://doi.org/10.3390/SYM9040058
https://doi.org/10.1080/01621459.1967.10482890
https://1lib.eu/book/3649097/9adf90
https://arxiv.org/abs/1609.05807v2
https://doi.org/10.1093/qje/qjx032
https://arxiv.org/abs/1901.08628v2
https://doi.org/10.1055/s-0029-1206900
https://arxiv.org/abs/physics/0605197
https://doi.org/10.1007/S40685-020-00134-W
https://doi.org/10.1016/S0925-2312(98)00030-7


Bibliografía  

~ 225 ~ 
 

Kolodner, J.L. (1983). Reconstructive memory: A computer model. Cognitive Science, 
7(4), 281–328. https://doi.org/10.1016/S0364-0213(83)80002-0 

Kondo, Y., Salibian-Barrera, M., & Zamar, R. (2016). RSKC: An R package for a robust 
and sparse k-means clustering algorithm. Journal of Statistical Software, 72. 
https://doi.org/10.18637/JSS.V072.I05 

Kromrey, J.D. (1993). Ethics and Data Analysis. Educational Researcher, 22(4), 24. 
https://doi.org/10.2307/1177102 

Krzanowski, W.J. (1983). Distance Between Populations Using Mixed Continuous and 
Categorical Variables. Biometrika, 70(1), 235. https://doi.org/10.2307/2335961 

Kullback, S., & Leibler, R.A. (1951). On Information and Sufficiency. The Annals of 
Mathematical Statistics, 22(1), 79–86. https://doi.org/10.1214/aoms/1177729694 

Kumar, A., Bilker, W., Jin, Z., Udupa, J., & Gottlieb, G. (1999). Age of onset of 
depression and quantitative neuroanatomic measures: absence of specific 
correlates. Psychiatry Research: Neuroimaging, 91(2), 101–110. 
https://doi.org/10.1016/S0925-4927(99)00021-9 

Lance, G.N., & Williams, W.T. (1966). Computer Programs for Hierarchical Polythetic 
Classification. The Computer Journal, 9(1), 60–64. 
https://doi.org/10.1093/COMJNL/9.1.60 

Larson, H.J. (1982). Introduction to probability theory and statistical inference (3rd  
edition). New York. Wiley and Sons. 

Law, M. H.C., Topchy, A.P., & Jain, A.K. (2004). Multiobjective data clustering. 
Proceedings of the IEEE Computer Society Conference on Computer Vision and 
Pattern Recognition, 424–430. https://doi.org/10.1109/CVPR.2004.1315194 

Learn by Marketing. (2021). Clustering – What it is and How it Works. 
https://www.learnbymarketing.com/methods/k-means-clustering/ 

Leavy, S. (2018). Gender bias in artificial intelligence: The need for diversity and 
gender theory in machine learning. Proceedings - International Conference on 
Software Engineering, 14–16. https://doi.org/10.1145/3195570.3195580 

Lee, M.K. (2018). Understanding perception of algorithmic decisions: Fairness, trust, 
and emotion in response to algorithmic management, 5(1) 
https://doi.org/10.1177/2053951718756684 

Legendre, L., & Legendre, P. (1979). Ecologie Numerique. Paris: Masson, 66(5), 775-
776, https://doi.org/10.1002/iroh.19810660515 

Leung, Y., Zhang, J.S., & Xu, Z. Ben. (2000). Clustering by scale-space filtering. IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 22(12), 1396–1410. 
https://doi.org/10.1109/34.895974 

https://doi.org/10.1016/S0364-0213(83)80002-0
https://doi.org/10.18637/JSS.V072.I05
https://doi.org/10.2307/1177102
https://doi.org/10.2307/2335961
https://doi.org/10.1214/aoms/1177729694
https://doi.org/10.1016/S0925-4927(99)00021-9
https://doi.org/10.1093/COMJNL/9.1.60
https://doi.org/10.1109/CVPR.2004.1315194
https://www.learnbymarketing.com/methods/k-means-clustering/
https://doi.org/10.1145/3195570.3195580
https://doi.org/10.1177/2053951718756684
https://doi.org/10.1002/iroh.19810660515
https://doi.org/10.1109/34.895974


Bibliografía  

~ 226 ~ 
 

Li, C., & Biswas, G. (2002). Unsupervised learning with mixed numeric and nominal 
data. IEEE Transactions on Knowledge and Data Engineering, 14(4), 673–690. 
https://doi.org/10.1109/TKDE.2002.1019208 

Li, C.S. (2011). Cluster Center Initialization Method for K-means Algorithm Over Data 
Sets with Two Clusters. Procedia Engineering, 24, 324–328. 
https://doi.org/10.1016/j.proeng.2011.11.2650 

Liu, X., Yang, Q., & He, L. (2017). A novel DBSCAN with entropy and probability for 
mixed data. Cluster Computing, 20(2), 1313–1323. 
https://doi.org/10.1007/s10586-017-0818-3 

Lloyd, S.P. (1982). Least Squares Quantization in PCM. IEEE Transactions on 
Information Theory, 28(2), 129–137. https://doi.org/10.1109/TIT.1982.1056489  

Lohaka, H.O. (2007). Making a grouped data frequency table: Development and 
examination of the iteration algorithm. OhioLINK Electronic Theses and 
Dissertations Center. 
http://rave.ohiolink.edu/etdc/view?acc_num=ohiou1194981215 

Looman, J., & Campbell, J.B. (1960). Adaptation of Sorensen’s K (1948) for Estimating 
Unit Affinities in Prairie Vegetation. Ecology, 41(3), 409–416. 
https://doi.org/10.2307/1933315 

Lourenço, F.C., Lobo, V.,  & Bação, F., (2004). Binary-based similarity measures for 
categorical data and their application in Self- Organizing Maps. JOCLAD 2004-XI 
Jornadas de Classificacao e Anlise de Dados, Lisbon. 

Lu, Y., Phillips, C.A., & Langston, M.A. (2019). A robustness metric for biological data 
clustering algorithms. BMC Bioinformatics 2019 20:15, 20(15), 1–8. 
https://doi.org/10.1186/S12859-019-3089-6 

Luong, B.T., Ruggieri, S., & Turini, F. (2011). k-NN as an Implementation of Situation 
Testing for Discrimination Discovery and Prevention. Proceedings of the 17th 
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 
- KDD ’11. New York, 502–510, San Diego, California, USA. 
https://doi.org/10.1145/2020408.2020488 

Maddila, S., Ramasubbareddy, S., & Govinda, K. (2020). Crime and Fraud Detection 
Using Clustering Techniques. In Lecture Notes in Networks and Systems (Vol. 
103, pp. 135–143). https://doi.org/10.1007/978-981-15-2043-3_17 

Makarenkov, V., & Legendre, P. (2001). Optimal variable weighting for ultrametric and 
additive trees and K-means partitioning: Methods and software. Journal of 
Classification, 18(2), 245–271. https://doi.org/10.1007/s00357-001-0018-x 

Makhabel, B. (2015). Learning Data mining with R. In Packt Publishing. 
https://doi.org/10.1017/CBO9781107415324.004 

Mancuhan, K., & Clifton, C. (2014). Combating discrimination using Bayesian networks. 
Artificial Intelligence and Law, 22(2), 211–238. https://doi.org/10.1007/S10506-
014-9156-4 

https://doi.org/10.1109/TKDE.2002.1019208
https://doi.org/10.1016/j.proeng.2011.11.2650
https://doi.org/10.1007/s10586-017-0818-3
https://doi.org/10.1109/TIT.1982.1056489
http://rave.ohiolink.edu/etdc/view?acc_num=ohiou1194981215
https://doi.org/10.2307/1933315
https://doi.org/10.1186/S12859-019-3089-6
https://doi.org/10.1145/2020408.2020488
https://doi.org/10.1007/978-981-15-2043-3_17
https://doi.org/10.1007/s00357-001-0018-x
https://doi.org/10.1017/CBO9781107415324.004
https://doi.org/10.1007/S10506-014-9156-4
https://doi.org/10.1007/S10506-014-9156-4


Bibliografía  

~ 227 ~ 
 

Martínez Ortega, R.M., Tuya Pendás, L.C., Martínez Ortega, M., Pérez Abreu, A., & 
Cánovas, A.M. (2009). El coeficiente de correlación de rangos de Spearman. 
Revista Habanera de Ciencias Médicas, 3(2). 
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017 

McParland, D., & Gormley, I.C. (2015). Model Based Clustering for Mixed Data: 
clustMD. Advances in Data Analysis and Classification, 10(2), 155–169. 
https://arxiv.org/abs/1511.01720v1 

McQueen, J.B. (1967). Some methods for classification and analysis of multivariate 
observations. Proceedings of the Fifth Berkeley Symposium on Mathematical 
Statistics and Probability, 1, 281–297. 

Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2019). A Survey 
on Bias and Fairness in Machine Learning. https://arxiv.org/abs/1908.09635v2 

Meilâ, M., & Heckerman, D. (2001). An Experimental Comparison of Model-Based 
Clustering Methods. Machine Learning, pp. 9–29. 
https://doi.org/https://doi.org/10.1023/A:1007648401407 

Meilă, M. (2007). Comparing clusterings—an information based distance. Journal of 
Multivariate Analysis, 98(5), 873–895. https://doi.org/10.1016/j.jmva.2006.11.013 

Merriam-Webster. (2018). Cluster Analysis definition. https://www.merriam-
webster.com/dictionary/cluster%20analysis 

Micha, E., & Shah, N. (2020). Proportionally Fair Clustering Revisited. 47th 
International Colloquium on Automata, Languages, and Programming. Schloss 
Dagstuhl. Germany, 168. https://doi.org/10.4230/LIPICS.ICALP.2020.85 

Michalski, R.S., & Stepp, R.E. (1983). Automated Construction of Classifications: 
Conceptual Clustering Versus Numerical Taxonomy. IEEE Transactions on 
Pattern Analysis and Machine Intelligence, PAMI-5(4), 396–410. 
https://doi.org/10.1109/TPAMI.1983.4767409 

Milligan, G.W. (1996). Clustering validation: Results and implications for applied 
analyses. In Clustering and Classification (pp. 341–375). 
https://doi.org/10.1142/9789812832153_0010 

Milligan, G.W., & Cooper, M.C. (1987). Methodology review: Clustering methods. 
Applied Psychological Measurement, 11(4), 329–354. 
https://doi.org/10.1177/014662168701100401 

Mitra, P., Murthy, C.A., & Pal, S.K. (2002). Density-based multiscale data 
condensation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 
24(6), 734–747. https://doi.org/10.1109/TPAMI.2002.1008381 

Mittelstadt, B.D., Allo, P., Taddeo, M., Wachter, S., & Floridi, L. (2016). The ethics of 
algorithms: Mapping the debate. Big Data & Society, 3(2), 205395171667967. 
https://doi.org/10.1177/2053951716679679 

http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017
https://arxiv.org/abs/1511.01720v1
https://arxiv.org/abs/1908.09635v2
https://doi.org/https:/doi.org/10.1023/A:1007648401407
https://doi.org/10.1016/j.jmva.2006.11.013
https://www.merriam-webster.com/dictionary/cluster%20analysis
https://www.merriam-webster.com/dictionary/cluster%20analysis
https://doi.org/10.4230/LIPICS.ICALP.2020.85
https://doi.org/10.1109/TPAMI.1983.4767409
https://doi.org/10.1142/9789812832153_0010
https://doi.org/10.1177/014662168701100401
https://doi.org/10.1109/TPAMI.2002.1008381
https://doi.org/10.1177/2053951716679679


Bibliografía  

~ 228 ~ 
 

Monasterio A, A. (2017). Algorithmic Ethics: Ethical implications of a society 
increasingly governed by Algorithms. Dilemata, pp. 185–217. 
https://www.docsity.com/es/etica-algoritmica-2020/7516664/ 

Mousa, A. A., El-Shorbagy, M.A., & Farag, M.A. (2017). K-means-Clustering Based 
Evolutionary Algorithm for Multi-objective Resource Allocation Problems. Applied 
Mathematics & Information Sciences, 11(6), 1681–1692, 
https://doi.org/10.18576/amis/110615 

Mousa, A. A., Higazy, M., & Abo-Elnaga, Y. (2018). K-means cluster algorithm-based 
evolutionary approach for constrained multi-objective optimization. International 
Journal of Applied Engineering Research, 13(6), 3789–3809. 
http://www.ripublication.com 

Murtagh, F. (1983). A survey of recent advances in hierarchical clustering algorithms. 
Computer Journal, 26(4), 354–359. https://doi.org/10.1093/comjnl/26.4.354 

Murtagh, F. (1984). Complexities of hierarchic clustering algorithms: State of the art 
Statistical Classification View project Reports on Interesting Developments in 
Astronomy View project. Computational Statistics Quarterly, 1(2), 101–113. 
https://www.researchgate.net/publication/238655641 

Narayanan, A. (2019). 21 fairness definition and their politics. ACM FAT (Fairness, 
Accountability and Transparency) Conference, 
https://shubhamjain0594.github.io/post/tlds-arvind-fairness-definitions/ 

Neyman, J. (1967). A Selection of Early Statistical Papers of J. Neyman. In A Selection 
of Early Statistical Papers of J. Neyman. https://doi.org/10.1525/9780520327016 

Ng, M.K., & Wong, J.C. (2002). Clustering categorical data sets using tabu search 
techniques. Pattern Recognition, 35(12), 2783–2790. 
https://doi.org/10.1016/S0031-3203(02)00021-3 

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias 
in an algorithm used to manage the health of populations. Science, 366(6464), 
447–453. https://doi.org/10.1126/SCIENCE.AAX2342 

Ochiai, A. (1957). Zoogeographic studies on the soleoid fishes found in Japan and its 
neighbouring regions. Bull Jnp Soc Sci Fish, 22, 526–530. 

Omran, M.G.H., Engelbrecht, A.P., & Salman, A. (2007). An overview of clustering 
methods. Intelligent Data Analysis, 11(6), 583–605. https://doi.org/10.3233/IDA-
2007-11602 

O’Reilly-Shah, V.N., Gentry, K. R., Walters, A.M., Zivot, J., Anderson, C.T., & Tighe, 
P.J. (2020). Bias and ethical considerations in machine learning and the 
automation of perioperative risk assessment. British Journal of Anaesthesia, 
125(6), 843–846. https://doi.org/10.1016/J.BJA.2020.07.040 

Patel, A. (2019). Neural Networks in Classification & Clustering. 
https://medium.com/@adeet.patel/neural-networks-in-classification-clustering-
606342ecf20e 

https://www.docsity.com/es/etica-algoritmica-2020/7516664/
https://doi.org/10.18576/amis/110615
http://www.ripublication.com/
https://doi.org/10.1093/comjnl/26.4.354
https://www.researchgate.net/publication/238655641
https://shubhamjain0594.github.io/post/tlds-arvind-fairness-definitions/
https://doi.org/10.1525/9780520327016
https://doi.org/10.1016/S0031-3203(02)00021-3
https://doi.org/10.1126/SCIENCE.AAX2342
https://doi.org/10.3233/IDA-2007-11602
https://doi.org/10.3233/IDA-2007-11602
https://doi.org/10.1016/J.BJA.2020.07.040
https://medium.com/@adeet.patel/neural-networks-in-classification-clustering-606342ecf20e
https://medium.com/@adeet.patel/neural-networks-in-classification-clustering-606342ecf20e


Bibliografía  

~ 229 ~ 
 

Pearson, K. (1926). On the coefficient of racial likeness. Biometrika, 18(1/2), 105-117. 
https://doi.org/10.2307/2332498 

Pedreshi, D., Ruggieri, S., & Turini, F. (2008). Discrimination-aware data mining. 
Proceedings of the ACM SIGKDD International Conference on Knowledge 
Discovery and Data Mining, 560–568. https://doi.org/10.1145/1401890.1401959 

Pessach, D., & Shmueli, E. (2020). Algorithmic Fairness. AEA Papers and 
Proceedings, 108, 22–27. https://arxiv.org/abs/2001.09784v1 

Peterson, P.N., Rumsfeld, J.S., Liang, L., Albert, N.M., Hernandez, A.F., Peterson, 
E.D., … Masoudi, F.A. (2010). A Validated Risk Score for In-Hospital Mortality in 
Patients With Heart Failure From the American Heart Association Get With the 
Guidelines Program. Circulation: Cardiovascular Quality and Outcomes, 3(1), 25–
32. https://doi.org/10.1161/CIRCOUTCOMES.109.854877 

Pietrzykowski, M. (2017). Local regression algorithms based on centroid clustering 
methods. Procedia Computer Science, 112, 2363–2371. 
https://doi.org/10.1016/J.PROCS.2017.08.210 

Plane, D., & Oppermann, E.B. (1981). Business and economic statistics. Plano, Tex.: 
Business Publications; Irwin-Dorsey. 

Podani, J. (1999). Extending Gower’s general coefficient of similarity to ordinal 
characters. Taxon, 48(2), 331–340. https://doi.org/10.2307/1224438 

Polamuri, S. (2017). How the random forest algorithm works in machine learning. 
Retrieved 14 August 2021, from Dataaspirant website: 
https://dataaspirant.com/random-forest-algorithm-machine-learing/ 

Pombo, C. (2020). Cuando los algoritmos de los servicios sociales se olvidan de las 
mujeres. Digital Future Society website. 
https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios-
sociales-olvidan-a-las-mujeres/ 

Porter, M.E. (1990). The Competitive Advantage of Nations. Harvard Business Review, 
68(2), 73-93. https://hbr.org/1990/03/the-competitive-advantage-of-nations 

Porter, M.E. (1998). Clusters and the New Economics of Competition. Harvard 
Business Review, 76(6), 77-90. https://hbr.org/1998/11/clusters-and-the-new-
economics-of-competition 

Prakash, K., Anuradha, K., & Vasumathi, D. (2016). A survey on clustering techniques 
for multi-valued data sets. Global Journal of Computer Science and Technology: C 
Software & Data Engineering, 16(1), 43-50. 
https://www.computerresearch.org/index.php/computer/article/download/1463/145
0 

Quinlan, J.R. (1986). Induction of decision trees. Machine Learning 1986 1:1, 1(1), 81–
106. https://doi.org/10.1007/BF00116251 

https://doi.org/10.2307/2332498
https://doi.org/10.1145/1401890.1401959
https://arxiv.org/abs/2001.09784v1
https://doi.org/10.1161/CIRCOUTCOMES.109.854877
https://doi.org/10.1016/J.PROCS.2017.08.210
https://doi.org/10.2307/1224438
https://dataaspirant.com/random-forest-algorithm-machine-learing/
https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios-sociales-olvidan-a-las-mujeres/
https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios-sociales-olvidan-a-las-mujeres/
https://hbr.org/1990/03/the-competitive-advantage-of-nations
https://hbr.org/1998/11/clusters-and-the-new-economics-of-competition
https://hbr.org/1998/11/clusters-and-the-new-economics-of-competition
https://www.computerresearch.org/index.php/computer/article/download/1463/1450
https://www.computerresearch.org/index.php/computer/article/download/1463/1450
https://doi.org/10.1007/BF00116251


Bibliografía  

~ 230 ~ 
 

R Core Team. (2018). A Language and Environment for Statistical Computing. 2, 
undefined-undefined. https://www.mendeley.com/catalogue/e58715b9-2290-3098-
82dd-
6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open
_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D 

Radmehr, F., & Alamolhodaei, H. (2014). Who Should be Interviewed? A Response 
from Cluster Analysis, 2 (2) :117-126. http://jpcp.uswr.ac.ir/article-1-176-en.html 

Rawls, J. (2001). Justice as Fairness (Erin I. Kelly, Ed.). 
https://www.hup.harvard.edu/catalog.php?isbn=9780674005112 

Reichart, R., & Rappoport, A. (2009). The NVI Clustering Evaluation Measure. 
https://doi.org/10.5555/1596374 

Rezaee, M.R., Lelieveldt, B.P.F., & Reiber, J.H.C. (1998). A new cluster validity index 
for the fuzzy c-mean. Pattern Recognition Letters, 19(3), 237–246. 
https://doi.org/10.1016/S0167-8655(97)00168-2 

Rixin, W., Xuebing, G., Minqiang, X., & Yuqing, L. (2015). Fault detection of flywheel 
system based on clustering and principal component analysis. Chinese Journal of 
Aeronautics, 28(6), 1676–1688. https://doi.org/10.1016/j.cja.2015.10.003 

Robb, A., & Robinson, D.T. (2018). Testing for racial bias in business credit scores. 
Small Business Economics 2017 50:3, 50(3), 429–443. 
https://doi.org/10.1007/S11187-017-9878-2 

Rogers, D.J., & Tanimoto, T. (1960). A computer program for classifing plants. 
Science, 132, 1115–1118. https://doi.org/10.1126/science.132.3434.1115 

Rokach, L., & Maimon, O. (2006). Clustering Methods. In Data Mining and Knowledge 
Discovery Handbook, 321–352. https://doi.org/10.1007/0-387-25465-X_15 

Romei, A., & Ruggieri, S. (2013). A multidisciplinary survey on discrimination analysis. 
Knowledge Engineering Review, 29(5), 582–638. 
https://doi.org/10.1017/S0269888913000039 

Rosenberg, A., & Hirschberg, J. (2007). V-Measure: A conditional entropy-based 
external cluster evaluation measure. https://doi.org/10.7916/D80V8N84 

Ross, W.D. (1995). Aristotle. (Sixth edition). New York: Routledge. 

Rudemo, M. (1982). Empirical Choice of Histograms and Kernel Density Estimators. 
Scandinavian Journal of Statistics, 9(2), 65-78. 

Russell, P.F., & Rao, T.R. (1940). On habitat and association of species of anopheline 
larvae in south-eastern Madras. Journal of the Malaria Institute of India, 3(1), 153–
178. 

Ruth, T. (2019). Equity vs. Equality: What’s the Difference? | Online Public Health. 
https://onlinepublichealth.gwu.edu/resources/equity-vs-equality/ 

https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D
https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D
https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D
https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D
http://jpcp.uswr.ac.ir/article-1-176-en.html
https://www.hup.harvard.edu/catalog.php?isbn=9780674005112
https://doi.org/10.5555/1596374
https://doi.org/10.1016/S0167-8655(97)00168-2
https://doi.org/10.1016/j.cja.2015.10.003
https://doi.org/10.1007/S11187-017-9878-2
https://doi.org/10.1126/science.132.3434.1115
https://doi.org/10.1007/0-387-25465-X_15
https://doi.org/10.1017/S0269888913000039
https://doi.org/10.7916/D80V8N84
https://onlinepublichealth.gwu.edu/resources/equity-vs-equality/


Bibliografía  

~ 231 ~ 
 

Sajidha, S.A., Desikan, K., & Chodnekar, S.P. (2020). Initial Seed Selection for Mixed 
Data Using Modified K-means Clustering Algorithm. Arabian Journal for Science 
and Engineering, 45(4), 2685–2703. https://doi.org/10.1007/s13369-019-04121-0 

Sanchez-Monedero, J., Dencik, L., & Edwards, L. (2019). What does it mean to solve 
the problem of discrimination in hiring? Social, technical and legal perspectives 
from the UK on automated hiring systems. FAT* 2020 - Proceedings of the 2020 
Conference on Fairness, Accountability, and Transparency, 458–468. 
https://arxiv.org/abs/1910.06144v2 

Sandvig, C., Hamilton, K., Karahalios, K., & Langbort, C. (2016). When the algorithm 
itself is a racist: Diagnosing ethical harm in the basic Components of Software. 
International Journal of Communication, 10, 4972–4990. 
https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist-
diagnosing-ethical-harm-in- 

Sankaran, P.G., Sunoj, S.M., & Nair, N.U. (2016). Kullback-Leibler divergence: A 
quantile approach. Statistics and Probability Letters, 111, 72–79. 
https://doi.org/10.1016/j.spl.2016.01.007 

Santos-M., C., & J. Heras, A. (2020). A Multicluster Approach to Selecting Initial Sets 
for Clustering of Categorical Data. Interdisciplinary Journal of Information, 
Knowledge, and Management, 15, 227–246. https://doi.org/10.28945/4643 

Santos-M., C., & J. Heras, A. (2021). A Fair-Multicluster Approach to Clustering of 
Categorical Data. Central European Journal of Operations Research. Under 2nd 
revision (Anexo 2 de la presente Tesis Doctoral) 

Saxena, A., Prasad, M., Gupta, A., Bharill, N., Patel, O. P., Tiwari, A., … Lin, C.T. 
(2017). A review of clustering techniques and developments. Neurocomputing, 
267, 664–681. https://doi.org/10.1016/j.neucom.2017.06.053 

Schmidt, M., Schwiegelshohn, C., & Sohler, C. (2018). Fair Coresets and Streaming 
Algorithms for Fair k-Means Clustering. https://arxiv.org/abs/1812.10854v4 

Scott, D.W. (1979). On optimal and data-based histogram. Source: Biometrika, 66(3), 
605–610. https://doi.org/10.1093/biomet/66.3.605 

Seca, D., Mendes-Moreira, J., Mendes-Neves, T., & Sousa, R. (2020). Hierarchical 
Qualitative Clustering: clustering mixed datasets with critical qualitative 
information. https://arxiv.org/abs/2006.16701v3 

Selbst, A.D., Boyd, D., Friedler, S.A., Venkatasubramanian, S., & Vertesi, J. (2019). 
Fairness and Abstraction in Sociotechnical Systems. Proceedings of the 
Conference on Fairness, Accountability, and Transparency, 59–68. 
https://doi.org/10.1145/3287560.3287598 

Selosse, M., Jacques, J., & Biernacki, C. (2020). Model-based co-clustering for mixed 
type data. Computational Statistics and Data Analysis, 144, 106866. 
https://doi.org/10.1016/j.csda.2019.106866 

https://doi.org/10.1007/s13369-019-04121-0
https://arxiv.org/abs/1910.06144v2
https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist-diagnosing-ethical-harm-in-
https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist-diagnosing-ethical-harm-in-
https://doi.org/10.1016/j.spl.2016.01.007
https://doi.org/10.28945/4643
https://doi.org/10.1016/j.neucom.2017.06.053
https://arxiv.org/abs/1812.10854v4
https://doi.org/10.1093/biomet/66.3.605
https://arxiv.org/abs/2006.16701v3
https://doi.org/10.1145/3287560.3287598
https://doi.org/10.1016/j.csda.2019.106866


Bibliografía  

~ 232 ~ 
 

Sheikholeslami, G., Surojit C. & Zhang, A. (1998). WaveCluster: A Multi-Resolution 
Clustering Approach for Very Large Spatial Databases. In Proceedings of the 24rd 
International Conference on Very Large Data Bases (VLDB '98). Morgan 
Kaufmann Publishers Inc., San Francisco, CA, USA, 428–439. 
https://dl.acm.org/doi/10.5555/645924.671342 

Sheikholeslami, G., Surojit C. & Zhang A. (2000). WaveCluster: a wavelet-based 
clustering approach for spatial data in very large databases. The VLDB Journal — 
The International Journal on Very Large Data Bases, 8(3–4), 289–304. 
https://doi.org/10.1007/S007780050009 

Shin, D., & Park, Y. J. (2019). Role of fairness, accountability, and transparency in 
algorithmic affordance. Computers in Human Behavior, 98, 277–284. 
https://doi.org/10.1016/J.CHB.2019.04.019 

Sibson, R., & Hartigan, J.A. (1976). Clustering Algorithms. Applied Statistics, 25(1), 70. 
https://doi.org/10.2307/2346526 

Sneath, P.H.A. & Sokal, R.R. (1973) Numerical Taxonomy: The Principles and Practice 
of Numerical Classification. WF Freeman & Co., San Francisco. 

Snow, C.P. (1961). The Moral Un-Neutrality of Science. Science, 133, 255–262. 
https://doi.org/10.1126/science.133.3448.255 

Sokal, R., & Michener, C.D. (1958). A statistical method for evaluating systematic 
relationships. University of Kansas Science Bulletin, 38, 1409-1438. 

Sokal, R., & Sneath, P. (1963). Principles of numerical taxonomy. San Francisco 
(USA): Freeman W.H. and Co.  

Sokal, R., & Gordon, A.D. (1983). Classification: Methods for the Exploratory Analysis 
of Multivariate Data. Journal of the American Statistical Association, 78(382), 508. 
https://doi.org/10.2307/2288692 

Sorensen, T. (1948). A method of establishing groups of equal amplitude in plant 
sociology based on similarity of species content, and its application to analyses of 
the vegetation on Danish commons. In Biological SKR (Vol. 5). 
https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf-
8f9adfc3f6f8 

Sosnovshchenko, A. (2018). Machine learning with Swift : artificial intelligence for iOS. 
Packt Publishing. 

Sparck Jones, K. (1965). Experiments in Semantic Classification. In Mechanical 
Translation and Computational Linguistics, 8(3-4), 97-112. 

Sparck Jones, K. & Barber E., (1971). What Makes An Automatic Keyword 
Classification Effective?. Journal of the American Society for Information Science, 
22(3), 166-175. https://doi.org/10.1002/asi.4630220305 

https://dl.acm.org/doi/10.5555/645924.671342
https://doi.org/10.1007/S007780050009
https://doi.org/10.1016/J.CHB.2019.04.019
https://doi.org/10.2307/2346526
https://doi.org/10.1126/science.133.3448.255
https://doi.org/10.2307/2288692
https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf-8f9adfc3f6f8
https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf-8f9adfc3f6f8
https://doi.org/10.1002/asi.4630220305


Bibliografía  

~ 233 ~ 
 

Sparck Jones, K. (1986). Synonymy and Semantic Classification, Ph.D. thesis, 
University of Cambridge, Edinburgh: Edinburgh University Press. 
https://dl.acm.org/doi/book/10.5555/22908 

Speicher, T., Heidari, H., Grgic-Hlaca, N., Gummadi, K.P., Singla, A., Weller, A., & 
Zafar, M.B. (2018). A unified approach to quantifying algorithmic unfairness: 
Measuring individual & group unfairness via inequality indices. Proceedings of the 
ACM SIGKDD International Conference on Knowledge Discovery and Data 
Mining, 10, 2239–2248. https://doi.org/10.1145/3219819.3220046 

Stanfill, C., & Waltz, D. (1986). Toward memory-based reasoning. Communications of 
the ACM, 29(12), 1213–1228. https://doi.org/10.1145/7902.7906 

Sturges, H.A. (1926). The choice of a class interval case I. Computations involving a 
single series. Journal of the American Statistical Association, 21(153), 65–66. 
https://doi.org/10.1080/01621459.1926.10502161 

Sustersic, M. & Mramor, D. & Zupan, J. (2007). Consumer Credit Scoring Models with 
Limited Data. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.967384 

Szepannek, G. (2018). clustMixType: User-Friendly Clustering of Mixed-Type Data in 
R. The R Journal, 10/2. https://doi.org/10.32614/RJ-2018-048 

Takagi, G. (2018). Nonprofit Law and Ethics. Retrieved 20 June 2021, from Neo Law 
Group website: https://nonprofitlawblog.com/nonprofit-law-and-ethics/ 

Teofrastro. (1988). Historia de las plantas. Editorial Gredos. Spain. Gráficas Condor. 

Thompson, K., & Langley, P. (1991). Concept Formation in Structured Domains. In 
Concept Formation (pp. 127–161). https://doi.org/10.1016/B978-1-4832-0773-
5.50011-0 

Tokareva, N. (2015). Distances Between Bent Functions. Bent Functions, 89–96. 
https://doi.org/10.1016/B978-0-12-802318-1.00011-X 

Tolan, S. (2019). Fair and unbiased algorithmic decision making: Current state and 
future challenges. https://arxiv.org/abs/1901.04730 

Tsamados, A., Aggarwal, N., Cowls, J., Morley, J., Roberts, H., Taddeo, M., & Floridi, 
L. (2021). The ethics of algorithms: key problems and solutions. AI & Soc, 1, 1–16. 
https://doi.org/10.1007/s00146-021-01154-8 

Tubbs, J.D. (1989). A note on binary template matching. Pattern Recognition, 22(4), 
359–365. https://doi.org/10.1016/0031-3203(89)90045-9 

Tukey, J.W. (1980). We Need Both Exploratory and Confirmatory. The American 
Statistician, 34(1), 23. https://doi.org/10.2307/2682991 

Turner L.N. (2018). Detecting racial bias in algorithms and machine learning. Journal of 
Information, Communication and Ethics in Society, 16(3), 252–260. 
https://doi.org/10.1108/JICES-06-2018-0056 

https://dl.acm.org/doi/book/10.5555/22908
https://doi.org/10.1145/3219819.3220046
https://doi.org/10.1145/7902.7906
https://doi.org/10.1080/01621459.1926.10502161
https://doi.org/10.2139/ssrn.967384
https://doi.org/10.32614/RJ-2018-048
https://nonprofitlawblog.com/nonprofit-law-and-ethics/
https://doi.org/10.1016/B978-1-4832-0773-5.50011-0
https://doi.org/10.1016/B978-1-4832-0773-5.50011-0
https://doi.org/10.1016/B978-0-12-802318-1.00011-X
https://arxiv.org/abs/1901.04730
https://doi.org/10.1007/s00146-021-01154-8
https://doi.org/10.1016/0031-3203(89)90045-9
https://doi.org/10.2307/2682991
https://doi.org/10.1108/JICES-06-2018-0056


Bibliografía  

~ 234 ~ 
 

Turner L.N., Resnick, P., & Barton, G. (2019). Algorithmic bias detection and mitigation: 
Best practices and policies to reduce consumer harms. Governance Studies Main 
Line website. https://www.brookings.edu/research/algorithmic-bias-detection-and-
mitigation-best-practices-and-policies-to-reduce-consumer-harms/ 

UK Public General Acts. (1975). Sex Discrimination Act 1975. 
https://www.legislation.gov.uk/ukpga/1975/65/enacted 

UK Public General Acts. (1976). Race Relations Act 1976. 
https://www.legislation.gov.uk/ukpga/1976/74/enacted 

United Nations. (1948). Declaración Universal de Derechos Humanos. 
https://www.un.org/es/about-us/universal-declaration-of-human-rights 

Upton, G.J.C. (2017). Categorical Data Analysis by Example. In Categorical Data 
Analysis by Example. https://doi.org/10.1002/9781119450382 

Vaishali, V. (2014). Fraud Detection in Credit Card by Clustering Approach. 
International Journal of Computer Applications, 98(3), 29–32. 
https://doi.org/10.5120/17164-7225 

Van de Velden, M., Iodice D’Enza, A., & Markos, A. (2019). Distance‐based clustering 
of mixed data. Wiley Interdisciplinary Reviews: Computational Statistics, 11(3), 
e1456. https://doi.org/10.1002/wics.1456 

Verma, S., & Rubin, J. (2018). Fairness definitions explained. Proceedings - 
International Conference on Software Engineering, 18, 1–7. 
https://doi.org/10.1145/3194770.3194776 

Vesanto, J., & Alhoniemi, E. (2000). Clustering of the self-organizing map. IEEE 
Transactions on Neural Networks, 11(3), 586–600. 
https://doi.org/10.1109/72.846731 

Vijaymeena, M.K., & Kavitha, K. (2016). A Survey on Similarity Measures in Text 
Mining. Machine Learning and Applications: An International Journal, 3(1), 19–28. 
https://doi.org/10.5121/mlaij.2016.3103 

Vinh, N.X., Epps, J., & Bailey, J. (2010). Information Theoretic Measures for 
Clusterings Comparison: Variants, Properties, Normalization and Correction for 
Chance. In Journal of Machine Learning Research (Vol. 11). 
https://doi.org/10.5555/1756006.1953024 

Vyas, D.A., Eisenstein, L.G., & Jones, D.S. (2020). Hidden in Plain Sight — 
Reconsidering the Use of Race Correction in Clinical Algorithms. 383(9), 874–882. 
https://doi.org/10.1056/NEJMMS2004740 

Wagner, S., & Wagner, D. (2007). Comparing clusterings: an overview. Karlsruhe, 
Universität Karlsruhe, 1-19. 

 
https://www.brookings.edu/research/algorithmic-bias-detection-and-mitigation-best-practices-and-policies-to-reduce-consumer-harms/
https://www.brookings.edu/research/algorithmic-bias-detection-and-mitigation-best-practices-and-policies-to-reduce-consumer-harms/
https://www.legislation.gov.uk/ukpga/1975/65/enacted
https://www.legislation.gov.uk/ukpga/1976/74/enacted
https://www.un.org/es/about-us/universal-declaration-of-human-rights
https://doi.org/10.1002/9781119450382
https://doi.org/10.5120/17164-7225
https://doi.org/10.1002/wics.1456
https://doi.org/10.1145/3194770.3194776
https://doi.org/10.1109/72.846731
https://doi.org/10.5121/mlaij.2016.3103
https://doi.org/10.5555/1756006.1953024
https://doi.org/10.1056/NEJMMS2004740


Bibliografía  

~ 235 ~ 
 

Walker, D.D., & Ringger, E.K. (2008). Model-based document clustering with a 
collapsed gibbs sampler. Proceedings of the ACM SIGKDD International 
Conference on Knowledge Discovery and Data Mining, 704–712. 
https://doi.org/10.1145/1401890.1401975 

Wang, W., Yang, J., & Muntz, R. (1997). STING: A Statistical Information Grid 
Approach to Spatial Data Mining. In Proceedings of the 23rd International 
Conference on Very Large Data Bases (VLDB '97). Morgan Kaufmann Publishers 
Inc., San Francisco, CA, USA, 186–195. 

Ward, J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of 
the American Statistical Association, 58, 236–244. 
https://doi.org/10.1080/01621459.1963.10500845 

Westlake, A.J., & Larson, H.J. (1970). Introduction to Probability Theory and Statistical 
Inference. The Statistician, 19(3), 352. https://doi.org/10.2307/2986843 

Wierzchoń, S.T., & Kłopotek, M.A. (2018). Modern Algorithms of Cluster Analysis, 433. 
http://www.springer.com/series/11970 

Willett, P. (2003). Similarity-based approaches to virtual screening. Biochemical 
Society Transactions, 31(3), 603–606. https://doi.org/10.1042/BST0310603 

Wilson, D.R., & Martinez, T.R. (1997). Improved Heterogeneous Distance Functions. 
Journal of Artificial Intelligence Research, 6, 1–34. 
https://arxiv.org/abs/cs/9701101v1 

Wishart, D. (2003). k-Means Clustering with Outlier Detection, Mixed Variables and 
Missing Values. 216–226. https://doi.org/10.1007/978-3-642-55721-7_23 

Witten, D.M., & Tibshirani, R. (2010). A framework for feature selection in clustering. 
Journal of the American Statistical Association, 105(490), 713. 
https://doi.org/10.1198/JASA.2010.TM09415 

Wong, P.H. (2019). Democratizing Algorithmic Fairness. Philosophy & Technology 
2019 33:2, 33(2), 225–244. https://doi.org/10.1007/S13347-019-00355-W 

Wu, S., Jiang, Q., & Huang, J.Z. (2007). A New Initialization Method for Clustering 
Categorical Data. In Advances in Knowledge Discovery and Data Mining (pp. 
972–980). https://doi.org/10.1007/978-3-540-71701-0_109 

Wu, D., Li, J., Xia, T., Bao, C., Zhao, Y., & Dai, Q. (2018). A multiobjective optimization 
method considering process risk correlation for project risk response planning. 
Information Sciences, 467, 282–295. https://doi.org/10.1016/j.ins.2018.07.013 

Wüthrich, M.V. (2020). Bias regularization in neural network models for general 
insurance pricing. European Actuarial Journal 2019 10:1, 10(1), 179–202. 
https://doi.org/10.1007/S13385-019-00215-Z 

Xu, H., Zeng, W., Zeng, X., & Yen, G.G. (2019). An evolutionary algorithm based on 
Minkowski distance for many-objective optimization. IEEE Transactions on 
Cybernetics, 49(11), 3968–3979. https://doi.org/10.1109/TCYB.2018.2856208 

https://doi.org/10.1145/1401890.1401975
https://doi.org/10.1080/01621459.1963.10500845
https://doi.org/10.2307/2986843
http://www.springer.com/series/11970
https://doi.org/10.1042/BST0310603
https://arxiv.org/abs/cs/9701101v1
https://doi.org/10.1007/978-3-642-55721-7_23
https://doi.org/10.1198/JASA.2010.TM09415
https://doi.org/10.1007/S13347-019-00355-W
https://doi.org/10.1007/978-3-540-71701-0_109
https://doi.org/10.1016/j.ins.2018.07.013
https://doi.org/10.1007/S13385-019-00215-Z
https://doi.org/10.1109/TCYB.2018.2856208


Bibliografía  

~ 236 ~ 
 

Yang, M. (2018). Bias, Discrimination, and Algorithmic Fairness. Retrieved 19 August 
2021, from Carlson School of Management website: 
https://mochenyang.github.io/2018/08/11/Algorithmic-Fairness.html 

Yaochu, J. (2006). Multiobjective Machine Learning (Vol. 16). Springer Science & 
Business Media. Springer, Berlin, Heidelberg https://doi.org/10.1007/3-540-33019-
4 

Yapo, P.O., Gupta, H.V., & Sorooshian, S. (1998). Multi-objective global optimization 
for hydrologic models. Journal of Hydrology, 204(1–4), 83–97. 
https://doi.org/10.1016/S0022-1694(97)00107-8 

Yevseyeva, I., Basto-Fernandes, V., Ruano-Ordás, D., & Méndez, J. R. (2013). 
Optimising anti-spam filters with evolutionary algorithms. Expert Systems with 
Applications, 40(10), 4010–4021. https://doi.org/10.1016/j.eswa.2013.01.008 

Yoseph, F., Malim, A.H., Hashimah, N., Heikkilä, M., Adrian, B., Oana, G., & Aqilah, 
P.R.N. (2020). The impact of big data market segmentation using data mining and 
clustering techniques. Journal of Intelligent and Fuzzy Systems, 38(5), 6159–
6173. https://doi.org/10.3233/JIFS-179698 

Yu, S.S., Chu, S.W., Wang, C.M., Chan, Y.K., & Chang, T.C. (2018). Two improved k-
means algorithms. Applied Soft Computing Journal, 68, 747–755. 
https://doi.org/10.1016/j.asoc.2017.08.032 

Yu, R., Li, Q., Fischer, C., Doroudi, S., & Xu, D. (2020). Towards Accurate and Fair 
Prediction of College Success: Evaluating Different Sources of Student Data. 
International Educational Data Mining Society, 292–301. 
https://facctconference.org/ 

Yule, G.U. (1912). On the methods of measuring asociation between two attributes. 
Journal of the Royal Statistical Society1, 75, 579–642. 
http://dx.doi.org/10.2307/2340126 

Zafar, M.B., Valera, I., Rodríguez, M.G., & Gummadi, K. P. (2017). Fairness 
Constraints: Mechanisms for Fair Classification. Proceedings of the 20th 
International Conference on Artificial Intelligence and Statistics, AISTATS 2017. 
https://arxiv.org/abs/1507.05259v5 

Zemel, R., Wu, L. Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning Fair 
Representations. Proceedings of the 30th International Conference on Machine 
Learning, 28(3), 325-333. https://proceedings.mlr.press/v28/zemel13.html 

Zezula, P., Amato, G., Dohnal, V., & Batko, M. (2006). Similarity Search The Metric 
Space Approach. 32. https://doi.org/10.1007/0-387-29151-2 

Zhang, T., Ramakrishnan, R., & Livny, M. (1996). BIRCH: An Efficient Data Clustering 
Method for Very Large Databases. ACM SIGMOD Record, 25(2), 103–114. 
https://doi.org/10.1145/235968.233324 

https://mochenyang.github.io/2018/08/11/Algorithmic-Fairness.html
https://doi.org/10.1007/3-540-33019-4
https://doi.org/10.1007/3-540-33019-4
https://doi.org/10.1016/S0022-1694(97)00107-8
https://doi.org/10.1016/j.eswa.2013.01.008
https://doi.org/10.3233/JIFS-179698
https://doi.org/10.1016/j.asoc.2017.08.032
https://facctconference.org/
http://dx.doi.org/10.2307/2340126
https://arxiv.org/abs/1507.05259v5
https://proceedings.mlr.press/v28/zemel13.html
https://doi.org/10.1007/0-387-29151-2
https://doi.org/10.1145/235968.233324


Bibliografía  

~ 237 ~ 
 

Zhang, T., Ramakrishnan, R., & Livny, M. (1997). BIRCH: A new data clustering 
algorithm and its applications. Data Mining and Knowledge Discovery, 1(2), 141–
182. https://doi.org/10.1023/A:1009783824328 

Zhang, B., Hsu, M., & Dayal, U. (1999). K-Harmonic Means-A Data Clustering 
Algorithm. Hewlett-Packard Labs Technical Report HPL-1999-124, 55. 

Zhang B., Hsu M., & Dayal U. (2001) K-Harmonic Means -A Spatial Clustering 
Algorithm with Boosting. In: Roddick J.F., Hornsby K. (eds) Temporal, Spatial, and 
Spatio-Temporal Data Mining. Lecture Notes in Computer Science, vol 2007, 31-
45. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-45244-3_4 

Zhang, B., & Srihari, S.N. (2003). Binary vector dissimilarity measures for handwriting 
identification. Document Recognition and Retrieval X, 5010, 28–38. 
https://doi.org/10.1117/12.473347 

Zhang, Z., & Neill, D.B. (2016). Identifying Significant Predictive Bias in Classifiers. 
https://arxiv.org/abs/1611.08292v2 

Zhou, A., Qu, B.Y., Li, H., Zhao, S.Z., Suganthan, P.N., & Zhang, Q. (2011). 
Multiobjective evolutionary algorithms: A survey of the state of the art. Swarm and 
Evolutionary Computation, 1(1), 32–49. 
https://doi.org/10.1016/j.swevo.2011.03.001 

Zhu, L., Lei, J. S., Bi, Z. Q., & Yang, J. (2013). Soft subspace clustering algorithm for 
streaming data. Ruan Jian Xue Bao/Journal of Software, 24(11), 2610–2627. 
https://doi.org/10.3724/SP.J.1001.2013.04469 

Zhu, E., & Ma, R. (2018). An effective partitional clustering algorithm based on new 
clustering validity index. Applied Soft Computing Journal, 71, 608–621. 
https://doi.org/10.1016/j.asoc.2018.07.026 

Ziko, I.M., Granger, E., Yuan, J., & Ayed, I. Ben. (2019). Variational Fair Clustering. 
Cornell University. http://arxiv.org/abs/1906.08207 

Zliobaite, I. (2015a). A survey on measuring indirect discrimination in machine learning. 
ACM. https://arxiv.org/abs/1511.00148v1 

Zliobaite, I. (2015b). On the relation between accuracy and fairness in binary 
classification. The 2nd Workshop on Fairness, Accountability, and Transparency 
In Machine Learning, b. https://arxiv.org/abs/1505.05723v1 

  
https://doi.org/10.1023/A:1009783824328
https://doi.org/10.1007/3-540-45244-3_4
https://doi.org/10.1117/12.473347
https://arxiv.org/abs/1611.08292v2
https://doi.org/10.1016/j.swevo.2011.03.001
https://doi.org/10.3724/SP.J.1001.2013.04469
https://doi.org/10.1016/j.asoc.2018.07.026
http://arxiv.org/abs/1906.08207
https://arxiv.org/abs/1511.00148v1
https://arxiv.org/abs/1505.05723v1


Bibliografía  

~ 238 ~ 
 

Anexos  

~ 239 ~ 
 

ANEXOS 

 
ANEXOS 

  
Anexos  

~ 240 ~ 
 

Anexos  

~ 241 ~ 
 

ANEXO 1 

Gráficas correspondientes al análisis de estabilidad de las Bases de Datos 

 
Figura A.1: Base de Datos de tipo mixto “Absenteeism” 

 
Figura A.2: Base de Datos de tipo mixto “Airline” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST


Anexos  

~ 242 ~ 
 

Figura A.3: Base de Datos de tipo mixto “Australian Credit” 

 
Figura A.4: Base de Datos de tipo mixto “Bank Marketing” 

 
Figura A.5: Base de Datos de tipo mixto “Customer Segmentation” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST


Anexos  

~ 243 ~ 
 

Figura A.6: Base de Datos de tipo mixto “German Credit FC1” 

 
Figura A.7: Base de Datos de tipo mixto “Heart Disease” 

 
Figura A.8: Base de Datos categórica “Autism” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST


Anexos  

~ 244 ~ 
 

Figura A.9: Base de Datos categórica “Breast Cancer” 

 
Figura A.10: Base de Datos categórica “Cars Insurance” 

 
Figura A.11: Base de Datos categórica “Census Income” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST


Anexos  

~ 245 ~ 
 

Figura A.12: Base de Datos categórica “German Credit FC2” 

 
Figura A.13: Base de Datos categórica “German Credit FC3” 

 
Figura A.14: Base de Datos categórica “HR IBM” 

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST


Anexos  

~ 246 ~ 
 

Figura A.15: Base de Datos categórica “Human Resources” 

 
Figura A.16: Base de Datos categórica “Nursery” 

 
0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10

FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST


Anexos  

~ 247 ~ 
 

ANEXO 2 

A Fair-Multicluster approach to Clustering of Categorical Data 

Carlos Santos-Mangudo (*); Antonio J. Heras (**) 

Financial and Actuarial Economics & Statistics Department 

Complutense University of Madrid 

Campus de Somosaguas, s / n, 28223 Pozuelo de Alarcón, Spain 

(*) email: casant01@ucm.es 

(*) orcid: https://orcid.org/0000-0001-5514-1802 

(**) email: aheras@ccee.ucm.es 

(**) orcid: https://orcid.org/0000-0002-0506-2388 

January 14, 2022 

ABSTRACT 

In the last few years, the need of preventing classification biases due to race, gender, social status, etc. has increased 

the interest in designing fair clustering algorithms. The main idea is to ensure that the output of a cluster algorithm 

is not biased towards or against specific subgroups of the population. There is a growing specialized literature on 

this topic, dealing with the problem of clustering numerical data bases. Nevertheless, to our knowledge, there are no 

previous papers devoted to the problem of fair clustering of pure categorical attributes. 

In this paper, we show that the Multicluster methodology proposed by Santos and Heras (2020) for clustering 

categorical data, can be modified in order to increase the fairness of the clusters. Of course, there is a trade-off 

between fairness and efficiency, so that an increase in the fairness objective usually leads to a loss of classification 

efficiency. Yet it is possible to reach a reasonable compromise between these goals, since the methodology proposed 

by Santos and Heras (2020) can be easily adapted in order to get homogeneous and fair clusters. 

Keywords: clustering, fairness, fair clustering, categorical data 

INTRODUCTION 

Cluster Analysis can be defined as a set of techniques for finding homogeneous subsets (clusters) in a given dataset. 

The clusters should be homogeneous, in the sense that the elements within each subset should be quite similar to 

each other. Also, elements belonging to different clusters should be quite different. In other words, elements in the 

same cluster should show a high similarity, and elements belonging to different subsets should show a low similarity.  

Different induction principles lead to a number of clustering techniques. According to Fraley and Raftery (1998), 

clustering techniques can be classified into hierarchical and partitioned methods. Han et al. (2012) classifies them 

into density-based, model-based and grid-based methods.  

There is an extensive literature on this subject. Among the most frequently used algorithms for cluster analysis, we 

can mention, the CURE and ROCK algorithms (Guha et al., 2000; 2001), the K-Modes algorithm (Huang, 1997a; 

1997b; 1998; 2009), the K-Prototypes algorithm (Huang, 2005; Ji et al., 2020), the K-Means algorithm (MacQueen, 

1967), the DBSCAN algorithm (Pietrzykowski, 2017; Zhu et al., 2013) or the IDCUP algorithm (Altaf et al., 2020). 

https://orcid.org/0000-0002-0506-2388


Anexos  

~ 248 ~ 
 

A data set can be considered as a matrix where the rows are the observations, individuals or elements, and the 

columns are the features, attributes or traits associated to these elements. Many well-known clustering algorithms, 

such as the popular K-Means, only work with numerical datasets, where all the attributes are numerically measured. 

K-Means (Forgy, 1965; McQueen, 1967) associates the clusters to their average values (centers of gravity) and 

assigns the elements to their nearest clusters; the algorithm then calculates the new centers of gravity and reallocates 

the elements to the new clusters. These steps shall be repeated until no more changes are observed or a maximum 

number of iterations is reached. 

In some datasets, however, we find categorical data, with non-numerical attributes, and K-Means no longer works. 

The widely used K-Modes algorithm (Huang, 1997a; 1997b; 1998) is based on similar ideas and is adapted to work 

with categorical data. Instead of centers of gravity and Euclidean distances, K-Modes uses “centroids” defined from 

the modes of the categorical attributes, and measures of “dissimilarity” to quantify the distances between them.  

The final results given by both K-Means and K-Modes often depend on the selection of the initial “seeds”. Since 

this selection process usually involves some randomization scheme, the results can be instable, i.e. running an 

algorithm several times on the same dataset can lead to different final allocations. Some solutions for this problem 

have been suggested in the literature: see Ahmad and Dey (2007a, 2007b), Cao et al. (2009),  Gan et al. (2005), 

Jiang et al. (2016), Khan and Ahmad (2012, 2013, 2015), Ng & Wong (2002), Sajidha et al. (2018), Santos & Heras 

(2020). It is also worth mentioning K-Means++ (Arthur and Vassilvitskii, 2007), an important variation of K-Means, 

that improves the running time of Lloyd’s algorithm and the quality of the final solution. Moreover, it is implemented 

in most numerical packages, e.g.: scikit-learn or Matlab. 

Besides the classification efficiency and the stability of the results, a new problem has received a lot of attention in 

the last years. Classification algorithms are increasingly applied to many important economic and social problems, 

such as prediction of criminal behaviour, screening of job applicants, mortgage approvals, marketing research or 

insurance rating, among many others. Human supervision of many decision making processes is progressively being 

replaced by automated data analysis, and there is a growing concern in our societies about the lack of human control 

of the outcomes.  

For instance, an important potential problem is that the output of the algorithms could unreasonably harm or benefit 

some groups of people that share sensitive attributes, related to gender, race, religion, social status, etc. These 

discrimination problems are often unintended, due to the complexity of the algorithmic processing of huge amounts 

of data. As a consequence, the need to prevent these classification biases related to sensitive attributes has increased 

the interest in designing fair clustering algorithms. The meaning of “fairness” in this case is to ensure that the outputs 

of the algorithms are not biased towards or against specific subgroups of the population.  

The literature on the issue of fair clustering is extensive: see, among others, Abraham et al. (2020), Chierichetti et 

al (2017), Chen et al. (2019), Esmaeili et al. (2020), Kleindessner et al. (2019), Ziko et al. (2019). However, all these 

papers have studied the numerical case. To our knowledge, there are no previous papers devoted to the problem of 

fair clustering of pure categorical datasets. 

In this paper, we put forward a modification of the Multicluster methodology proposed by Santos and Heras (2020) 

for clustering categorical data, in order to reach a compromise between fairness and classification efficiency. As we 

shall see, the output of the proposed algorithm combines a total stability with a high degree of fairness and efficiency. 

The outline of the paper is as follows: in the first section (Fair clustering of categorical data) we give a brief 

description of the main ideas of the paper. In the second section (Methods) we explain how the fair clustering 

algorithm operates. In the third section (Experimental Results), several well-known real databases are used to 


Anexos  

~ 249 ~ 
 

illustrate the application of the methodology, showing good results in terms of clustering efficiency and fairness. 

Concluding remarks are presented in the last sections (Discussion and Conclusions). 

FAIR CLUSTERING OF CATEGORICAL DATA 

Santos and Heras (2020) have proposed a new methodology for clustering categorical data, based on the so-called 

“multiclusters”. Each multicluster is associated to a non-empty combination of the attributes of the data set, so that 

the objects belonging to it show a total coincidence in the values of their attributes. However, since the number of 

multiclusters may be excessive, it is often required to reduce it, in order to reach the desired (usually small) number 

of final clusters. For this purpose, the algorithm takes the biggest clusters as “seeds” and associates them to the 

smaller clusters, taking into account the similarities between their attributes. This way, those Multiclusters showing 

a great number of coincidences between their attributes will be eventually tied together, giving rise to greater clusters 

sharing many (not all) of their attributes. The process ends when the desired number of final clusters is reached. 

In this paper we show that this clustering algorithm for categorical data can easily be adapted to getting not only 

efficient but also fair clusters. Following previous works on fair clustering for numerical data (Chierichetti et al, 

2017), we assume a protected attribute in the database, such as gender or ethnicity.  

Under the legal doctrine of Disparate Impact, a decision making process is considered discriminatory or unfair if it 

has a disproportionately adverse impact on the protected classes (Barocas & Selbst, 2016).  Unlike the doctrine of 

Disparate Treatment, Disparate Impact is not concerned with intent or motivations, it only focuses on the outcomes. 

Under this doctrine, a clustering algorithm is fair if it leads to a set of fair clusters, and a cluster is fair if it has a 

proper representation of the values of the protected attribute: for instance, 50% males and 50% females, if the 

protected attribute is Gender. Notice, however, that the desired proportions of the values of that attribute are not 

necessarily identical in all cases: if the gender proportions in the dataset are highly unbalanced, forcing an equal 

representation of males and females in the final clusters may lead to unreasonable proportions of other attributes. 

For this reason, the desired proportions can also be defined as the proportions of the protected attribute in the dataset. 

If the gender ratio in the dataset is, for instance, 30%-70%, then it should be the same or quite similar in the final 

clusters.  

The Multicluster algorithm can be modified in order to increase the fairness of the obtained clusters. Of course, there 

is a trade-off between fairness and efficiency, so that, if we want to increase the fairness, we have to give up some 

classification efficiency. Yet it is possible to reach a reasonable compromise between these goals. The idea is to add 

a new step in the algorithm, in which we link two clusters when the distribution of the protected attribute after linking 

the clusters is closer to the desired distribution. This procedure is repeated until the desired number of clusters is 

reached. 

METHODS 

In this section we explain how the “Fair Multicluster” algorithm for categorical data works. We assume the existence 

of a protected attribute in the data set, and also of desired ratios between its values. The goal of the algorithm is to 

split the total data base into a set of homogeneous and fair clusters: homogeneous, because each of them must contain 

only similar observations; and fair, because the proportions of the values of the protected attribute must be close to 

the desired proportions. 

 
Anexos  

~ 250 ~ 
 

The algorithm works as follows: 

Step 1: 

1. We identify the clusters for each single attribute with its different categorical values. For example, if a given 

attribute only has two values A and B, these are also the clusters associated to that criterion.  

2. We merge all the possible single-attribute clusters in order to get the initial set of “Multiclusters”. For example, if 

there are only two attributes with values A, B and C, D, E, respectively, then there will be six “Multiclusters”: AC, 

AD, AE, BC, BD and BE. Notice that all the elements belonging to a given Multicluster show a total coincidence of 

the values of their attributes. This initial set of Multiclusters gives us the maximum number of clusters, which may 

be large. However, in real examples many of them are usually empty, so that the number of non-empty Multiclusters 

is much more reduced.  

Step 2: 

1. For every couple of clusters, we compute the number of coincidences between their attributes.  For example, the 

number of coincidences between AC and AD is one (A), and the number of coincidences between AC and BD is 

zero. This information is shown in the so-called Coincidence Matrix. 

2. For every row of the Coincidence Matrix obtained before, select the column with the highest number of 

coincidences and merge the respective Multiclusters. The elements belonging to these new and bigger clusters share 

many (but not all) attributes. When two or more columns can be selected, we can break the tie by means of the 

Fleiss’ Kappa coefficient (Fleiss et al., 1969, 2003; Fleiss, 1971), a widely used measure of the degree of similarity 

between objects with categorical attributes. Notice that, if we have already compared cluster “A” and cluster “B”, 

we don’t need to further compare cluster “B” and cluster “A”. For this reason, in this procedure we only need to 

work with the upper triangle of the matrix.  

Step 3: 

1. We form a table with the optimal clusters obtained in the previous step, ranked in increasing order according to 

their size. For every row (cluster) of the table, we link it with other row (cluster) of the same table such that the 

resulting ratios of the values of the protected attribute are the closest to the desired ratios. This way, we obtain a new 

set of bigger clusters with a distribution of the protected attribute closer to the desired distribution.  

2. We repeat the previous step until the predefined number of desired clusters is reached. The output of the algorithm 

is a set of clusters with a high degree of homogeneity and fairness. 

To illustrate the methodology, the "German Credit" database from UCI Machine Learning Repository (Dua & Graff, 

2019) has been used as an unsupervised dataset; we work with a random sample of 20 observations and 9 categorical 

attributes, which we show in Table 1. 


Anexos  

~ 251 ~ 
 

Table 1: A sample of 20 observations from the German Credit dataset 

 
The first step of the algorithm is the calculation of the clusters for every single attribute, which correspond to their 

different values. Table 2 shows the distribution of clusters for each attribute, obtained in step 1.1. We choose Gender 

as protected attribute, with two values, Male (M) and Female (F). To ensure the reproducibility of the analysis, we 

rank the values of the attributes in increasing order according to their size. 

Table 2: Cluster distribution of the attributes 

 
Observation
Status

account 
Credit
history

Purpose Savings Employment Installment Gender Debtors Residence Property Others Housing Credits Job
Number 
people

Telephone Foreign

775 A13 A34 A40 A63 A71 2 M A101 4 A124 A141 A153 3 A171 1 A191 A201

204 A11 A32 A48 A61 A74 4 M A101 4 A122 A143 A151 1 A173 1 A191 A201

699 A14 A34 A43 A61 A73 4 M A101 2 A123 A143 A152 2 A173 1 A191 A201

250 A14 A32 A43 A61 A71 3 F A102 4 A121 A143 A151 1 A173 1 A191 A201

593 A14 A32 A49 A64 A75 4 F A101 4 A121 A141 A152 1 A172 1 A191 A201

661 A13 A32 A43 A61 A73 3 M A101 4 A121 A143 A151 1 A173 1 A191 A201

463 A12 A32 A42 A61 A72 3 F A101 1 A121 A143 A151 1 A174 1 A191 A201

828 A14 A30 A49 A61 A73 2 M A101 2 A123 A142 A152 2 A173 2 A191 A201

845 A14 A32 A42 A61 A75 4 M A101 4 A122 A141 A152 3 A173 2 A192 A201

11 A12 A32 A40 A61 A72 3 F A101 1 A123 A143 A151 1 A173 1 A191 A201

896 A14 A33 A41 A65 A74 3 M A101 2 A123 A142 A152 1 A174 2 A192 A201

379 A12 A32 A40 A61 A75 4 M A101 2 A124 A143 A153 1 A174 1 A192 A201

989 A11 A32 A41 A61 A71 4 M A101 2 A124 A143 A153 1 A174 1 A192 A201

323 A11 A32 A41 A61 A74 2 M A101 1 A124 A143 A153 1 A174 1 A192 A201

716 A14 A34 A41 A65 A75 1 M A101 4 A123 A143 A152 2 A173 1 A191 A201

619 A12 A32 A42 A62 A73 2 F A102 4 A123 A143 A151 1 A173 1 A191 A201

908 A12 A32 A46 A65 A73 2 M A101 2 A123 A143 A152 1 A173 1 A191 A201

955 A11 A32 A40 A61 A73 4 F A103 4 A122 A143 A152 1 A173 1 A192 A201

209 A11 A32 A49 A61 A73 2 M A101 2 A123 A142 A152 1 A172 1 A191 A201

304 A11 A34 A40 A61 A74 4 M A102 3 A122 A143 A152 2 A173 1 A192 A201

Status account Frecuency Cluster Credit history Frecuency Cluster Purpose Frecuency Cluster
A13 2 1 A30 1 1 A46 1 1
A12 10 2 A33 2 2 A48 2 2
A11 18 3 A34 12 3 A42 9 3
A14 28 4 A32 56 4 A43 12 4

A49 15 5
A41 24 6
A40 35 7

Savings Frecuency Cluster Employment Frecuency Cluster Installment Frecuency Cluster
A62 1 1 A72 2 1 1 1 1
A63 2 2 A71 6 2 3 10 2
A64 3 3 A74 12 3 2 18 3
A65 12 4 A75 16 4 4 32 4
A61 70 5 A73 35 5

Gender Frecuency Cluster Debtors Frecuency Cluster Residence Frecuency Cluster
F 6 1 A103 1 1 3 1 1
M 28 2 A102 6 2 1 6 2

A101 48 3 2 21 3
4 36 4

Property Frecuency Cluster Others Frecuency Cluster Housing Frecuency Cluster
A121 4 1 A141 3 1 A153 4 1
A122 8 2 A142 6 2 A151 12 2
A124 12 3 A143 42 3 A152 30 3
A123 32 4

Credits Frecuency Cluster Job Frecuency Cluster Number people Frecuency Cluster
3 2 1 A171 1 1 2 3 1
2 8 2 A172 4 2 1 34 2
1 42 3 A174 15 3

A173 48 4

Telephone Frecuency Cluster
A192 7 1
A191 26 2


Anexos  

~ 252 ~ 
 

In the step 1.2, we combine all the possible single-attribute clusters in order to get the initial set of multiclusters. 

The maximum number of multiclusters obtained this way can be very high, since it is the product of the number of 

clusters for every attribute of the dataset. In our case, the maximum number of multiclusters will be 4 ∗ 4 ∗ 7 ∗ 5 ∗

5 ∗ 4 ∗ 2 ∗ 3 ∗ 4 ∗ 4 ∗ 3 ∗ 3 ∗ 3 ∗ 4 ∗ 2 ∗ 2 ∗ 1 = 464.486.400. However, almost all of them are empty. Actually, 

there are only 20 nonempty multiclusters, which are shown in Table 3.  

In Table 3, each multicluster contains only one single observation. To identify the multiclusters, we use the numbers 

associated to the values of the attributes in Table 2. Notice that the variables in Table 1 have the original labeling 

given in the dataset German_Credit: for instance, the values of the attributes of the first observation (775) are labeled 

as A13 (for the attribute “Status Account”), A34 (“Credit History”), A40 (“Purpose”), etc. To simplify the notation, 

in Table 2 these labels are substituted by numbers: according to Table 2, A13 will be “1”, A34 will be “3”, A40 will 

be “7”, etc. In Table 3 we label the Multiclusters with the numeric values attached to the values of their attributes in 

Table 2. Following this rule, the Multicluster containing observation 775, for example, will be labeled as 

“1372232343111122”. 

Table 3: 20 nonempty Multiclusters 

 
Observation
Status

account
Credit
history

Purpose Savings Employment Installment Gender Debtors Residence Property Others Housing Credits Job
Number
people

Telephone Multicluster

775 1 3 7 2 2 3 2 3 4 3 1 1 1 1 2 2 1372232343111122
204 3 4 2 5 3 4 2 3 4 2 3 2 3 4 2 2 3425342342323422
699 4 3 4 5 5 4 2 3 3 4 3 3 2 4 2 2 4345542334332422
250 4 4 4 5 2 2 1 2 4 1 3 2 3 4 2 2 4445221241323422
593 4 4 5 3 4 4 1 3 4 1 1 3 3 2 2 2 4453441341133222
661 1 4 4 5 5 2 2 3 4 1 3 2 3 4 2 2 1445522341323422
463 2 4 3 5 1 2 1 3 2 1 3 2 3 3 2 2 2435121321323322
828 4 1 5 5 5 3 2 3 3 4 2 3 2 4 1 2 4155532334232412
845 4 4 3 5 4 4 2 3 4 2 1 3 1 4 1 1 4435442342131411
11 2 4 7 5 1 2 1 3 2 4 3 2 3 4 2 2 2475121324323422
896 4 2 6 4 3 2 2 3 3 4 2 3 3 3 1 1 4264322334233311
379 2 4 7 5 4 4 2 3 3 3 3 1 3 3 2 1 2475442333313321
989 3 4 6 5 2 4 2 3 3 3 3 1 3 3 2 1 3465242333313321
323 3 4 6 5 3 3 2 3 2 3 3 1 3 3 2 1 3465332323313321
716 4 3 6 4 4 1 2 3 4 4 3 3 2 4 2 2 4364412344332422
619 2 4 3 1 5 3 1 2 4 4 3 2 3 4 2 2 2431531244323422
908 2 4 1 4 5 3 2 3 3 4 3 3 3 4 2 2 2414532334333422
955 3 4 7 5 5 4 1 1 4 2 3 3 3 4 2 1 3475541142333421
209 3 4 5 5 5 3 2 3 3 4 2 3 3 2 2 2 3455532334233222
304 3 3 7 5 3 4 2 2 1 2 3 3 2 4 2 1 3375342212332421


Anexos  

~ 253 ~ 
 

According to the information given in Table 3, we build the Coincidence Matrix (Table 4): 

Table 4: Coincidence Matrix between multiclusters 

 
In order to reduce the number of clusters, we merge those Multiclusters that share the highest number of values of 

attributes. For each row, when there is only one column showing the highest value of coincidences, we merge the 

corresponding clusters. That is, we merge the clusters associated to that row and to the column corresponding to the 

highest value. This is the situation shown in Table 5, built from the second row of the Coincidence Matrix: in this 

case, the Multiclusters 1445522341323422 and 4445221241323422 should be merged, because they share the values 

of 12 attributes. 

Table 5: an example of multicluster association with only one coincidence 

 
When there are several columns with the highest value, we break the tie by means of the Fleiss-Kappa coefficient 

(Fleiss et al., 1969, 2003; Fleiss, 1971). For example, in Table 6, built from the first row of the Coincidence Matrix, 

we find five columns with 6 coincidences. In this case, the Multiclusters 1372232343111122 and 

3465332323313321 should be merged, because they get the highest value of the Kappa-Fleiss coefficient 

(0.957525773195876). If there are several Multiclusters having the same highest Kappa concordance value, the first 

of them should be selected following the top-down methodology. 

Table 6: An example of Multicluster association with more than one coincidence 

 
Multicluster Freq

13
72

23
23

43
11

11
22

14
45

52
23

41
32

34
22

24
14

53
23

34
33

34
22

24
31

53
12

44
32

34
22

24
35

12
13

21
32

33
22

24
75

12
13

24
32

34
22

24
75

44
23

33
31

33
21

33
75

34
22

12
33

24
21

34
25

34
23

42
32

34
22

34
55

53
23

34
23

32
22

34
65

24
23

33
31

33
21

34
65

33
23

23
31

33
21

34
75

54
11

42
33

34
21

41
55

53
23

34
23

24
12

42
64

32
23

34
23

33
11

43
45

54
23

34
33

24
22

43
64

41
23

44
33

24
22

44
35

44
23

42
13

14
11

44
45

22
12

41
32

34
22

44
53

44
13

41
13

32
22

1372232343111122 1 6 5 4 3 4 6 4 5 5 6 6 3 4 2 5 6 5 4 5

1445522341323422 1 9 9 10 10 7 5 11 8 7 7 8 6 4 9 7 6 12 7

2414532334333422 1 10 7 9 8 5 8 11 7 7 7 9 7 10 9 5 6 6

2431531244323422 1 9 10 5 4 8 7 4 5 8 5 2 6 6 4 10 6

2435121321323322 1 13 8 3 8 6 7 8 6 3 4 5 4 4 10 7

2475121324323422 1 8 5 9 7 6 7 8 5 4 7 6 4 10 6

2475442333313321 1 7 8 7 13 11 8 4 6 7 5 7 5 6

3375342212332421 1 9 5 7 7 10 5 4 9 7 7 5 3

3425342342323422 1 8 9 9 10 5 4 8 7 8 9 7

3455532334233222 1 8 8 7 11 7 9 6 5 5 8

3465242333313321 1 13 8 4 7 7 5 6 6 5

3465332323313321 1 7 4 7 5 5 5 5 4

3475541142333421 1 4 3 7 5 8 8 7

4155532334232412 1 8 11 8 7 4 5

4264322334233311 1 6 7 6 3 4

4345542334332422 1 11 7 7 6

4364412344332422 1 7 6 7

4435442342131411 1 5 8

4445221241323422 1 8

4453441341133222 1 17

Multicluster Freq

13
72

23
23

43
11

11
22

14
45

52
23

41
32

34
22

24
14

53
23

34
33

34
22

24
31

53
12

44
32

34
22

24
35

12
13

21
32

33
22

24
75

12
13

24
32

34
22

24
75

44
23

33
31

33
21

33
75

34
22

12
33

24
21

34
25

34
23

42
32

34
22

34
55

53
23

34
23

32
22

34
65

24
23

33
31

33
21

34
65

33
23

23
31

33
21

34
75

54
11

42
33

34
21

41
55

53
23

34
23

24
12

42
64

32
23

34
23

33
11

43
45

54
23

34
33

24
22

43
64

41
23

44
33

24
22

44
35

44
23

42
13

14
11

44
45

22
12

41
32

34
22

44
53

44
13

41
13

32
22

1445522341323422 1 9 9 10 10 7 5 11 8 7 7 8 6 4 9 7 6 12 7

Multicluster Freq

13
72

23
23

43
11

11
22

14
45

52
23

41
32

34
22

24
14

53
23

34
33

34
22

24
31

53
12

44
32

34
22

24
35

12
13

21
32

33
22

24
75

12
13

24
32

34
22

24
75

44
23

33
31

33
21

33
75

34
22

12
33

24
21

34
25

34
23

42
32

34
22

34
55

53
23

34
23

32
22

34
65

24
23

33
31

33
21

34
65

33
23

23
31

33
21

34
75

54
11

42
33

34
21

41
55

53
23

34
23

24
12

42
64

32
23

34
23

33
11

43
45

54
23

34
33

24
22

43
64

41
23

44
33

24
22

44
35

44
23

42
13

14
11

44
45

22
12

41
32

34
22

44
53

44
13

41
13

32
22

1372232343111122 1 6 5 4 3 4 6 4 5 5 6 6 3 4 2 5 6 5 4 5


Anexos  

~ 254 ~ 
 

Once the process explained before has been executed for all rows included in the Coincidence Matrix (Table 4), we 

obtain the Optimal Multiclusters Table (Table 7), with 11 nonempty optimal Multiclusters. Of course, the final 

number of clusters could be less than 11, if desired. Further details about Step 2 of the algorithm can be found in 

Santos and Heras (2020). Notice that the clusters with equal frequency in Table 7 are lexicographically sorted. 

Table 7: Optimal Multiclusters Table 

 
In the last step of the algorithm (Step 3), we focus in the fairness objective. We have chosen as the desired ratio of 

the attribute Gender the relative initial proportions of its values in the dataset, 30% (for Female) and 70% (for Male). 

Then, for every row (multicluster) of Table 7 and beginning from the first one, we calculate the (Euclidean) distance 

between the observed ratios of the protected attribute and the desired ratios, after joining it to any of the other 

following rows (multiclusters). That is, for every row (the “Transmitter” multicluster), we select each one of the 

following rows (the “Receiver” multicluster), join the elements of both “Transmitter” and “Receiver” multiclusters 

to form a bigger cluster and calculate the (Euclidean) distance between the ratios of the protected attribute in the 

new bigger cluster and the desired ratios (30%, 70%). The process is repeated with all the following rows, and we 

finally join those rows (multiclusters) such that the ratios of the new cluster are closest to the desired ratios. 

For example, taking the second row in Table 7 (3465242333313320) as Transmitter, the minimum distance to the 

desired ratios (0.0471) is reached by joining it to the Receiver multicluster located in the eighth row 

(4435442342131410): see Table 8 for the details. Joining both rows in a new Table, the procedure is repeated until 

a predetermined number of clusters (k) is reached. 

Optimal
Multiclusters

Frecuency

3455532334233220 1

3465242333313320 1

4155532334232410 1

4345542334332420 1

2475121324323420 2

3465332323313320 2

4364412344332420 2

4435442342131410 2

4445221241323420 2

3475541142333420 3

4453441341133220 3


Anexos  

~ 255 ~ 
 

Table 8: an example of calculation of the distances between a multicluster Transmitter (2nd row of Table 7) 

and the Receivers 

 
Table 9 shows the distribution of the protected attribute with two final clusters (k=2), with a total fairness ratio of 

96% 

Table 9: Observed and Desired Cluster Distributions 

 
EXPERIMENTAL RESULTS 

Datasets Used For Evaluation 

Table 10 shows the categorical databases that are used for the evaluation of the clustering efficiency of the algorithm. 

In all cases there is a response variable, defined as the real cluster in which every observation is placed, which is 

known in advance but not used as an input of the algorithm. This omitted information can be used to evaluate the 

clustering efficiency, by contrasting the real classification of the observations to that given by the algorithm (see, 

among others, Yu et al. (2018), and Zhu and Ma (2018)). 

As for the evaluation of the fairness of the classification, we measure the distance between the desired distribution 

of the protected attribute and its final distribution in the clusters given by the algorithm. In all the examples we 

choose the initial proportions of the values of the protected attribute in the data set as desired proportions to be 

approached in the final clusters. In other terms, the proportions of the values of the protected attribute in the final 

clusters (the output of the algorithm) should be close to their initial observed proportions in the whole data set. Of 

course, any alternative desired distribution could be selected. 

 
3465242333313320 na

4155532334232410 0,4243

4345542334332420 0,4243

2475121324323420 0,5185

3465332323313320 0,4243

4364412344332420 0,4243

3465242333313320 4435442342131410 0,0471

4445221241323420 0,4243

3475541142333420 0,0707

4453441341133220 0,2828

Optimal Multiclusters
(Receiver)

Distance

Optimal Multicluster
(Transmitter)

1 2

Total achieved per Cluster 98% 93% Female 30%

Overall total achieved Male 70%96%

Observed Distribution
"GENDER"

(Proposed Algorithm)

Final Clusters Desired Distribution
"GENDER"
(in Dataset)

%


Anexos  

~ 256 ~ 
 

Table 10: The datasets used in the experimental analysis 

 
1. Kaggle Data Repository 

2. UCI Machine Learning Repository (Dua and Graff, 2019) 

3. Machine Learning Data Repository 

4. Macquarie Australia University Data Repository 

5. This column shows the desired number (k) of final clusters selected by the decision-maker 

Evaluation Metrics 

Many measures of the degree of similarity between different partitions of the same data set have been proposed in 

the literature: see, among others, Dom (2002), Headden et al. (2008), Meilâ (2007), Reichart and Rappoport (2009), 

Rosenberg and Hirschberg (2007), Vinh et al. (2010), Wagner and Wagner (2007), Walker and Ringger (2008). We 

have selected four well-known measures of the similarity between two partitions P and R of a given data set. In our 

applications, P will be the output of the clustering algorithm, and R the “real” partition observed in the data set. 

I) “Fowlkes-Mallows index” (Fowlkes and Mallows, 1983). High values of the Fowlkes–Mallows index indicate a 

great similarity between the clusters. It is defined as: 

𝑭𝑭𝑭𝑭𝑭𝑭 = �
𝑇𝑇𝑃𝑃

𝑇𝑇𝑃𝑃 + 𝐹𝐹𝑃𝑃
 ∙  

𝑇𝑇𝑃𝑃
𝑇𝑇𝑃𝑃 + 𝐹𝐹𝐹𝐹

 
where: 

• TP as the number of pairs of points that are in the same cluster in both P and R. 
• FP as the number of pairs of points that are in the same cluster in P but not in R 
• FN as the number of pairs of points that are in the same cluster in R but not in P 
• TN as the number of pairs of points that are in different clusters in both P and R 

II) “Maximum-Match Measure” (Meilâ and Heckerman, 2001) is defined as 

𝑭𝑭𝑭𝑭𝑭𝑭 =
1
𝑛𝑛
�𝑚𝑚𝑚𝑚𝑥𝑥𝑖𝑖

𝑘𝑘

𝑖𝑖=1

𝑚𝑚𝑖𝑖𝑖𝑖 

where 𝑚𝑚𝑖𝑖𝑖𝑖 is the number of observations belonging to both clusters 𝑃𝑃𝑖𝑖 and 𝑅𝑅𝑖𝑖 and n is   the total number of 

observations in the data set. 

III) “Normalized Variation of Information Measure” (Reichart and Rappoport, 2009) is a normalized 

version of the VI- Variation of Information measure (Meila, 2007); it is defined as: 


Anexos  

~ 257 ~ 
 

𝑵𝑵𝑵𝑵𝑭𝑭 = �
𝐻𝐻(𝑃𝑃|𝑅𝑅) +𝐻𝐻(𝑅𝑅|𝑃𝑃)

𝐻𝐻(𝑃𝑃)
         𝐻𝐻(𝑃𝑃) ≠ 0

𝐻𝐻(𝑅𝑅)                                   𝐻𝐻 (𝑃𝑃) = 0 
 

where H(P) and H(R) are the entropies of the partitions P and R, and H(P|R) and H(R|P) are their conditional 

entropies. 

IV) “Overlap coefficient” (Vijaymeena and Kavitha, 2016) also known as Szymkiewicz-Simpson 

coefficient, is a similarity measure based on the concept of the overlap between sets. Given two finite sets P and R, 

the overlap between them is defined as the size of the intersection divided by the smallest size of the two sets: 

𝑶𝑶𝑭𝑭 =
𝑃𝑃 ∩ 𝑅𝑅

min (|𝑃𝑃|, |𝑅𝑅|)
 

For the evaluation of fairness, we use the Euclidean distance between the desired distribution of the protected 

attribute and its final distribution in the clusters given by the algorithm: 

𝐹𝐹𝑚𝑚𝑖𝑖𝑖𝑖𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 𝑖𝑖𝑚𝑚𝑟𝑟𝑖𝑖𝑟𝑟 =
∑ (1− 𝑖𝑖𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑑𝑑𝑖𝑖𝑚𝑚𝑛𝑛 𝑑𝑑𝑖𝑖𝑖𝑖𝑟𝑟𝑚𝑚𝑛𝑛𝑒𝑒𝑖𝑖(𝑂𝑂𝑂𝑂𝑖𝑖𝑖𝑖𝑖𝑖𝑂𝑂𝑖𝑖𝑑𝑑𝑖𝑖;𝐷𝐷𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑑𝑑)𝑖𝑖=𝑘𝑘
𝑖𝑖=1

𝑛𝑛𝑒𝑒𝑚𝑚𝑂𝑂𝑖𝑖𝑖𝑖 𝑟𝑟𝑜𝑜 𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑟𝑟𝑖𝑖𝑖𝑖𝑖𝑖 (𝑘𝑘)  

Performance Results 

Table 11 shows the clustering efficiency of three algorithms (Multicluster, Fair-Multicluster and K-Modes) for the 

data sets in Table 10, measured by means of the Fowlkes-Mallows measure, the Maximum-Match measure, the 

Normalized Variation of Information measure and the Overlap measure. The highest performances are shown by 

bold-faced numbers. We conclude that Multicluster and Fair-Multicluster outperform K-Modes in most cases. 

Table 11: Comparison of classification efficiencies 

 
To better understand the proposed fairness measure, we give a detailed calculation of its value for the “Human 

Resources FC2” data set. The elements of this dataset have 3 different values of the Fairness or protected attribute 

(Marital Status): Divorced (14%), Married (41%) and Single (45%). Therefore, the “desired” distribution of this 

attribute will be (0.14, 0.41, 0.45).  

Table 12 shows the final distributions of this attribute in each of the four clusters given by the Fair-Multicluster 

algorithm:  

 
FMI MMM NVI OI FMI MMM NVI OI FMI MMM NVI OI

Absenteeism 0,657 0,655 0,960 0,943 0,432 0,288 0,972 0,957 0,501 0,352 0,964 0,947

Bank Marketing 0,657 0,643 1,000 0,796 0,636 0,562 1,000 0,796 0,679 0,711 0,998 0,789

CARS_Insurance 0,859 0,966 1,000 0,933 0,732 0,801 1,000 0,789 0,643 0,617 0,999 0,787

German Credit FC1 0,546 0,601 0,997 0,576 0,690 0,906 0,999 0,826 0,643 0,804 0,994 0,699

German Credit FC2 0,753 0,988 1,000 0,977 0,715 0,936 1,000 0,881 0,543 0,582 0,997 0,577

Human Resources FC1 0,473 0,490 0,971 0,620 0,438 0,435 0,988 0,643 0,405 0,353 0,979 0,623

Human Resources FC2 0,473 0,490 0,971 0,620 0,421 0,404 0,977 0,637 0,412 0,360 0,993 0,624

HR IBM 0,618 0,851 0,996 0,740 0,542 0,716 0,999 0,559 0,437 0,430 0,983 0,532

Census Income FC1 0,672 0,774 0,973 0,685 0,672 0,812 0,996 0,707 0,578 0,630 0,911 0,626

Census Income FC2 0,692 0,809 0,976 0,724 0,567 0,569 0,999 0,629 0,582 0,674 0,933 0,618

DATASET

K-MULTICLUSTER
(Santos and Heras, 2020)

PROPOSED ALGORITHM
FAIR-MULTICLUSTER K-MODES


Anexos  

~ 258 ~ 
 

Table 12: Final clustering distribution of Fair-Multicluster algorithm 

 
Then, we can calculate the Fairness measure as the average of the distances between the observed vectors and 

desired vectors for each final cluster: 

𝐹𝐹𝑚𝑚𝑖𝑖𝑖𝑖𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 𝑖𝑖𝑚𝑚𝑟𝑟𝑖𝑖𝑟𝑟 =
∑ (1 − 𝑖𝑖𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑑𝑑𝑖𝑖𝑚𝑚𝑛𝑛 𝑑𝑑𝑖𝑖𝑖𝑖𝑟𝑟𝑚𝑚𝑛𝑛𝑒𝑒𝑖𝑖(𝑂𝑂𝑂𝑂𝑖𝑖𝑖𝑖𝑖𝑖𝑂𝑂𝑖𝑖𝑑𝑑𝑖𝑖;𝐷𝐷𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑑𝑑)𝑖𝑖=𝑘𝑘
𝑖𝑖=1

𝑛𝑛𝑒𝑒𝑚𝑚𝑂𝑂𝑖𝑖𝑖𝑖 𝑟𝑟𝑜𝑜 𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑟𝑟𝑖𝑖𝑖𝑖𝑖𝑖 (𝑘𝑘) = 0,981 ~ 98% 

Table 13 shows the Fairness measures of the final clusters given by the three algorithms. We conclude that, 

concerning the Fairness measure, Fair-Multicluster largely outperforms Multicluster and K-Modes in all cases. 

Table 13: Comparative of Fairness classification 

 
On the basis of the results obtained before and shown in Tables 11 and 13, we conclude that the proposed Fair-

Multicluster algorithm has an excellent performance in terms of the fairness measure (as expected), while at the 

same time it outperforms the well-known K-Modes algorithm in terms of classification efficiency. We also conclude 

that the K-Multicluster algorithm often gets better results in terms of this last objective. Actually, the figures in both 

Tables allow comparing the performances of the K-Multicluster and Fair-Multicluster algorithms, thus giving a 

numerical evaluation of the trade-off between efficiency and fairness: considering, for instance, the 

CARS_Insurance dataset, the efficiency ratios are (FMI = 0.859, MMM = 0.966, NVI = 1.000, OI = 0.933) for the 

K-Multicluster algorithm and (three of them) decrease to (FMI = 0.732, MMM = 0.801, NVI = 1.000, OI = 0.789) 

for the Fair-Multicluster algorithm, while at the same time the fairness ratio increases from 0.667 to 0.99.  

DISCUSSION 

The key ideas behind the Fair-Multicluster algorithm are easy to understand in intuitive terms. Perhaps the main 

contribution is the way it combines the initial multiclusters in order to reach a compromise between the opposite 

goals of clustering efficiency and fairness: on the one side, Step 2 merges similar clusters, trying to get highly 

homogeneous clusters in the final classification; on the other side, merging clusters in Step 3 is looking for a fair 

distribution of the values of the protected attribute. In other terms, repeating Step 2 increases the efficiency of the 

final cluster classification, while repeating Step 3 increases the fairness. Since efficiency and fairness often go in 

opposite directions (improving one of them usually has the consequence of worsening the other), we have to 

Divorced Married Single Ovserved

Cluster 1 16,3% 39,5% 44,2% (0.163 , 0.395 , 0.442)

Cluster 2 16,4% 40,3% 43,3% (0.164 , 0.403 , 0.433)

Cluster 3 13,9% 43,1% 43,1% (0.139 , 0.431 , 0.431)

Cluster 4 11,8% 41,8% 46,4% (0.118 , 0.418 , 0.464)

DATASET K-MULTICLUSTER
(Santos and Heras, 2020)

PROPOSED ALGORITHM
FAIR-MULTICLUSTER K-MODES

Absenteeism 0,678 0,98 0,680

Bank Marketing 0,905 0,99 0,958

CARS_Insurance 0,667 0,99 0,551

German Credit FC1 0,933 0,99 0,958

German Credit FC2 0,764 1,00 0,917

Human Resources FC1 0,737 1,00 0,792

Human Resources FC2 0,689 0,97 0,524

HR IBM 0,754 0,97 0,989

Census Income FC1 0,946 0,93 0,497

Census Income FC2 0,960 0,99 0,968


Anexos  

~ 259 ~ 
 

predefine some compromise between them. In practise, this compromise can be achieved by selecting the number 

of iterations of Step 2 before starting Step 3. Actually, working with small and medium size databases, we have seen 

that it is usually enough one single repetition of Step 2 in order to reach a reasonable value of the efficiency. For 

example, working with the German Credit file, we have got a significant improvement of the efficiency only after 5 

iterations of Step 2, with the unfortunate consequence of a great loss of fairness. For this reason, in this paper we 

have worked with only one iteration of Step 2 in the German Credit example, obtaining good values of both 

efficiency and fairness. Nevertheless, when working with bigger files, it may be necessary to perform several 

experiments to find the optimal number of Step 2 iterations. Of course, this procedure can be very time-consuming, 

and the high computing time is perhaps the main drawback of the proposed Fair-Multicluster algorithm. 

CONCLUSIONS AND FUTURE WORK 

Assuming the existence of a protected attribute such as race, gender or social status, in this paper we propose a 

clustering algorithm for finding homogeneous and fair clusters. The clusters should be homogeneous, that is, formed 

by similar elements, and should also be fair, not biased towards or against specific subgroups of the population. Of 

course, there is a trade-off between fairness and efficiency, so that an increase in the fairness objective usually leads 

to a loss of classification efficiency. Yet the so-called Fair-Multicluster algorithm reaches a reasonable compromise 

between these goals. This algorithm can be considered as an adaptation of the K-Multicluster algorithm proposed 

by Santos and Heras (2020) for clustering categorical data bases, an algorithm which can be easily modified in order 

to get homogeneous and fair clusters. 

The high performance of the Fair-Multicluster algorithm has been checked by comparing it with the Multicluster 

and the well-known K-Modes algorithms. Their classification efficiencies and fairness have been calculated in ten 

categorical data bases, using four well-known measures of efficiency and a measure of fairness based on the distance 

between the final distribution of the protected attribute and its desired distribution. As for the classification 

efficiency, Table 11 shows that both K-Multicluster and Fair-Multicluster algorithms outperform K-Modes in most 

cases. With respect to the fairness objective, Table 13 shows the highest performance in all cases of the Fair-

Multicluster algorithm, reaching scores close to 100% in many cases. Besides, the output of the algorithm is stable, 

it is not affected by randomness like the K-Modes algorithm. Stability, classification efficiency and fairness are the 

major benefits of the proposed Fair-Multicluster algorithm. 

Among the future developments of this methodology, we highlight its application to mixed data sets with both 

quantitative and qualitative attributes, and/or to data sets with several (more than one) protected attributes. 

REFERENCES 

Abraham, S. S., P, D., & Sundaram, S. S. (2020). Fairness in Clustering with Multiple Sensitive Attributes. Advances in Database 
Technology - EDBT, 287–298. arXiv:1910.05113 [Online]. Available: http://arxiv.org/abs/1910.05113 

Ahmad, A., & Dey, L. (2007a). A method to compute distance between two categorical values of same attribute in unsupervised 
learning for categorical data set. Pattern Recognition Letters, 28(1), 110–118. https://doi.org/10.1016/j.patrec.2006.06.006 

Ahmad, A., & Dey, L. (2007b). A k-mean clustering algorithm for mixed numeric and categorical data. Data & Knowledge 
Engineering, 63(2), 503–527. https://doi.org/10.1016/j.datak.2007.03.016 

Altaf, S., Waseem Waseem, M., & Kazmi, L. (2020). IDCUP Algorithm to Classifying Arbitrary Shapes and Densities for Center-
based Clustering Performance Analysis. Interdisciplinary Journal of Information, Knowledge, and Management, 15, 091–108. 
https://doi.org/10.28945/4541 

Barocas, S. & Selbst, A.D. (2016). Big Data’s Disparate Impact. California Law Review 104 (3), 671-732. 
http://dx.doi.org/10.2139/ssrn.2477899 

Cao, F., Liang, J., & Bai, L. (2009). A new initialization method for categorical data clustering. Expert Systems with Applications, 
36(7), 10223–10228. https://doi.org/10.1016/j.eswa.2009.01.060 

Chen, X., Fain, B., Lyu, L., & Munagala, K. (2019). Proportionally Fair Clustering. 36th International Conference on Machine 
Learning, ICML 1782–1791. arXiv:1905.03674 [Online]. Available: http://arxiv.org/abs/1905.03674 

Chierichetti, F., Kumar, R., Lattanzi, S., & Vassilvitskii, S. (2017). Fair Clustering Through Fairlets. Advances in Neural 
Information Processing Systems, 5030–5038.  arXiv: 1802.05733 [Online]. Available: http://arxiv.org/abs/1802.05733 

http://arxiv.org/abs/1910.05113
https://doi.org/10.1016/j.patrec.2006.06.006
https://doi.org/10.1016/j.datak.2007.03.016
https://doi.org/10.28945/4541
http://dx.doi.org/10.2139/ssrn.2477899
https://doi.org/10.1016/j.eswa.2009.01.060
http://arxiv.org/abs/1905.03674
http://arxiv.org/abs/1802.05733


Anexos  

~ 260 ~ 
 

Dom, B. E. (2012). An Information-Theoretic External Cluster-Validity Measure. arXiv: 1301.0565 [Online]. Available: 
http://arxiv.org/abs/1301.0565  

Dua, D. and Graff, C. (2019). UCI Machine Learning Repository. Available: http://archive.ics.uci.edu/ml. Irvine, CA: University 
of California, School of Information and Computer Science.  

Esmaeili, S. A., Brubach, B., Tsepenekas, L., & Dickerson, J. P. (2020). Probabilistic Fair Clustering. arXiv: 2006.10916 
[Online]. Available: http://arxiv.org/abs/2006.10916  

Fleiss, J. L., Cohen, J., & Everitt, B. S. (1969). Large sample standard errors of kappa and weighted kappa. Psychological Bulletin, 
72(5), 323–327. https://doi.org/10.1037/h0028106 

Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382. 
https://doi.org/10.1037/h0031619 

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and Proportions. In Statistical Methods for Rates and 
Proportions. https://doi.org/10.1002/0471445428 

Forgy, E. W. (1965). Cluster Analysis of Multivariate Data: Efficiency versus Interpretability of Classification. Biometrics, 21, 
768–780. 

Fowlkes, E. B., & Mallows, C. L. (1983). A Method for Comparing Two Hierarchical Clusterings. Journal of the American 
Statistical Association, 78(383), 553. https://doi.org/10.2307/2288117 

Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. 
The Computer Journal, 41(8), 578–588. https://doi.org/10.1093/comjnl/41.8.578 

Gan, G., Yang, Z., & Wu, J. (2005). A Genetic k-Modes Algorithm for Clustering Categorical Data. In Lecture Notes in Computer 
Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics): Vol. 3584 LNAI (pp. 
195–202). https://doi.org/10.1007/11527503_23 

Guha, S., Rastogi, R., & Shim, K. (2000). Rock: A robust clustering algorithm for categorical attributes. Information Systems, 
25(5), 345–366. https://doi.org/10.1016/S0306-4379(00)00022-3 

Guha, S., Rastogi, R., & Shim, K. (2001). Cure: an efficient clustering algorithm for large databases. Information Systems, 26(1), 
35–58. https://doi.org/10.1016/S0306-4379(01)00008-4 

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In Morgan Kaufmann Series in Data Management 
Systems (Third Edition). Elsevier. 

Headden, W. P., McClosky, D., & Charniak, E. (2008). Evaluating unsupervised part-of-speech tagging for grammar induction. 
Coling 2008 - 22nd International Conference on Computational Linguistics, Proceedings of the Conference, 1, 329–336. 
https://doi.org/10.3115/1599081.1599123 

Huang, Z. (1997a). A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining. In Research Issues 
on Data Mining and Knowledge Discovery, 1--8. https://doi.org/10.1.1.6.4718 

Huang, Z. (1997b). Clustering Large Data Sets with Mixed Numeric and Categorical Values. Proceedings of the First Pacific-Asia 
Knowledge Discovery and Data Mining Conference, Singapore, World Scientific, 21--34.  

Huang, Z. (1998). Extensions to the k-means algorithm for clustering large data sets with categorical values. Data Mining and 
Knowledge Discovery, 2(3), 283–304. https://doi.org/https://doi.org/10.1023/A:1009769707641 

Huang, Z., Ng, M. K., Rong, H., & Li, Z. (2005). Automated variable weighting in k-means type clustering. IEEE Transactions on 
Pattern Analysis and Machine Intelligence, 27(5), 657–668. https://doi.org/10.1109/TPAMI.2005.95 

Huang, J. Z. (2009). Clustering Categorical Data with k-Modes. In Encyclopedia of Data Warehousing and Mining, Second 
Edition (pp. 246–250). https://doi.org/10.4018/978-1-60566-010-3.ch040 

Ji, J., Pang, W., Li, Z., He, F., Feng, G., & Zhao, X. (2020). Clustering Mixed Numeric and Categorical Data With Cuckoo Search. 
IEEE Access, 8, 30988–31003. https://doi.org/10.1109/ACCESS.2020.2973216 

Jiang, F., Liu, G., Du, J., & Sui, Y. (2016). Initialization of K-modes clustering using outlier detection techniques. Information 
Sciences, 332, 167–183. https://doi.org/10.1016/j.ins.2015.11.005 

Khan, S. S., & Ahmad, A. (2012). Cluster Center Initialization for Categorical Data Using Multiple Attribute Clustering. 
MultiClust@ SDM, 3–10. 

Khan, S. S., & Ahmad, A. (2013). Cluster center initialization algorithm for K-modes clustering. Expert Systems with 
Applications, 40(18), 7444–7456. https://doi.org/10.1016/j.eswa.2013.07.002 

Khan, S. S., & Ahmad, A. (2015). Computing Initial points using density based multiscale data condensation for clustering 
categorical data. International Conference on Applied Artificial Intelligence, ICAAI 

Kim, B. (2017). A Fast K-prototypes Algorithm Using Partial Distance Computation. Symmetry, 9(4), 58. 
https://doi.org/10.3390/sym9040058 

Kleindessner, M., Awasthi, P., & Morgenstern, J. (2019). Fair k-Center Clustering for Data Summarization. 36th International 
Conference on Machine Learning, ICML 2019, 5984–6003. arXiv: 1901.08628 [Online]. Available: 
http://arxiv.org/abs/1901.08628  

McQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth 
Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297. 

Meilâ, M., & Heckerman, D. (2001). An Experimental Comparison of Model-Based Clustering Methods. Machine Learning, pp. 
9–29. https://doi.org/https://doi.org/10.1023/A:1007648401407 

Meilă, M. (2007). Comparing clusterings—an information based distance. Journal of Multivariate Analysis, 98(5), 873–895. 
https://doi.org/10.1016/j.jmva.2006.11.013 

Ng, M. K., & Wong, J. C. (2002). Clustering categorical data sets using tabu search techniques. Pattern Recognition, 35(12), 2783–
2790. https://doi.org/10.1016/S0031-3203(02)00021-3 

http://arxiv.org/abs/1301.0565
http://archive.ics.uci.edu/ml
http://arxiv.org/abs/2006.10916
https://doi.org/10.1037/h0028106
https://doi.org/10.1037/h0031619
https://doi.org/10.1002/0471445428
https://doi.org/10.2307/2288117
https://doi.org/10.1093/comjnl/41.8.578
https://doi.org/10.1007/11527503_23
https://doi.org/10.1016/S0306-4379(00)00022-3
https://doi.org/10.1016/S0306-4379(01)00008-4
https://doi.org/10.3115/1599081.1599123
https://doi.org/10.1.1.6.4718
https://doi.org/https:/doi.org/10.1023/A:1009769707641
https://doi.org/10.1109/TPAMI.2005.95
https://doi.org/10.4018/978-1-60566-010-3.ch040
https://doi.org/10.1109/ACCESS.2020.2973216
https://doi.org/10.1016/j.ins.2015.11.005
https://doi.org/10.1016/j.eswa.2013.07.002
https://doi.org/10.3390/sym9040058
http://arxiv.org/abs/1901.08628
https://doi.org/https:/doi.org/10.1023/A:1007648401407
https://doi.org/10.1016/j.jmva.2006.11.013
https://doi.org/10.1016/S0031-3203(02)00021-3


Anexos  

~ 261 ~ 
 

Pietrzykowski, M. (2017). Local regression algorithms based on centroid clustering methods. Procedia Computer Science, 112, 
2363–2371. https://doi.org/10.1016/j.procs.2017.08.210 

Reichart, R., & Rappoport, A. (2009). The NVI Clustering Evaluation Measure. https://doi.org/10.5555/1596374.1596401 

Rosenberg, A., & Hirschberg, J. (2007). V-Measure: A Conditional Entropy-Based External Cluster Evaluation Measure.. 410-420. 

Sajidha, S. A., Chodnekar, S. P., & Desikan, K. (2018). Initial seed selection for K-modes clustering – A distance and density 
based approach. Journal of King Saud University - Computer and Information Sciences. 
https://doi.org/10.1016/j.jksuci.2018.04.013 

Santos M., C., & J. Heras, A. (2020). A Multicluster Approach to Selecting Initial Sets for Clustering of Categorical Data. 
Interdisciplinary Journal of Information, Knowledge, and Management, 15, 227–246. https://doi.org/10.28945/4643 

Vijaymeena, M. K., & Kavitha, K. (2016). A Survey on Similarity Measures in Text Mining. Machine Learning and Applications: 
An International Journal, 3(1), 19–28. https://doi.org/10.5121/mlaij.2016.3103 

Vinh, N.X., Epps, J., & Bailey, J. (2010). Information Theoretic Measures for Clusterings Comparison: Variants, Properties, 
Normalization and Correction for Chance. In Journal of Machine Learning Research (Vol. 11). 
https://doi.org/10.5555/1756006.1953024 

Wagner, S., & Wagner, D. (2007). Comparing Clusterings - An Overview. Technical Report 2006-04. 

Walker, D. D., & Ringger, E. K. (2008). Model-based document clustering with a collapsed gibbs sampler. Proceedings of the 
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 704–712. 
https://doi.org/10.1145/1401890.1401975 

Yu, S. S., Chu, S. W., Wang, C. M., Chan, Y. K., & Chang, T. C. (2018). Two improved k-means algorithms. Applied Soft 
Computing Journal, 68, 747–755. https://doi.org/10.1016/j.asoc.2017.08.032 

Zhu, E., & Ma, R. (2018). An effective partitional clustering algorithm based on new clustering validity index. Applied Soft 
Computing Journal, 71, 608–621. https://doi.org/10.1016/j.asoc.2018.07.026 

Zhu, L., Lei, J. S., Bi, Z. Q., & Yang, J. (2013). Soft subspace clustering algorithm for streaming data. Ruan Jian Xue Bao/Journal 
of Software, 24(11), 2610–2627. https://doi.org/10.3724/SP.J.1001.2013.04469 

Ziko, I. M., Granger, E., Yuan, J., & Ayed, I. B., (2019). Variational Fair Clustering, arXiv: 1906.08207. [Online]. Available: 
http://arxiv.org/abs/1906.08207 

 
https://doi.org/10.1016/j.procs.2017.08.210
https://doi.org/10.5555/1596374.1596401
https://doi.org/10.1016/j.jksuci.2018.04.013
https://doi.org/10.28945/4643
https://doi.org/10.5121/mlaij.2016.3103
https://doi.org/10.5555/1756006.1953024
https://doi.org/10.1145/1401890.1401975
https://doi.org/10.1016/j.asoc.2017.08.032
https://doi.org/10.1016/j.asoc.2018.07.026
https://doi.org/10.3724/SP.J.1001.2013.04469
http://arxiv.org/abs/1906.08207


Anexos  

~ 262 ~ 
 

	Tesis Carlos Santos Mangudo
	PORTADA
	ÍNDICE GENERAL
	ÍNDICE DE TABLAS
	ÍNDICE DE FIGURAS
	RESUMEN
	ABSTRACT
	1 – INTRODUCCIÓN
	1.1. ANTECEDENTES
	1.2. JUSTIFICACIÓN
	1.3. OBJETIVOS
	1.4. ESQUEMA DE CONTENIDOS

	2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE DATOS
	2.1. INTRODUCCIÓN
	2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN ALGORÍTMICA
	2.3. ÉTICA Y EQUIDAD DE LOS DATOS

	3 – ANÁLISIS DE CLUSTERING
	3.1. INTRODUCCIÓN
	3.2. ETAPAS DEL ANÁLISIS DE CLUSTER
	3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA
	3.3.1. Medidas de distancia de datos de tipo cuantitativo
	3.3.2. Medidas de distancia de datos de tipo cualitativo
	3.3.3. Medidas de distancia de datos de tipo mixto

	3.4. MÉTODOS DE CLASIFICACIÓN
	3.4.1. Método Jerárquico
	3.4.2. Método No Jerárquico o Particionado
	3.4.3. Métodos basados en Densidad
	3.4.4. Métodos basados en rejilla o cuadricula
	3.4.5. Métodos basados en Modelos
	3.4.6. Métodos basados en Distancia o Similaridad

	3.5. ALGORITMOS DE CLUSTERS POPULARES

	4 – METODOLOGÍA DEL ALGORITMO PROPUESTO
	4.1. INTRODUCCIÓN
	4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES
	4.2.1. Respecto del Agrupamiento
	4.2.2. Respecto de la Equidad

	4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO
	4.3.1. Estabilidad (Fase 1)
	4.3.2. Eficiencia (Fase 2)
	4.3.3. Equidad (Fase 3)

	4.4. PROCESO DEL ALGORITMO PROPUESTO
	4.4.1. Proceso de la fase de Estabilidad
	4.2.2. Proceso de la fase de Eficiencia
	4.4.3. Proceso de la fase de Equidad

	4.5. RESULTADOS DEL PROCESO

	5 – RESULTADOS
	5.1. INTRODUCCIÓN
	5.2. BASES DE DATOS
	5.2.1.  Bases de Datos de tipo Mixto
	5.2.2.  Bases de Datos de tipo Categórico

	5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS
	5.4. RESULTADOS
	5.4.1. Respecto de la Estabilidad
	5.4.2. Respecto de la Eficiencia
	5.4.3. Respecto de la Equidad

	5.5. APLICACIONES EMPRESARIALES

	6 – SOFTWARE R
	CONCLUSIONES
	BIBLIOGRAFÍA
	ANEXOS
	ANEXO 1
	ANEXO 2