UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES TESIS DOCTORAL Eficiencia y Equidad en Problemas de Clasificación de Datos con Aplicaciones Empresariales MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR Carlos Santos Mangudo Director Antonio José Heras Martínez Madrid © Carlos Santos Mangudo, 2022 UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES TESIS DOCTORAL Eficiencia y Equidad en Problemas de Clasificación de Datos con Aplicaciones Empresariales Autor: Carlos Santos Mangudo Director: Antonio José Heras Martínez Madrid, 2022 ~ ii ~ ~ iii ~ UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE CIENCIAS ECONÓMICAS Y EMPRESARIALES Doctorado en Administración y Dirección de Empresas TESIS DOCTORAL Eficiencia y Equidad en Problemas de Clasificación de Datos con Aplicaciones Empresariales Autor: Carlos Santos Mangudo Director: Antonio José Heras Martínez Madrid, 2022 ~ iv ~ ~ vi ~ ~ vii ~ AGRADECIMIENTOS Quiero mostrar mi más sincero agradecimiento a todos aquellos que, de una u otra forma, han contribuido a la preparación de esta Tesis Doctoral. En concreto, debo hacer una mención especial a las siguientes personas: En primer lugar, a mi esposa Amadora y mis hijas Lorena y Andrea, por comprenderme y animarme siempre a conseguir los objetivos que he perseguido. Su constante apoyo ha sido vital para alcanzar que esta esta Tesis Doctoral sea finalmente una realidad. A D. Antonio J. Heras, Director y tutor de la tesis, por la valiosa formación que me ha dado en mis estudios en la Universidad Complutense, por ser el impulsor de este tema específico para mi Tesis Doctoral y por la gran ayuda y amistad que me ha brindado en todo momento que le he necesitado. A los profesores del Departamento de la Escuela de Doctorado de la Universidad Complutense, que han colaborado en mi formación y evolución, y sin cuyos medios me hubiera sido mucho más difícil lograr este objetivo. A los profesores del Departamento de Economía Financiera, Contabilidad e Idioma Moderno de la Universidad Rey Juan Carlos, y en especial a su Directora Dra. Piedad Tolmos, por su gran ayuda y estimulo durante mi estancia en su departamento. A la Dra. Ana Sastre Perona, Investigadora Miguel Servet del Laboratorio de terapias experimentales y biomarcadores, y a D. Fernando Laso García, ~ viii ~ Biol.D, Predoctoral Neuroscience and Cerebrovascular Laboratory, miembros de La Paz Research Institute (IdiPAZ), que me brindaron su total apoyo en el uso de sus medios informáticos, para la comprobación y funcionamiento del algoritmo objeto de esta Tesis Doctoral, en la ejecución con otros sistemas operativos y la dimensión de estructuras de datos. ~ ix ~ Lo más difícil de lograr, es tomar la decisión de actuar, el resto, es solo constancia (Amelia Earhart) ---------------------------------------------- Si realmente quieres hacer algo, sí crees en ello, simplemente sigue adelante, y el éxito vendrá solo (Cassandra Sanford) ~ x ~ ~ xi ~ ÍNDICE GENERAL ÍNDICE DE TABLAS ....................................................................................... xiii ÍNDICE DE FIGURAS ...................................................................................... xv RESUMEN ......................................................................................................... 1 ABSTRACT ........................................................................................................ 3 1 – INTRODUCCIÓN ......................................................................................... 5 1.1. ANTECEDENTES........................................................................................... 7 1.2. JUSTIFICACIÓN .......................................................................................... 12 1.3. OBJETIVOS ................................................................................................. 18 1.4. ESQUEMA DE CONTENIDOS ..................................................................... 21 2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE DATOS ............................................................................................................. 25 2.1. INTRODUCCIÓN .......................................................................................... 27 2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN ALGORÍTMICA ......... 31 2.3. ÉTICA Y EQUIDAD DE LOS DATOS ........................................................... 36 3 – ANÁLISIS DE CLUSTERING .................................................................... 49 3.1. INTRODUCCIÓN .......................................................................................... 51 3.2. ETAPAS DEL ANÁLISIS DE CLUSTER ....................................................... 55 3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA ................................................ 58 3.3.1. Medidas de distancia de datos de tipo cuantitativo ................................ 62 3.3.2. Medidas de distancia de datos de tipo cualitativo .................................. 67 3.3.3. Medidas de distancia de datos de tipo mixto.......................................... 72 3.4. MÉTODOS DE CLASIFICACIÓN ................................................................. 75 3.4.1. Método Jerárquico ................................................................................. 77 3.4.2. Método No Jerárquico o Particionado .................................................... 80 3.4.3. Métodos basados en Densidad ............................................................. 81 3.4.4. Métodos basados en rejilla o cuadricula ................................................ 82 3.4.5. Métodos basados en Modelos ............................................................... 83 3.4.6. Métodos basados en Distancia o Similaridad......................................... 86 3.5. ALGORITMOS DE CLUSTERS POPULARES ............................................. 86 ~ xii ~ 4 – METODOLOGÍA DEL ALGORITMO PROPUESTO .................................. 95 4.1. INTRODUCCIÓN .......................................................................................... 97 4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES .................................. 99 4.2.1. Respecto del Agrupamiento ................................................................... 99 4.2.2. Respecto de la Equidad ....................................................................... 106 4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO .................................... 109 4.3.1. Estabilidad (Fase 1) ............................................................................. 111 4.3.2. Eficiencia (Fase 2) ............................................................................... 114 4.3.3. Equidad (Fase 3) ................................................................................. 117 4.4. PROCESO DEL ALGORITMO PROPUESTO ............................................ 119 4.4.1. Proceso de la fase de Estabilidad ........................................................ 122 4.2.2. Proceso de la fase de Eficiencia .......................................................... 131 4.4.3. Proceso de la fase de Equidad ............................................................ 139 4.5. RESULTADOS DEL PROCESO ................................................................. 142 5 – RESULTADOS ......................................................................................... 147 5.1. INTRODUCCIÓN ........................................................................................ 149 5.2. BASES DE DATOS .................................................................................... 151 5.2.1. Bases de Datos de tipo Mixto .............................................................. 154 5.2.2. Bases de Datos de tipo Categórico ...................................................... 158 5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS ..................................... 163 5.4. RESULTADOS ........................................................................................... 167 5.4.1. Respecto de la Estabilidad .................................................................. 167 5.4.2. Respecto de la Eficiencia..................................................................... 171 5.4.3. Respecto de la Equidad ....................................................................... 174 5.5. APLICACIONES EMPRESARIALES .......................................................... 176 5.5.1. Sector Seguros (Primas No Vida) ........................................................ 177 5.5.2. Sector Crediticio .................................................................................. 181 6 – SOFTWARE R ......................................................................................... 189 CONCLUSIONES .......................................................................................... 201 BIBLIOGRAFÍA ............................................................................................. 207 ANEXOS ........................................................................................................ 239 ANEXO 1 .............................................................................................................. 241 ANEXO 2 .............................................................................................................. 247 ~ xiii ~ ÍNDICE DE TABLAS Tabla 3.1. Tabla de representación binaria ...................................................... 69 Tabla 3.2. Medidas de similaridad binarias ...................................................... 71 Tabla 3.3. Tabla de Algoritmos y Metodologías de Clustering ......................... 87 Tabla 4.1: Matriz de datos del conjunto inicial ................................................ 121 Tabla 4.2: Distribución de cluster sobre el atributo “Exposure” ...................... 127 Tabla 4.3: Distribución de cluster sobre el atributo “Veh_body” ..................... 127 Tabla 4.4: Distribución de cluster para cada atributo ..................................... 128 Tabla 4.5: Resumen distribución de clusters de todos los atributos ............... 129 Tabla 4.6: Composición de los 20 Multiclusters no vacíos ............................. 131 Tabla 4.7: Coincidencia de los atributos entre dos Multicluster ...................... 132 Tabla 4.8: Matriz de Coincidencias entre Multiclusters .................................. 133 Tabla 4.9: Fusión de Multiclusters, con una sola coincidencia ....................... 135 Tabla 4.10: Fusión de Multiclusters, con varias coincidencias ....................... 136 Tabla 4.11: Mejor Kappa-Fleiss entre Multiclusters ........................................ 136 Tabla 4.12: Matriz de Multiclusters Óptimos................................................... 138 Tabla 4.13: Ratio Deseado del atributo protegido. ......................................... 139 Tabla 4.14: Distancias entre ratio deseado y observado ................................ 140 Tabla 4.15: Distribución final de los “k” clusters elegidos ............................... 142 Tabla 4.16: Distribución Final de la Efiiencia .................................................. 144 Tabla 4.17: Distribución Final del Ratio Observado por cluster ...................... 145 ~ xiv ~ Tabla 5.1: Bases de Datos utilizadas en el análisis ........................................ 153 Tabla 5.2: Eficiencia de clustering Datos de tipo Mixto .................................. 172 Tabla 5.3: Eficiencia de clustering Datos de tipo Categórico ......................... 173 Tabla 5.4: Equidad de clustering Datos de tipo Mixto .................................... 174 Tabla 5.5: Equidad de clustering Datos de tipo Categórico ............................ 175 Tabla 5.6: Equidad de clustering del algoritmo FairMclus .............................. 179 Tabla 5.7: Distribución sobre 9 clusters del atributo protegido Género .......... 180 Tabla 5.8: Distribución original del atributo protegido Género ........................ 180 Tabla 5.9: Equidad de clustering del algoritmo FairMclus .............................. 185 Tabla 5.10: Distribución sobre 9 clusters del atributo protegido Estado Civil . 186 Tabla 5.11: Distribución original del atributo protegido Estado Civil ............... 186 ~ xv ~ ÍNDICE DE FIGURAS Figura 2.1: Igualdad, Equidad y Justicia (Ruth, 2019) ...................................... 28 Figura 2.2: Tipos de preocupaciones éticas (Mittelstadt et al., 2016) ............... 42 Figura 3.1. Formación de 3 cluster (Learn by marketing, 2021) ....................... 52 Figura 3.2. Etapas de Análisis de cluster (Halkidi et al., 2001)......................... 57 Figura 3.3. Distancia entre dos puntos (espacio bidimensional) ...................... 59 Figura 3.4. Distancia entre dos puntos (espacio tridimensional) ...................... 60 Figura 3.5. Distancia Euclídea (Chaudhury, 2020) ........................................... 63 Figura 3.6. Distancia Manhattan (Sosnovshchenko, 2018) .............................. 64 Figura 3.7. Distancia Minkowski (Xu et al., 2019) ............................................. 65 Figura 3.8. Clasificación en dos Métodos ......................................................... 76 Figura 3.9. Clasificación en cinco Métodos (Prakash et al., 2016) ................... 77 Figura 3.10 Esquema Método Jerárquico (Giacoumidis et al., 2018) ............... 78 Figura 3.11. Dendograma Agrupación de elementos (Ávila, 2021) .................. 79 Figura 3.12. Clustering Particionado (Saxena et al., 2017) .............................. 80 Figura 3.13 Clustering de Densidad (Rixin et al., 2015) ................................... 81 Figura 3.14 Clustering en Rejilla (Cao et al., 2009) .......................................... 83 Figura 3.15 Clustering en Arboles de Decisión (Ferrero, 2020) ....................... 84 Figura 3.16 Clustering en Redes Neuronales (Delgado, 2018) ........................ 85 Figura 4.1: Fase 1 de Estabilidad Algoritmo propuesto .................................. 113 Figura 4.2: Fase 2 de Eficiencia Algoritmo propuesto .................................... 116 ~ xvi ~ Figura 4.3: Fase 3 de Equidad Algoritmo propuesto ...................................... 118 Figura 4.4: Distribución gráfica de cada atributo ............................................ 122 Figura 4.5: Comparativa de Estabilidad ......................................................... 143 Figura 5.1: Base de Datos de tipo mixto “Australian Credit” ........................... 169 Figura 5.2: Base de Datos de tipo mixto “Heart Disease” .............................. 169 Figura 5.3: Base de Datos categórica “Human Resources” ........................... 170 Figura 5.4: Base de Datos categórica “Breast Cancer” .................................. 170 Figura 5.5: Equidad de clustering del algoritmo FairMclus ............................. 179 Figura 5.6: Atributos de la Base de Datos “German Credit” ........................... 183 Figura 5.7: Equidad de clustering del algoritmo FairMclus ............................. 185 Figura A.1: Base de Datos de tipo mixto “Absenteeism” ................................ 241 Figura A.2: Base de Datos de tipo mixto “Airline” ........................................... 241 Figura A.3: Base de Datos de tipo mixto “Australian Credit” .......................... 242 Figura A.4: Base de Datos de tipo mixto “Bank Marketing” ............................ 242 Figura A.5: Base de Datos de tipo mixto “Customer Segmentation” .............. 242 Figura A.6: Base de Datos de tipo mixto “German Credit FC1”...................... 243 Figura A.7: Base de Datos de tipo mixto “Heart Disease” .............................. 243 Figura A.8: Base de Datos categórica “Autism”.............................................. 243 Figura A.9: Base de Datos categórica “Breast Cancer” .................................. 244 Figura A.10: Base de Datos categórica “Cars Insurance” .............................. 244 Figura A.11: Base de Datos categórica “Census Income” .............................. 244 ~ xvii ~ Figura A.12: Base de Datos categórica “German Credit FC2” ....................... 245 Figura A.13: Base de Datos categórica “German Credit FC3” ....................... 245 Figura A.14: Base de Datos categórica “HR IBM” .......................................... 245 Figura A.15: Base de Datos categórica “Human Resources” ......................... 246 Figura A.16: Base de Datos categórica “Nursery” .......................................... 246 ~ xviii ~ ~ 1 ~ RESUMEN EFICIENCIA Y EQUIDAD EN PROBLEMAS DE CLASIFICACIÓN DE DATOS CON APLICACIONES EMPRESARIALES En los últimos años, la necesidad de prevenir los sesgos de clasificación debidos a la raza, género, sexo, religión, entre otros, ha aumentado el interés por diseñar algoritmos de clustering justos. La idea principal es asegurar que la salida de un algoritmo de cluster no esté sesgada hacia o contra subgrupos específicos de la población. Existe una creciente literatura especializada en este tema, que aborda el problema del clustering de bases de datos numéricas (Chierichetti et al., 2017; Luong et al., 2011; Hardt et al., 2016; Dwork et al., 2011). En la presente Tesis Doctoral se propone una metodología para realizar clustering sobre datos categóricos puros y/o mixtos, que contengan atributos sensibles o protegidos, aunando la precisión en el agrupamiento y la equidad para conseguir conjuntos finales justos y equitativos, asegurando la transparencia, fiabilidad, precisión y equidad en el momento de formar los grupos o clusters finales. ~ 2 ~ Por supuesto, existe un trade-off entre equidad y eficiencia, de modo que un aumento del objetivo de equidad suele conllevar una pérdida de eficiencia en la clasificación. Sin embargo, es posible alcanzar un compromiso razonable entre estos objetivos, ya que la metodología propuesta en esta Tesis (Santos & Heras, 2020; 2021) puede adaptarse fácilmente para obtener clusters homogéneos y justos. El uso del paquete estadístico R entre la comunidad científica (R Core Team, 2018) esta extendido y es común su uso, al incluir tanto herramientas de análisis de datos, como para generar multitud de gráficas, siendo además dicho software de carácter libre y que funciona bajo distintos sistemas operativos, como Windows, Mac-Os y Linux (https://www.r-project.org/). Por todo lo anterior, parece interesante para la comunidad científica que exista un paquete en R que pueda ofrecer una alternativa a los métodos existentes hasta el momento, aunando tanto la clasificación como la equidad de conjuntos de datos con aplicación empresarial. Keywords: clustering, fairness, fair clustering, categorical data, mixed data https://www.r-project.org/ ~ 3 ~ ABSTRACT EFFICIENCY AND FAIRNESS IN DATA CLASSIFICATION PROBLEMS WITH ENTERPRISE APPLICATIONS In recent years, the need to prevent classification biases due to race, gender, sex, religion, among others, has increased interest in designing fair clustering algorithms. The main idea is to ensure that the output of a clustering algorithm is not biased towards or against specific subgroups of the population. There is a growing specialized literature on this topic, addressing the problem of numerical database clustering (Chierichetti et al., 2017; Luong et al., 2011; Hardt et al., 2016; Dwork et al., 2011). In this PhD Thesis, we propose a methodology to perform clustering on pure and/or mixed categorical data, containing sensitive or protected attributes, combining clustering accuracy and fairness to achieve fair and equitable final sets, ensuring transparency, reliability, accuracy and fairness when forming the final groups or clusters. Of course, there is a trade-off between fairness and efficiency, so that an increase in the fairness objective usually leads to a loss of classification efficiency. However, it is possible to reach a reasonable compromise between ~ 4 ~ these objectives, since the methodology proposed in this Thesis (Santos & Heras, 2020; 2021) can be easily adapted to obtain homogeneous and fair clusters. The use of the R statistical package among the scientific community (R Core Team, 2018) is widespread and its use is common, as it includes both data analysis tools, as well as to generate a multitude of graphs, being also such software of free character and running under different operating systems, such as Windows, Mac-Os and Linux (https://www.r-project.org/). For all these reasons, it seems interesting for the scientific community that there is a package in R that can offer an alternative to the existing methods so far, combining both classification and fairness of datasets with business application. Keywords: clustering, fairness, fair clustering, categorical data, mixed data 1 – Introducción ~ 5 ~ 1 INTRODUCCIÓN 1 – INTRODUCCIÓN 1 – Introducción ~ 6 ~ 1 – Introducción ~ 7 ~ 1.1. ANTECEDENTES A lo largo de la historia, la humanidad siempre ha estado dividiendo y clasificando todo cuanto nos rodea, las sociedades, las ciudades, las personas, los animales, la tierra, el universo, etc. Gran parte de los problemas de clasificación existentes en el mundo real implican, por un lado, la agrupación y optimización simultánea de varios atributos, los cuales generalmente presentan conflictos entre ellos, es decir, que la mejora en uno de ellos conduce a un deterioro en el otro; y por otro lado que dicha agrupación no incluya ningún tipo de sesgo entre atributos y sobre atributos sensibles o protegidos incluidos en el conjunto de datos inicial, como por ejemplo el género/sexo o la raza/etnia, entre otros. El agrupamiento o clasificación de datos, conocido como “Clustering”, es una técnica de aprendizaje automático no supervisado, y que tiene un único fin, clasificar elementos o entidades y agruparlos en un número finito de cluster o de grupos, de manera que los elementos o entidades que se encuentren dentro del mismo grupo sean lo más homogéneos posible, y al mismo tiempo, que grupos distintos sean lo más heterogéneos posible. 1 – Introducción ~ 8 ~ Para encontrar las primeras clasificaciones de grupos, nos tenemos que remontar a Aristóteles (Ross, 1995), quien en un primer lugar realizó la división del reino vegetal y del reino animal, para posteriormente clasificar los animales en dos grupos o cluster, vertebrados e invertebrados. O por ejemplo Teofrasto, discípulo de Aristóteles, que realizó el primer informe sobre clasificación de las plantas y basada en las propiedades médicas que estas tenían (Teofrasto, 1988). La gran explosión en el campo de la agrupación de elementos tuvo lugar con la aparición de “Principios de Taxonomía Numérica” (Sokal & Sneath, 1963) y el surgimiento de figuras influyentes en el campo de la informática, como fue Karen Sparck Jones con un gran número de publicaciones desde 1964 (Sparck Jones, 1965; 1986, Sparck Jones & Barber, 1971; entre otros) y que se convirtió en presidenta de la Asociación de Lingüística Computacional en 1994. El trabajo para llevar a cabo agrupaciones de datos en el campo de la investigación, se realizaba de forma manual, lo cual complicaba los cálculos y por consiguiente su precisión, el tiempo y el número de personas dedicadas a realizar dichos cálculos. Cabe señalar que, para clasificar un conjunto de datos de solo 200 elementos, sería necesario trabajar con una matriz de 200 x 200, dando unos 19.900 valores únicos, lo que significaría tener un número muy grande de 1 – Introducción ~ 9 ~ investigadores involucrados en el proceso, que, sumado al tiempo necesario para llevarlo a cabo, haría inviable este tipo de segmentaciones y clasificaciones. La agrupación de elementos similares entre sí ha sido una de las actividades humanas más practicadas, aplicada en áreas y disciplinas muy diversas, como, por ejemplo:  El estudio de tribus de la Polinesia (Clements et al., 1926) o el estudio de tribus indias en California (Driver & Kroeber, 1932).  Clasificación de los elementos de la tabla periódica (Bensaude- Vincent, 1986).  La agrupación geográfica de compañías vinculadas por características comunes o complementarias (Porter, 1990, 1998).  El análisis de genes (Bandyopadhyay et al., 2007; Jiang et al., 2004; Lu et al., 2019).  El marketing de clientes (Hsu & Chen, 2007).  El procesamiento de imágenes (Adhikari et al., 2015).  La detección de fraude (Agarwall & Upadhyay, 2014; Kasa et al., 2019; Maddila et al., 2020; Vaishali, 2014). 1 – Introducción ~ 10 ~  La segmentación de mercados (Gustriansyah et al., 2020; Yoseph et al., 2020).  El análisis de documentos de texto (Abasi et al., 2021). La capacidad de clasificar y agrupar cualquier tipo de elemento o entidad, se vio implementada en los últimos años en algoritmos de clasificación, de reconocimiento de patrones, de reconocimiento de imágenes, toma de decisiones y por supuesto de inteligencia artificial. Sin embargo, los primeros desarrollos de las técnicas de clasificación de elementos y grupos no tuvieron en cuenta importantes aspectos relacionados con la equidad y la ética, ya que muchos de esos algoritmos son tan complicados que es casi imposible conocer sus parámetros y mucho menos poder seguir su proceso interno. La equidad en el diseño de algoritmos ha recibido mucha atención en los últimos años, intentando que los algoritmos incorporen requisitos éticos a la hora de realizar análisis de conglomerados y que estos conglomerados o cluster no incluyan sesgos de ningún tipo sobre atributos protegidos o sensibles, como género, raza, religión, etc. (Bera et al., 2019; Celis et al., 2018; Chierichetti et al., 1 – Introducción ~ 11 ~ 2017; Cirilo et al., 2020; Leavy, 2018; Turner, 2018; Turner et al., 2019), entre otros. Los algoritmos de clasificación se aplican cada vez más a muchos problemas económicos y sociales importantes, como la predicción del comportamiento delictivo, la selección de solicitantes de empleo, la aprobación de hipotecas, la investigación de mercado o la calificación de seguros, entre muchos otros. La supervisión humana de muchos procesos de toma de decisiones está siendo sustituida progresivamente por el análisis automatizado de datos, y existe una creciente preocupación en nuestras sociedades por la falta de control humano de los resultados. Por ejemplo, un problema potencial importante es que el resultado de los algoritmos podría perjudicar o beneficiar injustificadamente a algunos grupos de personas que comparten atributos sensibles, relacionados con el género, la raza, la religión, el estatus social, etc. Estos problemas de discriminación suelen ser involuntarios, debido a la complejidad del procesamiento algorítmico de enormes cantidades de datos. En consecuencia, la necesidad de evitar estos sesgos de clasificación relacionados con atributos sensibles ha aumentado el interés por diseñar algoritmos de agrupación justos. 1 – Introducción ~ 12 ~ El significado de "equidad" en este caso es garantizar que los resultados de los algoritmos no estén sesgados hacia o contra subgrupos específicos de la población. Según Monasterio (2017), la revolución algorítmica tiene actualmente en la justicia o equidad uno de los grandes desafíos y amenazas, puesto que los algoritmos se han vuelto cada vez más complejos y de difícil comprensión, pudiéndolos considerar como “cajas negras”, no solo por su complejidad sino por la dificultad de poder corregir ciertos fallos. Benítez-Eyzaguirre (2020) denuncia que la falta de equidad en el género o la raza puede llegar a ser un importante problema, debido a que en los algoritmos se asienta hoy en día la toma de decisiones en casi todos los campos del conocimiento y de las actividades sociales. 1.2. JUSTIFICACIÓN Es bien sabido que los problemas complejos del mundo real a menudo se caracterizan por tener diferentes puntos de vista, características, objetivos o atributos, que pueden ser difíciles de comparar o incluso contradictorios entre sí, pues muchos de esos problemas reales son problemas multiobjetivo o multiatributo. 1 – Introducción ~ 13 ~ Por ejemplo, en un problema de selección de inversiones, los inversores generalmente buscan obtener altos rendimientos, pero también quieren correr pocos riesgos. El problema es que los atributos de Rentabilidad / Riesgo generalmente se mueven en la misma dirección (los mayores retornos generalmente se obtienen corriendo mucho riesgo). Los problemas de optimización con múltiples atributos han sido analizados utilizando técnicas de Optimización Multiobjetivo o Multicriterio, que han generado una abundante literatura: ver (Baçak Aydemir et al., 2016; Branke et al., 2008; Coello et al., 2007; Cui et al., 2017; Ehrgott et al., 2005; Haimes & Li, 1989; Hu et al., 2016; Wu et al., 2018; Yaochu, 2006; Yapo et al., 1998; Zhou et al., 2011), entre muchos otros. Estas técnicas también se han extendido al análisis de grupos o clustering, incorporando requisitos adicionales a las particiones requeridas, como restricciones en su número o en su tamaño: ver (Deb, 2012; Ehrgott et al., 2005; Emmerich & Deutz, 2018; Handl & Knowles, 2006; Law et al., 2004; Mousa et al., 2017, 2018; Yevseyeva et al., 2013), entre otros. Sin embargo, además de su aplicación a las propiedades de los cluster o grupos obtenidos, el razonamiento basado en múltiples criterios también podría aplicarse a los datos de entrada: en realidad, los diferentes atributos o 1 – Introducción ~ 14 ~ características de los datos también podrían no ser comparables o ser inconmensurables entre sí. Técnicas como el método K-Means (Forgy, 1965; McQueen, 1967), K- Modes (Huang, 1997b, 1998) y K-Prototypes (Huang, 1997a) que son tres de los algoritmos más populares para agrupar datos numéricos, categóricos y mixtos, respectivamente, no tienen en cuenta este problema, pues agrupan todos los atributos de cada observación como si fuese un punto en el espacio ℝ𝑛𝑛, donde “n” representa el numero de atributos que contiene la base de datos y por consiguiente cada observación o elemento de la misma. Todos ellos se basan en la misma metodología: (1) Seleccionan k centroides iniciales al azar. (2) Asignan cada observación en la base de datos al punto representativo más cercano. (3) Recalculan repetidamente los conglomerados y centroides a lo largo del proceso hasta que no se observan más cambios. De manera que, la selección de centroides iniciales distintos conduce a conjuntos finales muy diferentes, como se reconoce en Huang (1997a, 1998) o Ahmad & Khan (2019). Esto lleva a que la solución de agrupamiento final sea 1 – Introducción ~ 15 ~ inestable porque varias ejecuciones en el mismo conjunto de datos pueden dar diferentes agrupaciones finales. Por otro lado, hay pruebas abrumadoras que demuestran que los algoritmos pueden heredar o incluso perpetuar los sesgos humanos en su toma de decisiones cuando se entrenan con datos que contienen decisiones humanas sesgadas (Barocas & Selbst, 2016; Cowgill & Tucker, 2020; Domnich & Ambarjafari, 2021; Tolan, 2019). La Declaración Universal de los Derechos Humanos (Naciones Unidas, 1948) en su resolución 217A(III) y en su artículo 2, prohíben la discriminación por razón de sexo, género, orientación sexual, raza, etnia, color de la piel, origen social, características genéticas, lengua, religión o creencia, opinión política o personal, pertenencia a una minoría nacional, patrimonio, nacimiento, filiación, discapacidad, enfermedad, estado civil o edad. Siguiendo a Romei & Ruggieri (2013), asumimos que, en principio, la discriminación puede producirse por cualquier rasgo físico o cultural, y en cualquier entorno de la vida cotidiana. En lo sucesivo, llamaremos atributos sensibles o protegidos a esos rasgos potencialmente discriminatorios. 1 – Introducción ~ 16 ~ Mehrabi et al., (2019) afirman que en un contexto legal hay equidad cuando las personas no son discriminadas por su pertenencia a un grupo o clase protegida, lo que nos lleva, en la práctica, a la existencia de varias definiciones de equidad algorítmica que intentan alcanzar este objetivo. De hecho, en la literatura se habla de al menos 20 definiciones de equidad (Berk et al., 2017; Narayanan, 2019; Verma & Rubin, 2018). Los algoritmos aparecen en una gran variedad de aplicaciones, aprovechando volúmenes de macro y microdatos, y responder al sesgo algorítmico por adelantado puede evitar potencialmente impactos perjudiciales. Así, por ejemplo: • En la concesión de créditos se utilizan algoritmos para predecir el riesgo de impago de los solicitantes de crédito (Huang et al., 2007; Sustersic et al., 2007). • En los departamentos de Recursos Humanos utilizan sistemas para seleccionar a los mejores candidatos (Filiberto et al., 2018; Köchling & Wehner, 2020). • En la justicia penal se están aplicando algoritmos para informar a los jueces sobre el riesgo de fuga y de reincidencia de los acusados (Angwin et al., 2016; Kleinberg et al., 2017). 1 – Introducción ~ 17 ~ • El aprendizaje automático también puede utilizarse para predecir el riesgo de mortalidad de los pacientes agudos y mejorar la orientación de los cuidados paliativos (Avati et al., 2017). El método FairMclus propuesto y desarrollado en esta Tesis Doctoral, tiene la capacidad de poder servir de apoyo en aplicaciones empresariales sobre muy diversas áreas del conocimiento, como queda de manifiesto en la multitud de trabajos existentes en la literatura en donde el sesgo algoritmico esta presente, entre otros: • Sesgo de genero y racial en la contratación (Correll & Bernard, 2006). • Un algoritmo genético de clave aleatoria sesgado para el problema de programación de proyectos con recursos flexibles (Almeida et al., 2018). • Sesgo algorítmico en las prácticas de contratación actuales: Un examen ético (Bigu & Cernea, 2019). • Se ha alegado que la contratación con sesgo de sexo en muchas ocupaciones de las mujeres dedicadas a la música es extremadamente difícil de probar (Goldin & Rose, 2000). 1 – Introducción ~ 18 ~ • Sesgo racial en un algoritmo utilizado para gestionar la salud de las poblaciones (Obermeyer et al., 2019). • Pruebas de sesgo racial en las puntuaciones de crédito de las empresas Robb & Robinson, 2018). • Qué significa resolver el problema de la discriminación en la contratación (Sánchez-Monedero et al., 2019). • Regularización de sesgos en modelos de redes neuronales para la tarificación de seguros generales (Wüthrich, 2020). 1.3. OBJETIVOS OBJETIVOS GENERALES En este trabajo de Tesis Doctoral, presentamos un marco para la equidad algorítmica en la clasificación de los datos, explorando una nueva metodología que aúne la precisión en el agrupamiento con la equidad de los grupos al tratar atributos sensibles o protegidos, en adelante FairMclus, que además de su simplicidad en el diseño para poder seguir su proceso sin dificultad, nos asegure tres ventajas fundamentales: que el método sea transparente y fiable, preciso y equitativo en el momento de formar los grupos o cluster finales. 1 – Introducción ~ 19 ~ En concreto, se trata de obtener: 1. Estabilidad de los conjuntos o grupos finales, es decir, que estén formados siempre por los mismos individuos, independientemente de las repeticiones que se realicen sobre el mismo conjunto de datos. 2. Eficiencia o precisión en los grupos finales, tanto de los elementos dentro de cada grupo como entre distintos grupos, es decir que los elementos que esten en un grupo sean más similares entre si que los elementos que estan situados en grupos distintos, y por tanto grupos distintos sean disimilares entre ellos. 3. Equidad de los grupos formados respecto del atributo sensible o protegido contenido en el conjunto de datos inicial, alcanzando un compromiso razonable entre este objetivo y la eficiencia al formar los grupos. Estabilidad, Eficiencia y Equidad, además de Simplicidad del proceso, son los principales objetivos y aspectos que el método FairMclus tiene para clasificar de forma equitativa y justa conjuntos de datos, bien sean de tipo supervisado (datos que sabemos a priori sobre que grupo final debe de situarse cada elemento del conjunto inicial) o no supervisado (datos en donde no se conoce a priori el grupo final donde se debe de situar cada elemento del conjunto 1 – Introducción ~ 20 ~ inicial), y que incluyan algún atributo protegido o sensible dentro del conjunto inicial. OBJETIVOS ESPECÍFICOS Los objetivos específicos de esta investigación son: (1) Hacer una revisión bibliográfica de los métodos de agrupamiento para datos categóricos, datos numéricos y datos mixtos. (2) Hacer una revisión bibliográfica de la situación actual de la equidad en los algoritmos. (3) Proponer un nuevo modelo de agrupamiento para datos categóricos y datos mixtos, que aúne los aspectos de: simplicidad y estabilidad, eficiencia o precisión y equidad. (4) Desarrollar el modelo propuesto como un nuevo algoritmo en lenguaje "R" que contenga la metodología señalada anteriormente para datos categóricos y para datos mixtos (numéricos y categóricos), y ponerlo a disposición de la comunidad cientifica. 1 – Introducción ~ 21 ~ (5) Realizar un estudio de simulación que permita evaluar el rendimiento del algoritmo propuesto con diferentes Bases de Datos. (6) Comparar los resultados obtenidos con otros algoritmos existentes, respecto a su estabilidad, eficiencia o precisión y equidad. 1.4. ESQUEMA DE CONTENIDOS La parte central de esta Tesis Doctoral está organizada de la siguiente manera: El CAPÍTULO 2 se dedica a presentar los antecedentes que dieron lugar al concepto de equidad o “fairness” y justicia en la clasificación o agrupación de datos, la situación actual en cuanto al sesgo implícito de los algoritmos de clasificación y la repercusión que está teniendo en los problemas actuales en las empresas y en la sociedad. El CAPÍTULO 3 describe los conceptos fundamentales en que se basa el análisis de cluster o conglomerados: cuáles son las etapas necesarias para realizar un análisis de cluster y qué medidas de agrupación se utilizan en función del tipo de atributos que pueda tener la Base de Datos original. Se discuten 1 – Introducción ~ 22 ~ asimismo las técnicas y métodos distintos que se pueden emplear para conseguir la mejor agrupación final. Se discuten en especial los resultados recogidos en la publicación llevada a cabo por Santos & Heras (2020), en la revista Interdisciplinary Journal of Information, Knowledge and Management, en el que se realiza una revisión de los algoritmos existentes para datos categóricos y la problemática existente cuando se seleccionan los centros de los conglomerados o cluster, además de presentar el algoritmo K-multicluster para datos categóricos, consiguiendo estabilidad en la formación de cluster y una mayor precisión en los grupos finales. El CAPÍTULO 4 presenta un nuevo modelo, que se ha llamado FairMclus, y la metodología en la que se sustenta este nuevo algoritmo propuesto para trabajar con datos de tipo mixto (numéricos y categóricos) o bien solo de tipo categórico, tomando como base el algoritmo K-multicluster (Santos & Heras, 2020) expuesto en el Capítulo 3 . Se incluye una explicación detallada de los pasos que realiza el algoritmo propuesto sobre un conjunto de datos, y en donde se puede verificar que los resultados obtenidos dan solución a los problemas de simplicidad, estabilidad, precisión y equidad, mencionados anteriormente como contribuciones fundamentales de esta Tesis Doctoral. 1 – Introducción ~ 23 ~ El CAPÍTULO 5 presenta los resultados obtenidos por el algoritmo propuesto FairMclus. Se realiza doble comparación con otros algoritmos de agrupamiento clásicos. Por un lado, en cuanto a la estabilidad, precisión y equidad que ofrecen, tomando en consideración distintas medidas de eficiencia ampliamente contrastadas en el Capítulo 4, para validar los resultados realizados sobre catorce bases de datos. Por otro lado, y en cuanto a la equidad como aplicación empresarial, sobre una base de datos no supervisada, correspondiente a seguros no vida. Se amplían los resultados recogidos recogidos en la publicación llevada a cabo por Santos & Heras (2021), y que se encuentra en segunda revisión en la revista Central European Journal of Operations Research, en el que se realiza una revisión de la problemática existente en los algoritmos actuales respecto a la equidad y justicia en el agrupamiento final, además de presentar el algoritmo FairMclus para datos categóricos ofreciendo estabilidad, precisión y equidad en la clasificación de los grupos finales (se incluye como Anexo 2). El CAPÍTULO 6 recoge el Software del algoritmo escrito en R, y publicado en el repositorio CRAN de R, para uso general de la comunidad de usuarios, con el que se ha podido conseguir los objetivos marcados y realizar el 1 – Introducción ~ 24 ~ estudio fijado en esta Tesis Doctoral, cuyos resultados han sido ampliamente expuestos en los capítulos 4 y 5. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 25 ~ 2 EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE DATOS 2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE DATOS 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 26 ~ 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 27 ~ 2.1. INTRODUCCIÓN Aunque los términos de Igualdad, Equidad y Justicia puedan parecer similares, su aplicación práctica puede dar resultados totalmente diferentes. La Equidad reconoce que las personas tienen circunstancias diferentes y por lo tanto hay que tratarlas con imparcialidad, asignando los recursos y oportunidades necesarios a cada una de ellas, para alcanzar resultados igualitarios. La Justicia aspira a conseguir una equidad sostenible a largo plazo, dando a cada persona lo que le pertenece o corresponde. Las leyes sobre Derechos Humanos en una gran mayoría de países del mundo, prohíben la discriminación de grupos protegidos o sensibles por motivos de raza, color, religión, nacionalidad, sexo, estado civil, edad y embarazo, tal y como se puede observar en la Carta de Derechos Fundamentales de la Unión Europea en su artículo 21 (European Union Agency, 2000), en el Artículo 14 de la Constitución Española (Constitución Española, 1978), en el Boletín Oficial del Estado de España en su Ley Orgánica 3/2007 (BOE, 2007), en la Declaración Universal de Derechos Humanos de Naciones Unidas (United Nations, 1948), en la Ley de Derechos Civiles de los Estados Unidos de América (Department of 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 28 ~ Justice USA, 1964), en la Legislación de Derechos de Raza y Sexo en el Reino Unido (UK Public General Acts, 1975; 1976), entre otros. Ruth (2019) plasma de forma gráfica las diferencias existentes entre los distintos conceptos de Igualdad, Equidad y Justicia, en donde el árbol representa el sistema natural (Figura 2.1). Figura 2.1: Igualdad, Equidad y Justicia (Ruth, 2019) Las decisiones basadas en la agrupación o clasificación pueden ser discriminatorias, en el sentido socialmente negativo de trato injusto o desigual de las personas, en función de su pertenencia a una categoría o un grupo sensible o protegido, sin tener en cuenta las características individuales. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 29 ~ Predecir modelos o patrones de la conducta humana en función de la información contenida en sus datos y utilizando técnicas de análisis y extracción de datos puede ofrecer unos resultados sesgados, bien directamente por la información contenida en los atributos sensibles o protegidos, o bien de forma indirecta por aquellos atributos que contienen información relacionada con dichos atributos protegidos. A diferencia de la agrupación o clustering, el campo de la Equidad y la Justicia en el aprendizaje automático es relativamente nuevo e incipiente, aunque ha mostrado desde su nacimiento en la última década hasta nuestros días un gran crecimiento a causa del interés que despiertan sus aplicaciones: (Berk et al., 2017; Chouldechova & Roth, 2018; Friedler et al., 2018) entre otros. Según Chierichetti et al. (2017) hay dos líneas generales de trabajo en la exploración de la Equidad en el aprendizaje automático: la primera se centra en el objetivo específico de la Equidad y busca algoritmos que tengan resultados justos, por lo que centra su atención en el aprendizaje supervisado, mientras que la otra línea de trabajo se plantea directamente codificar un algoritmo justo. Dentro de la primera línea tenemos entre otros a Luong et al. (2011) que busca parejas de personas con características similares mediante la variante de 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 30 ~ clasificación KNN ó K-Nearest Neighbor (Cheriff, 2018; Gallego et al., 2018), etiquetando cada tupla de un conjunto de datos como discriminada o no, de manera que construye un clasificador que proporciona una descripción global de las condiciones en las que se ha producido la discriminación. Hardt et al. (2016), también dentro de la primera línea, proponen un criterio de discriminación contra un atributo protegido y especificado en el análisis supervisado, de manera que traslada la carga de incertidumbre en la clasificación del atributo protegido al responsable de la toma de decisiones, incentivando la recopilación de mejores características de los atributos, pero al mismo tiempo permitiendo posibles sesgos subjetivos. En la segunda línea de trabajo tenemos entre otros a Dwork et al. (2011) que trata la equidad individual evitando la discriminación de personas en función de su pertenencia a algún grupo protegido, construyendo una métrica para determinar el grado de similitud que tienen los individuos o personas respecto a la tarea de clasificación y que además maximiza el objetivo de imparcialidad, haciendo que los individuos similares puedan ser tratados de manera parecida. Feldman et al. (2015), dentro de la segunda línea de trabajo y tras el caso Griggs vs Duke Power Co Ltd., del Tribunal Supremo de EE.UU., realizan un 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 31 ~ estudio del impacto dispar de los atributos protegidos, como raza y género, para que no se utilicen en la toma de decisiones y también para que las decisiones tomadas no sean diferentes para los solicitantes de distintas clases protegidas o sensibles. Hay que tener en cuenta que si una característica no protegida, por ejemplo, la estatura, está estrechamente correlacionada con una característica protegida, como el género, las decisiones tomadas en función de la estatura pueden seguir siendo injustas, ya que pueden utilizarse para discriminar de forma efectiva en función del género. 2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN ALGORÍTMICA Los algoritmos controlan cada vez un mayor número de decisiones relativas a la vida cotidiana de las personas en multitud de ámbitos, como la sanidad, el transporte, la educación, las admisiones universitarias, la contratación de personal, la concesión de préstamos y pólizas de seguros, la justicia, el marketing y muchos otros, por ello es fundamental desarrollar algoritmos que no solo puedan ser precisos, sino que también sean objetivos y justos en la clasificación que realicen. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 32 ~ Estudios recientes han podido demostrar que la toma de decisiones mediante algoritmos puede obtener resultados injustos, incluso cuando no existe ninguna intención explícita de hacerlo: por ejemplo, si al determinar la puntuación de crédito no se utiliza la característica de raza, pero las personas de una raza especifica viven en una zona concreta, y la dirección se usa para entrenar el modelo de predicción, podrían producirse determinaciones injustas (Calders & Verwer, 2010; Kamishima et al., 2012; Pedreshi et al., 2008). Kamiran et al. (2013) detectaron discriminación en registros de antecedentes penales en donde se asignaban puntuaciones de riesgo a los presos, puesto que las mayores puntuaciones se asignaban a personas que pertenecían a grupos étnicos minoritarios. Caliskan et al. (2017) detectaron una gran variedad de sesgos en el lenguaje natural, entrenado en un corpus de texto estándar de la World Wide Web, que contenían huellas recuperables y precisas de nuestros prejuicios históricos, y problemáticos, hacia la raza o el género. Pombo (2020) asegura que el diseño de los cinturones de seguridad o de airbags para los automóviles, se ha venido realizando con test de características masculinas, al no haber tenido en cuenta la morfología de la mujer ni tampoco la 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 33 ~ de la mujer embarazada, por eso asegura que la mujer tiene un 47% más de posibilidades de resultar herida en accidentes. Hardesty (2018) publicó un estudio, donde el análisis de tres algoritmos de análisis facial comercializados por grandes empresas tecnológicas para determinar el sexo de las personas analizadas, contenía sesgos de género en sistemas comerciales, pues mostraban unas tasas de error del 0,8% para hombres de piel clara, mientras que el error era del 35% en mujeres de piel oscura. Garfinkel (2016) publicó una entrevista a la directora de investigación y desarrollo de productos en Ethnic Technologies, en South Hackensack (Nueva Jersey), en donde afirmaba que sus algoritmos podían predecir el origen étnico de una persona, basado en las cadenas de letras que conformaban su nombre, su dirección y código postal, todo ello basado en datos históricos de otras personas, lo cual hace suponer al algoritmo que dicha persona por solo residir en cierta área de la ciudad pertenece a una etnia o raza concreta. Dressel & Farid (2018) demostraron que la estimación por un algoritmo de la probabilidad de que un acusado pueda cometer un delito menor o grave en los dos años siguientes a su evaluación, era poco fiable y tenía un sesgo racial: en los acusados de raza negra que no reincidieron la tasa de error en la predicción 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 34 ~ de reincidencia fue de casi un 45%, mientras que en los acusados de raza blanca fue de la mitad, por lo que el algoritmo favorece a los acusados de raza blanca al predecir en exceso la reincidencia de los acusados de raza negra. Peterson et al. (2010) aseguran que las puntuaciones por raza pueden influir en las decisiones de tratamientos médicos. Por ejemplo, la puntuación de riesgo de insuficiencia cardíaca de la Asociación Americana del Corazón asigna tres puntos adicionales a los pacientes que no son de raza negra, de manera que, si un paciente de raza blanca y otro de raza negra presentan síntomas idénticos, el algoritmo predice que el paciente de raza blanca tiene un mayor riesgo de morir de insuficiencia cardíaca, lo que produce que los médicos asignen más recursos a dicho paciente. O’Reilly-Shah et al. (2020) aseguran que se pueden producir decisiones clínicas incorrectas debido al uso de algoritmos sesgados o basados en supuestos incorrectos, y que existen numerosos algoritmos clínicos que incluyen un ajuste por raza basado en pruebas cuestionables o inexistentes (Vyas et al., 2020). Baker & Hawn (2021) encuentran sesgos en los algoritmos educativos, empezando por las categorías más estudiadas de raza/etnia, género y 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 35 ~ nacionalidad, pero también en las categorías menos estudiadas, como la condición socioeconómica o la discapacidad. Hu & Rangwala (2020) aseguran que cada vez hay más aplicaciones, como la predicción del rendimiento de los estudiantes, la recomendación de cursos, la predicción del abandono y el rastreo del conocimiento, que se basan en modelos de aprendizaje automático, y cada vez hay más pruebas y preocupaciones sobre sus sesgos, pues los modelos injustos pueden conducir a resultados no equitativos para algunos grupos de estudiantes y tener un impacto negativo en su aprendizaje. Yu et al. (2020) realizaron un estudio sobre los estudiantes en la educación superior, asegurando que el éxito suele estar determinado por los antecedentes demográficos, socioeconómicos y académicos de los estudiantes antes de la experiencia universitaria, y que las tasas de graduación universitaria difieren sustancialmente según la raza o etnia de los estudiantes, afirmando que los sesgos algorítmicos no sólo afectan a las minorías demográficas, sino también a los estudiantes con desventajas adquiridas. Los departamentos de policía en Estados Unidos, China, Reino Unido, Alemania o Suiza, han experimentado con algoritmos para determinar los puntos críticos del crimen y poder intervenir de forma más eficiente, pero se han 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 36 ~ encontrado con algunos sesgos, debido a que los algoritmos normalmente se suelen retroalimentar de información histórica sobre arrestos, y por lo tanto eso obliga a realizar más tareas de vigilancia en zonas en donde se han llevado a cabo dichas acciones y por consiguiente eso produce más arrestos en las mismas zonas (El País, 2021). La Unión Europea está elaborando nuevas reglas para el control de la equidad en los algoritmos, designando cuatro categorías en función del riesgo que implique: riesgo inadmisible, riesgo alto, riesgo limitado y riesgo mínimo. Los sistemas definidos como de alto riesgo, estarán sometidos a una serie de obligaciones muy estrictas, ya que abarcan entre otros a sistemas utilizados para filtrar los curriculum de candidatos que pueden discriminar el acceso a un puesto de trabajo, o sistemas de calificación crediticia que pueden impedir que una persona obtenga un préstamo (Jiménez, 2021). 2.3. ÉTICA Y EQUIDAD DE LOS DATOS La ética de los datos se ha convertido en una nueva rama de la ética que evalúa todo lo concerniente a las prácticas morales que están asociadas a los datos, como la recopilación, generación y conservación de los datos, así como también el análisis, el procesamiento y la difusión de sus resultados, puesto que todo ello afecta de forma directa e indirecta a las personas y a la sociedad. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 37 ~ En la ética de los datos también tenemos que incluir a los algoritmos o programas, tanto de inteligencia artificial como de agrupamiento y de aprendizaje automático, que realizan todos esos cometidos y que diariamente se están implementando como ayuda a la toma de decisiones en todas las áreas de negocio y de la empresa. Si tomamos la definición lo más amplia posible, tal y como sugiere Kromrey (1993), podríamos decir que la ética se puede considerar como la disciplina que trata lo que es bueno y lo que es malo, así como también de los deberes y obligaciones morales, por lo tanto, podríamos decir que la ética son los principios de conducta que rigen a un individuo o a un grupo. Snow (1961) afirmó que la ciencia tiene un "componente moral incorporado", y este componente junto con los mecanismos de autocorrección de la ciencia, protege la integridad moral de sus practicantes. Gibbons (1973) reconoció que son posibles muchos matices e incluso distorsiones dentro de los límites de la propiedad, sin embargo, la ausencia de intencionalidad no exime de la responsabilidad ética ni redefine la práctica sospechosa como algo distinto a una cuestión ética, señalando la necesidad de tener en cuenta consideraciones éticas en cuanto a la recogida o selección de 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 38 ~ datos, la presentación o descripción de datos y la formación de interpretaciones y conclusiones. Como señala Altman (1980), la incompetencia en el uso del diseño y el análisis es un comportamiento poco ético, pues la ignorancia no es una excusa aceptable. La forma más obvia en que un estudio puede considerarse poco ético, ya sea por motivos estadísticos o de otro tipo, es el uso indebido de los datos, e incluso un estudio puede haber sido perfectamente concebido y ejecutado, pero si se analiza incorrectamente, las consecuencias pueden ser tan graves como las de un estudio que no fuera sólido en su totalidad. Box et al. (2005) defendieron que, el análisis de datos cumple una función pequeña pero fundamental en la investigación empírica, que es la de separar la información de los datos del ruido, y por consiguiente la vulneración de los principios éticos en el análisis de los datos da lugar a un ruido adicional. Normalmente este ruido se atribuye, no al experimento en sí, sino al tratamiento de los datos en el proceso que lleva a la inducción. Tukey (1980) defendió que, en la recogida de datos, las preguntas importantes pueden exigir la planificación más cuidadosa para el análisis 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 39 ~ confirmatorio: formular la pregunta es más importante que encontrar la respuesta, por lo que el análisis de datos es una actitud, una flexibilidad y una confianza en la visualización y no un conjunto de técnicas. En este sentido sugirió cuatro procesos generales de investigación: la generación de preguntas, el proceso de diseño, el seguimiento de la recogida de datos y el proceso de análisis de los datos. Rawls (2001) propuso una concepción de la justicia, a la que llamó “justicia como equidad”, en la cual, los principios de justicia más razonables son los que serían objeto de un acuerdo mutuo entre las personas, manteniendo el mismo derecho en cuanto a libertades básicas y cumpliendo dos condiciones en cuanto a desigualdad social y económica: en primer lugar, que se aplique con igualdad de oportunidades y, en segundo lugar, que redunde en un mayor beneficio de los miembros menos favorecidos. Gene Takagi (Takagi, 2018) plasmó en un gráfico todos estos conceptos, definiendo la Igualdad como la disposición a tratar a todos los ciudadanos del mismo modo, sin importar su género, raza, posición social o cualquier otra característica o cualidad, y a la Equidad como la capacidad de ser justos o de impartir justicia partiendo de la igualdad, pero considerando las necesidades individuales y las circunstancias de cada persona. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 40 ~ Yang (2018) afirma que las diferentes definiciones de equidad no necesariamente son compatibles entre sí, al no ser posible conseguir de forma simultánea las múltiples nociones existentes, por ese motivo sugiere dos tipos diferentes de discriminación, discriminación directa y discriminación indirecta. La discriminación directa o discriminación sistemática, se produce cuando una persona recibe una diferencia de trato injustificada basada en cualquier rasgo físico o cultural como el sexo, el género, la raza, la edad, la religión, etc., (Romei & Ruggieri, 2013). La discriminación indirecta o discriminación estructural, se refiere al trato de desventaja que recibe una persona basada en su pertenencia a una categoría en lugar de por sus méritos individuales, puesto que muchas decisiones actuales se toman mediante modelos predictivos construidos a partir de datos históricos, y estos modelos predictivos pueden discriminar sistemáticamente a grupos de personas (Zliobaite, 2015a). Barocas & Selbst (2016) señalan que la discriminación puede ser debida al propio proceso de extracción de datos, pues este puede reflejar sesgos de las personas que tomaron dicha información en función de la decisión tomada para llevar a cabo la recolección de los datos. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 41 ~ El trabajo sobre la ética en los algoritmos ha aumentado progresivamente en la última década, cuando los gobiernos y las empresas han empezado a asumir un papel destacado en el debate sobre algoritmos justos y éticos (Binns, 2017; Sandvig et al., 2016; Selbst et al, 2019; Tsamados et al., 2021; Wong, 2019). Todo este movimiento respecto de la ética, ha producido un aumento en la investigación sobre las implicaciones que tiene la ética en los algoritmos, y muy en particular la relación existente en cuanto a equidad, responsabilidad y transparencia (Hoffmann et al., 2018; Lee, 2018; Shin & Park, 2019). Mittelstadt et al. (2016) formuló un mapa conceptual, en el cual identifica seis preocupaciones éticas que definen el espacio conceptual de la ética de los algoritmos como campo de investigación: tres se refieren a factores epistémicos (pruebas no concluyentes, inescrutables y erróneas), dos son explícitamente normativas (resultados injustos y efectos transformadores) y una última de trazabilidad, la cual es común a los dos grupos anteriores, epistémicos y normativos (Figura 2.2). 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 42 ~ Figura 2.2: Tipos de preocupaciones éticas (Mittelstadt et al., 2016) Los factores epistémicos del mapa ponen de relieve la importancia de la calidad y la exactitud de los datos para justificar las conclusiones a las que llegan los algoritmos, las preocupaciones normativas se refieren al impacto ético de las acciones y decisiones impulsadas por algoritmos, y finalmente la trazabilidad se refiere a poder identificar la causa que conduce a un resultado determinado por parte del algoritmo y poder atribuir la responsabilidad moral del mismo. Corbett-Davies & Goel (2018) afirman que cada vez están cobrando más importancia tres amplias clases de definiciones de equidad. La primera clase, a la que denominan anti clasificación, estipula que los algoritmos no tienen en Trazabilidad Efectos transformadores Resultados injustos Pruebas erróneas Pruebas inescrutables Preocupaciones Epistémicas Preocupaciones Normativas Pruebas no concluyentes 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 43 ~ cuenta las características protegidas a la hora de obtener estimaciones. La segunda, exigiendo que ciertas medidas de rendimiento predictivo sean iguales en todos los grupos definidos por el atributo protegido, intentado conseguir la paridad en la clasificación. A la tercera clase la denominan calibración, y requiere que los resultados sean independientes del atributo protegido. Kleinberg et al. (2016) afirman que la clasificación algorítmica ha implicado una tensión sobre lo que significa que una clasificación probabilística sea justa para diferentes grupos, puesto que salvo en casos muy restringidos, no hay ningún método que pueda satisfacer las tres condiciones explicadas por Corbett-Davies & Goel (2018) de forma simultánea. Gillis & Spiess (2019) realizaron un estudio de simulación basada en datos hipotecarios del mundo real, y observaron que restringir las características protegidas, como el género o la raza, que el algoritmo puede utilizar, suele tener un efecto limitado sobre la disparidad y, aumentaba las diferencias de los precios. Es claro que los algoritmos nos ofrecen un mejor rendimiento en muchos aspectos, si lo comparamos con el rendimiento obtenido por el ser humano, por ejemplo, son capaces de integrar mucha más información en grandes volúmenes 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 44 ~ de datos y a la vez tener en cuenta múltiples características de esos datos, y por otro lado son capaces de realizar cálculos más complejos y rápidos que el propio ser humano. Pessach & Shmueli (2020) confirman que, aunque las decisiones que toman los algoritmos deberían de ser más objetivas y justas de las que pudiera tomar el ser humano, esto no es así, ya que un modelo de predicción puede estar sesgado al aprender y conservar sesgos históricos. En términos generales, el problema de predicción basado en la discriminación se formula como un problema de optimización con restricciones, cuyo objetivo es alcanzar la mayor precisión posible, intentando mantener la mejor equidad posible. Zliobaite (2015b) revisó el problema de la compensación entre precisión y equidad en una clasificación binaria, argumentando que la comparación de clasificadores no discriminatorios debía tener en cuenta los diferentes porcentajes de predicción positiva, pues de no ser así, concluía, el rendimiento podría ser engañoso. Calders et al. (2009) demostraron un cierto equilibrio entre la precisión y el nivel existente de dependencia injustificada entre las predicciones y el atributo 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 45 ~ protegido o sensible, transformando la clasificación con restricciones en un problema de optimización multiobjetivo, proponiendo dos métodos para limpiar los datos de entrenamiento. El primer método consiste en cambiar algunas etiquetas de la base de datos y así eliminar la dependencia que pueda existir entre las etiquetas y el atributo protegido, y el segundo método asigna pesos a las tuplas formadas en el primer método y de esta forma consigue equilibrar los datos de entrenamiento original. Corbett-Davies et al. (2017) demostraron que maximizar la precisión de las predicciones con un único umbral suele alterar las restricciones de equidad, mientras que los modelos que guardan la equidad con umbrales específicos para cada grupo suelen reducir la precisión en la clasificación. Speicher et al. (2018) argumentaron que generalmente un algoritmo que obtiene una equidad óptima basada en el índice de equidad, podría tener un mal rendimiento de precisión. Se han propuesto métodos concretos para detectar la existencia de la discriminación en los datos. Adebayo & Kagal (2016) utilizan el método de proyección ortogonal para crear múltiples versiones del conjunto de datos 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 46 ~ original, eliminando un atributo en cada subconjunto, y obligando a que el resto de atributos sean ortogonales con el atributo eliminado. Zhang & Neil (2016) tratan la existencia de la discriminación en los datos como un problema de detección de anomalías y desarrollan algoritmos para escanear los subconjuntos de datos y encontrar subgrupos dentro de cada subconjunto que sufran una discriminación significativa. Mancuban & Clifton (2014) construyen redes bayesianas no discriminatorias, pues su algoritmo depende de que se elimine el atributo protegido de la red y así poder eliminar de los datos las observaciones discriminatorias. Celis et al. (2016) proponen no solo eliminar el sesgo en los datos de entrenamiento sino también garantizar que los datos no sesgados sean representativos del espacio de características que contiene la base de datos original. Las preocupaciones sobre la equidad en la clasificación y el clustering, así como sobre la evaluación y mejora de algoritmos justos, han generado una gran cantidad de literatura: ver entre otros (Chen et al., 2019; Holstein et al., 2019; Hossain et al., 2020; Micha & Shah, 2020; Zafar et al., 2017; Zemel et al., 2013). 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 47 ~ Sin embargo, el objetivo de mejorar la equidad de los algoritmos no es trivial, pues existe a menudo una contradicción directa con el objetivo de conseguir la mayor concordancia posible entre los elementos pertenecientes a los mismos grupos, de modo que un aumento del objetivo de equidad suele producir una pérdida de eficiencia en la clasificación y viceversa. La solución propuesta en esta Tesis Doctoral alcanza un compromiso razonable entre los objetivos de eficiencia y equidad, y es capaz de trabajar con datos únicamente de tipo categórico puro o de tipo mixto, incluyendo en la misma base de datos atributos de tipo numérico y de tipo categórico e incluso dentro de estos, los que son de tipo binario junto con los que son de tipo nominal, ordinal o de tipo intervalo. Asumiendo la existencia de un atributo protegido o sensible dentro de nuestros datos, el método de clasificación FairMclus propuesto en esta Tesis Doctoral, encuentra grupos de elementos justos y equitativos y al mismo tiempo los elementos dentro de cada grupo son homogéneos entre si (Santos & Heras, 2020; 2021). La estabilidad, la eficacia de la clasificación y la equidad son las principales ventajas de la metodología FairMclus propuesta en esta Tesis Doctoral. 2 – Equidad y Justicia en Algoritmos de Clasificación de Datos ~ 48 ~ 3- Análisis de Clustering ~ 49 ~ 3 ANÁLISIS DE CLUSTERING 3 – ANÁLISIS DE CLUSTERING 3- Análisis de Clustering ~ 50 ~ 3- Análisis de Clustering ~ 51 ~ 3.1. INTRODUCCIÓN El análisis de conglomerados o de cluster es una metodología de aprendizaje automático no supervisado que engloba una amplia variedad de técnicas y métodos, todos ellos dirigidos a un único propósito: clasificar los elementos que pertenecen a un conjunto dado y agruparlos en un número finito de subconjuntos o conglomerados, haciendo que las diferencias entre los diferentes grupos sea lo más grande posible. Según Jain & Dubes (1980; 1988), el objetivo de un análisis de cluster es descubrir agrupaciones naturales para estimular la creatividad y el ingenio, así como formular hipótesis sobre el fenómeno estudiado. El análisis de conglomerados tiene una naturaleza heurística que fomenta la exploración de los datos, complementada con técnicas de visualización. En el diccionario en línea de Merriam-Webster (2018) se define análisis de cluster como una técnica de clasificación estadística para descubrir si los individuos de una población pertenecen a diferentes grupos al hacer comparaciones cuantitativas de múltiples características. El objetivo del análisis de conglomerados es, por tanto, encontrar la forma más natural de agrupar y clasificar un conjunto de individuos, objetos, patrones, 3- Análisis de Clustering ~ 52 ~ observaciones, etc., en función del grado de similitud que tengan sus características o atributos. Como regla general el proceso se repite un número de veces, que puede estar especificado de antemano o no, en el algoritmo, hasta que no se produce ningún cambio en ningún cluster de los que están formados, con lo que el algoritmo terminaría su ejecución (Figura 3.1). Figura 3.1. Formación de 3 cluster (Learn by marketing, 2021) Por ejemplo, un investigador de mercado puede preguntarse cómo agrupar a los consumidores que buscan beneficios similares de un producto para 3- Análisis de Clustering ~ 53 ~ poder comunicarse mejor con ellos, o un analista de mercado puede estar interesado en agrupar las características financieras de empresas para poder relacionarlas con sus resultados bursátiles (Everitt et al., 2011). Green et al. (1967) utilizaron el análisis de cluster para clasificar las ciudades en un número reducido de grupos en función de 14 variables, entre ellas el tamaño de la ciudad, la circulación de los periódicos y la renta per cápita. Chakrapani (2004) emplea el análisis de cluster para tratar de identificar a las personas con un estilo de vida más asociado a la compra de coches deportivos, y de esa forma crear y enfocar mejor una campaña de marketing, pues consideraba que la compra de un coche deportivo no se basaba únicamente en los medios económicos o en la edad, sino que era una decisión de estilo de vida. Radmehr & Alamolhodaei (2014) realizaron un análisis de conglomerados en aquellos estudios que tienen una entrevista como parte de su recogida de datos, con métodos mixtos secuenciales que utilizan datos cuantitativos para enmarcar submuestras cualitativas posteriores para la realización de entrevistas. Hitka et al. (2017) propusieron un programa de motivación de grupo para los empleados de una empresa mediana que opera en la industria de la madera, 3- Análisis de Clustering ~ 54 ~ formando tres categorías o cluster para los directivos y otros tres para los empleados, para aumentar el rendimiento de los empleados y por consiguiente el de la empresa, pues aun cuando se aplican programas de motivación, los programas de motivación mal diseñados pueden tener un impacto negativo en los empleados. En esta Tesis Doctoral se propone una nueva metodología de agrupamiento para datos categóricos puros y datos mixtos. Mantenemos por un lado la agrupación de datos categóricos según las propias características de cada uno de ellos y de esa forma no perder la identidad y diferencia de los atributos entre sí, y, por otro lado, para los datos numéricos agrupando cada atributo de manera independiente, para que no se vea afectada la ubicación de cada objeto en su grupo por el resto de atributos numéricos. De esta forma se consiguen resolver los problemas de inestabilidad que se han descrito anteriormente y se alcanza asimismo una mayor eficiencia en el agrupamiento final. 3- Análisis de Clustering ~ 55 ~ 3.2. ETAPAS DEL ANÁLISIS DE CLUSTER En la realización del análisis de cluster, existen algunos pasos o etapas que es necesario llevar a cabo, para conseguir un resultado óptimo en la generación de los grupos o cluster finales. Según Aldenderfer y Blashfield (1984) existen cinco pasos básicos que caracterizan los estudios de análisis de cluster: (1) selección de una muestra; (2) definición de un conjunto de variables para medir las entidades de la muestra; (3) cálculo de distancia entre las entidades; (4) utilización de un método de análisis y (5) validación de la solución final. Milligan (1996) identifica siete pasos que constituyen un análisis de cluster: (1) Selección de las entidades a agrupar; (2) Selección de las variables; (3) Estandarización de las variables; (4) Selección de la medida de similitud o disimilitud; (5) Selección de un método de análisis; (6) Determinación del número de cluster final; (7) Interpretación, pruebas y replicación. Everitt et al. (2011) redistribuyen las mismas etapas que Milligan (1996), especificando algunos de los pasos, como el de la selección de las variables a utilizar, en el que, en la medida de lo posible, deben excluirse las variables irrelevantes o de enmascaramiento. Respecto al número de cluster a utilizar, 3- Análisis de Clustering ~ 56 ~ proponen considerar el más alto, a menos que la información externa del tema sugiera una elección adecuada. Halkidi et al. (2001) sugieren cuatro pasos o etapas para la realización de un análisis de cluster, que comparten características comunes con las de otros autores, pero distribuidas de la siguiente forma (Figura 3.2): (1) Seleccionar adecuadamente las características sobre las que se va a realizar el clustering, para codificar la mayor cantidad de información posible sobre la tarea que nos interesa. (2) Elección de un método de agrupación que permita definir un buen esquema de clustering para un conjunto de datos, que contenga: i. una medida que cuantifique lo similares que son dos puntos para asegurarnos de que todas las características seleccionadas contribuyan por igual al cálculo de la medida de proximidad y que no haya características que dominen a otras. ii. Definir un buen criterio de agrupación, que conduzca a una partición que se ajuste bien al conjunto de datos. (3) Validación y corrección de los resultados; independientemente de los métodos de clustering, la partición final de los datos requiere 3- Análisis de Clustering ~ 57 ~ algún tipo de evaluación en la mayoría de las aplicaciones (Rezaee et al., 1998). (4) Interpretación de los resultados para sacar la conclusión correcta. Figura 3.2. Etapas de Análisis de cluster (Halkidi et al., 2001) La metodología que introduce el algoritmo FairMclus (Santos & Heras, 2020; 2021), presentado en esta Tesis Doctoral, sigue los mismos principios que el enunciado por Halkidi et al. (2001), aunque con algunas diferencias fundamentales respecto a las fases uno y dos. Respecto a la fase uno, y siguiendo el principio enunciado por Halkidi et al. (2001) de intentar tomar todas las características posibles para codificar la mayor cantidad de información posible: 3- Análisis de Clustering ~ 58 ~  El algoritmo FairMclus selecciona todas las características o atributos contenidos en la Base de Datos, debido a que cada atributo se clasifica de forma independiente del resto para no producir ningún sesgo de clasificación sobre el resto de atributos o características. Respecto a la fase dos, y siguiendo también el principio enunciado por Halkidi et al. (2001) de que no existan características o atributos que dominen sobre otras:  El método de agrupación del algoritmo FairMclus calcula la similitud entre diferentes observaciones de la Base de Datos teniendo en cuenta la igualdad de coincidencias de cada cluster que tenga cada atributo en cada observación, lo que nos lleva a tener grupos finales con gran semejanza entre sus elementos. 3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA Las medidas de similitud, disimilitud, distancia y dependencia son herramientas poderosas para determinar la asociación y el parecido entre pares. 3- Análisis de Clustering ~ 59 ~ La elección de una medida adecuada es esencial, ya que afectará en gran medida al tratamiento de sus datos durante el análisis y al tipo de interpretaciones que tienen sentido. Si tomamos la definición matemática del significado de distancia entre dos puntos en el plano cartesiano (ℝ2), sería la longitud del segmento que separa ambos puntos (Figura 3.3.). Figura 3.3. Distancia entre dos puntos (espacio bidimensional) Si tomamos la definición matemática del significado de distancia entre dos puntos en el espacio (ℝ𝑛𝑛), sería el módulo del vector formado por ambos puntos (Figura 3.4.). 3- Análisis de Clustering ~ 60 ~ Figura 3.4. Distancia entre dos puntos (espacio tridimensional) Bishnoi & Hooda (2020) identifican la distancia como la diferencia entre dos vectores, tomando dos vectores de entrada y devolviendo un número real positivo, llamado distancia entre dos vectores. El valor de esta función de distancia debe ser pequeño entre puntos similares y grande entre puntos de datos diferentes. La métrica de distancia o similaridad que se puede emplear en un análisis de conglomerados o de cluster, depende principalmente del tipo de variables que se estén tratando, a saber, numéricas, categóricas o mixtas (Bishnoi & Hooda, 2020; Cuadras, 1989; Gower & Legendre, 1986; Legendre & Legendre, 1979; Saxena et al., 2017; Van de Velden et al., 2019; Zezula et al., 2006). 3- Análisis de Clustering ~ 61 ~ Existen tres requisitos que se deben cumplir en toda medida de distancia (Bishnoi & Hooda, 2020): (1) La distancia entre dos puntos i y j es siempre mayor o igual a cero, es decir, si i no es igual a j, entonces 𝑑𝑑𝑖𝑖𝑖𝑖 ≥ 0. (2) La distancia entre i y j es igual a cero, si y sólo si, i es igual a j, es decir, i = j, entonces 𝑑𝑑𝑖𝑖𝑖𝑖 = 0. (3) La distancia entre i y j es igual a la distancia entre j e i, es la propiedad simétrica 𝑑𝑑𝑖𝑖𝑖𝑖 = 𝑑𝑑𝑖𝑖𝑖𝑖 , lo que implica que la dirección en la medición de la distancia no importa. Aquellas medidas de distancia que además de las anteriores, satisfacen el siguiente requisito, se denominan medidas de distancia métrica: (4) Si consideramos la presencia de un tercer punto s, la distancia entre i y j es siempre menor o igual, que la suma de la distancia entre i y s y la distancia entre s y j. Es la propiedad triangular 𝑑𝑑𝑖𝑖𝑖𝑖 ≤ 𝑑𝑑𝑖𝑖𝑖𝑖 + 𝑑𝑑𝑖𝑖𝑖𝑖 . Un concepto estrechamente relacionado con la medida de distancia es la medida de similaridad, que mide la similitud de dos puntos. Su uso dependerá del método de cluster elegido para realizar el agrupamiento de los datos. 3- Análisis de Clustering ~ 62 ~ La medida de similaridad, está acotada y toma valores dentro del rango [0,1], lo que significa que valores de similaridad cercanos al 1 tendrán una mayor semejanza entre los elementos (Ecuación 3.1): 𝑆𝑆𝑖𝑖𝑖𝑖 = 1 − 𝑑𝑑𝑖𝑖𝑖𝑖 (3.1) 3.3.1. Medidas de distancia de datos de tipo cuantitativo Los datos cuantitativos son el tipo de datos cuyo valor se mide mediante números que describen variables numéricas. Los datos cuantitativos se dividen en dos tipos: datos discretos y datos continuos. Existe en la literatura una gran variedad de coeficientes para calcular la distancia con datos de tipo cuantitativo, ver entre otros (Bishnoi & Hooda, 2020; Cha, 2007; Demey et al., 2011; Gower & Legendre, 1986) Se exponen a continuación algunos de los coeficientes más utilizados para la agrupación de datos numéricos o cuantitativos: 1.- Distancia Euclídea o Euclidiana: La distancia euclídea o distancia ordinaria entre dos puntos 𝑷𝑷(𝑥𝑥1,𝑦𝑦1) y 𝑸𝑸(𝑥𝑥2,𝑦𝑦2), es la distancia que se deduce del teorema de Pitágoras (Figura 3.5). 3- Análisis de Clustering ~ 63 ~ Si la distancia euclídea la generalizamos a un espacio (ℝ𝑛𝑛), donde cada punto del espacio contenga “r” atributos o características diferentes, su formulación seria la siguiente (Ecuación 3.2). d(P,Q)=�∑ (Pk- Qk)2r k=1 (3.2) Figura 3.5. Distancia Euclídea (Chaudhury, 2020) Esta distancia, aun siendo la distancia métrica común en la mayoría de los análisis multivariantes con variables cuantitativas, presenta el inconveniente que es muy sensible a los cambios de escala que se produzcan y sus variables son estocásticamente independientes (Cuadras, 1986). 2.- Distancia Manhattan La distancia Manhattan se llama también distancia ciudad o distancia manzana o geometría de taxi. Dados dos puntos 𝑷𝑷(𝑥𝑥1,𝑦𝑦1) y 𝑸𝑸(𝑥𝑥2,𝑦𝑦2), se define 3- Análisis de Clustering ~ 64 ~ como la suma de las distancias de proyección de dos puntos sobre cada eje de coordenadas (Ecuación 3.3): d(P,Q)=∑ |Pk- Qk|r k=1 (3.3) En la Figura 3.6 la línea roja corresponde a la distancia Manhattan, mientras que la línea azul corresponde a la distancia euclídea. Figura 3.6. Distancia Manhattan (Sosnovshchenko, 2018) 3.- Distancia Minkowski La distancia Minkowski (Sneath & Sokal, 1973; Han et al., 2012) es una métrica que puede considerarse como una generalización tanto de la distancia euclídea como de la distancia de Manhattan, con 1 ≤ 𝑝𝑝 ≤ ∞ (Ecuación 3.4). d(P,Q)=�∑ (Pk- Qk)pr k=1 p (3.4) 3- Análisis de Clustering ~ 65 ~ Se puede decir que la distancia de Minkowski es una generalización de otras distancias, pues dependiendo de los valores del parámetro “p”, se obtienen diferentes medidas; por ejemplo: si “p” toma el valor 1, obtenemos la distancia Manhattan, si “p” toma el valor 2, se obtiene la distancia Euclídea, y si p tiende a ∞, se obtendría la distancia de Chebyshev (Xu et al., 2019) (Figura 3.7). Figura 3.7. Distancia Minkowski (Xu et al., 2019) 4.- Distancia de Sorensen o Bray-Curtis La distancia de Sorensen (Sorensen, 1948) o también llamada Bray-Curtis (Bray & Curtis, 1957), es utilizada ampliamente en ecología (Looman & Campbell, 1960) (Ecuación 3.5). d(P,Q)= ∑ |Pk - Qk|r k=1 ∑ (Pk + Qk)r k=1 (3.5) 3- Análisis de Clustering ~ 66 ~ 5.- Distancia de Bhattacharyya La distancia de Bhattacharyya (Bhattacharyya, 1943), proporciona límites en la probabilidad de clasificación errónea de Bayes (Ecuación 3.6). d(P,Q)=- ln∑ �Pk∙ Qk r k=1 (3.6) 6.- Distancia de Camberra La distancia de Camberra (Gordon, 1999; Lance & Williams, 1966), se parece a la métrica de Sorensen, pero normaliza la diferencia absoluta del nivel individual. Esta métrica es muy sensible a los cambios pequeños próximos a cero (Ecuación 3.7). d(P,Q)=∑ |Pk- Qk| Pk+ Qk r k=1 (3.7) 7.- Distancia del Coseno La distancia del Coseno (Han et al., 2012), es el producto interno normalizado y se llama el coeficiente del coseno porque mide el ángulo entre dos vectores. Suele llamarse también métrica angular (Ecuación 3.8). d(P,Q)= ∑ Pk∙ Qk r k=1 �∑ Pk 2r k=1 �∑ Qk 2r k=1 (3.8) 3- Análisis de Clustering ~ 67 ~ 8.- Distancia 𝝌𝝌𝟐𝟐 de Neyman La distancia 𝜒𝜒2 de Neyman (Neyman, 1967), corrige la propiedad simétrica d(P,Q)= d(Q,P), que le falta a la distancia Chi-cuadrado de Pearson (Ecuación 3.9). d(P,Q)= ∑ (Pk- Qk)2r k=1 Pk (3.9) 3.3.2. Medidas de distancia de datos de tipo cualitativo Los datos cualitativos son el tipo de datos cuyos valores representan cualidades o características de algún tipo. A veces se registran como números, pero estos números representan categorías y no cantidades reales. Una variable cualitativa o categórica es nominal, si tiene dos o más categorías, pero no hay un orden intrínseco en las categorías. Por ejemplo, el color del pelo es una variable nominal que tiene varias categorías (rubio, castaño, moreno, pelirrojo, etc.), y no hay una forma acordada de ordenarlas de mayor a menor. Una variable cualitativa o categórica se dice que es ordinal, cuando existe un orden claro de las categorías que contiene el atributo. Por ejemplo, una variable como la experiencia educativa, que toma cuatro categorías (Primaria, 3- Análisis de Clustering ~ 68 ~ ESO, Bachillerato y Universidad), el orden para pasar de una categoría a otra, sería estableciendo un orden, 1, 2, 3 y 4, ya que no se puede saltar del nivel 1 al nivel 4, sin pasar por los siguientes niveles ordenados. Una variable cualitativa es de tipo binario, cuando únicamente toma dos valores, 0 y 1; ambos tienen la misma importancia y cada bit indica la presencia o ausencia de un posible valor de atributo. Existe en la literatura una gran variedad de coeficientes para calcular la distancia con datos de tipo cualitativo, ver entre otros (Alamuri et al., 2014; Boriah et al., 2008; Cha et al., 2006; Choi et al., 2008; Demey et al., 2011; Gower, 1971; Gower & Legendre, 1986; Hubalek, 1982; Legendre & Legendre, 1979; Lourenço et al., 2004; Sneath & Sokal, 1973). Hubalek (1982), recopiló 43 medidas de similitud, y 20 de ellas se utilizaron para el análisis de los datos de los hongos para producir cinco clusters de coeficientes relacionados. Jackson et al. (1989) compararon ocho medidas de similitud binarias para elegir la mejor para 25 especies de peces ecológicos. Tubbs (1989) resumió siete medidas de similitud convencionales para resolver el problema de plantilla, y Zhang & Srihari (2003) compararon esas siete 3- Análisis de Clustering ~ 69 ~ medidas y mostraron la capacidad de reconocimiento en la identificación de la escritura a mano. Willett (2003) evaluó 13 medidas de similitud para el código binario de huellas dactilares. Choi et al. (2010) recopilaron y analizaron 76 medidas binarias de similitud y distancia utilizadas en el último siglo. Aunque en la literatura se han descrito numerosas medidas de similitud, no existe un criterio universal de cuándo usar una u otra similitud. La elección de una determinada medida dependerá de diversos factores a tener en cuenta, como por ejemplo el peso que se desea dar a las frecuencias de a, b, c y d (Tabla 3.1), o el tipo de datos que se quieran representar. Tabla 3.1. Tabla de representación binaria 3- Análisis de Clustering ~ 70 ~ Supongamos que dos elementos, i y j están representados por la forma de vector de características binario. Sea r el número de características o atributos o la dimensión del vector de características. Las definiciones de similitud binaria y distancia se expresan mediante una tabla de contingencia de 2 x 2, donde: i. a es el número de características donde los valores de i y j son ambos 1 (presencia) lo que significa "coincidencias positivas". ii. b es el número de atributos donde el valor de i y j es (0,1), lo que significa "ausencia de coincidencias en i". iii. c es el número de atributos en los que el c es el número de atributos en los que el valor de i y j es (1,0), lo que significa "ausencia de coincidencias en j". iv. d es el número de atributos en los que tanto i como j tienen 0 (ausencia), lo que significa "coincidencias negativas". v. La diagonal (a + d) representa el número total de coincidencias entre i y j. vi. la diagonal (b + c) representa el número total de número de incompatibilidades entre i y j. vii. La suma total de la tabla 2x2, (a + b + c + d) es siempre igual a r. 3- Análisis de Clustering ~ 71 ~ En la Tabla 3.2, se exponen algunos de los coeficientes de similaridad más usados: Tabla 3.2. Medidas de similaridad binarias 3- Análisis de Clustering ~ 72 ~ 3.3.3. Medidas de distancia de datos de tipo mixto La mayoría de las investigaciones que requieren el cálculo de una distancia o similaridad se limitan a las variables continuas, pero en el mundo real, en la empresa, los datos son en su mayoría una combinación de variables continuas y categóricas, es decir, de variables cuantitativas y variables cualitativas, también llamados datos de variables mixtas o datos heterogéneos. Cuando los datos son una mezcla de tipo continuo y categórico, la mayoría de los investigadores ignoran su naturaleza categórica y proceden con medidas de distancia para datos continuos o transforman los datos continuos en categóricos y proceden con medidas de distancia para datos categóricos. Pero la conversión de las variables a la misma escala implica una pérdida de información. Existe en la literatura una gran variedad de coeficientes para calcular la distancia con datos de tipo mixto, ver entre otros (Foss et al., 2019; Gordon, 1999; Krzanowski, 1983; Sokal & Gordon, 1983; Van de Velden et al., 2019). La primera medida de distancia para calcular la distancia entre dos observaciones, que tengan variables continuas y categóricas medidas simultáneamente, fue propuesta por Gower (1971). 3- Análisis de Clustering ~ 73 ~ Gower (1971) definió un coeficiente general que mide la similitud entre dos unidades, pero no incorpora variables ordinales, lo que supone una grave carencia si los conjuntos de datos mixtos tienen variables de tipo ordinal. Podani (1999) extendió el coeficiente general de similitud de Gower a caracteres ordinales. La idea es considerar las diferencias de rangos para dos ítems dentro del mismo orden de rango, como en la correlación de rangos de Spearman (Martínez et al., 2009), ya que la estandarización de rangos de cada variable garantiza la comparabilidad con los otros tipos de variables. Wishart (2003) propuso una medida de distancia que era similar a la medida de Gower, pero con una ligera modificación, ya que utilizaba la varianza de la variable continua en la parte de la puntuación. Huang (1997a) definió una medida de distancia para datos de variables mixtas combinando la distancia euclídea cuadrada para las variables numéricas y la distancia de coincidencia simple de Sokal & Michener (1958) para las variables categóricas. Stanfill & Waltz (1986) introdujeron una medida de distancia para variables nominales llamada distancia de solapamiento, que es simplemente el número de variables que son diferentes entre dos objetos. Esta medida asigna un peso igual 3- Análisis de Clustering ~ 74 ~ a todas las variables, por lo que posteriormente definieron una nueva medida de distancia llamada Métrica de la Diferencia de Valores (VDM), que determina estadísticamente la distancia de dos objetos en función de la proporción del número de veces que sus atributos particulares están en la misma clase. Pero las medidas de distancia de solapamiento y la métrica de diferencia de valor sólo manejan variables categóricas y por lo tanto no funcionan para variables continuas, porque en los datos continuos hay muy pocos solapamientos. Wilson y Martínez (1997) presentaron la métrica de diferencia de valores heterogéneos que solucionaba los problemas ocasionados por la métrica de Stanfill y Waltz (1986), ampliando la medida de solapamiento con la métrica de solapamiento euclídea heterogénea. Ahmad & Dey (2007a, 2007b) modificaron la medida de distancia de Huang (1997b), utilizando la distancia euclídea al cuadrado entre los datos para las variables continuas y la distancia entre datos categóricos en función de su distribución global y la concurrencia con otras variables. Harikumar & Surya (2015) propusieron una función de distancia generalizada en forma de términos triples, que consiste en tres medidas de 3- Análisis de Clustering ~ 75 ~ distancia diferentes para tipos de datos numéricos, categóricos y binarios; la distancia Manhattan se utilizó para variables continuas, la distancia Hamming (Tokareva, 2015) para variables binarias y para las variables categóricas se utilizó la distancia de concurrencia definida por Ahmad & Dey (2007a). 3.4. MÉTODOS DE CLASIFICACIÓN La razón principal de que existan muchos métodos de clustering es el hecho de que la noción de "cluster" no está definida con precisión (Estivill-Castro & Yang, 2004; Rokach & Maimom, 2006). Se han desarrollado diferentes tipos de métodos con diferentes principios de inducción, dependiendo de las características que tienen los individuos y de la distancia existente entre cada uno de estos individuos. La mayoría de los algoritmos de cluster se basan en dos métodos populares conocidos como método jerárquico y método particional: ver entre otros (Fraley & Raftery, 1998; Frigui & Krishnapuram, 1999; Leung et al., 2000; Omran et al., 2007; Saxena et al., 2017) (Figura 3.8). 3- Análisis de Clustering ~ 76 ~ Figura 3.8. Clasificación en dos Métodos Existen autores que sugieren cuatro grupos, añadiendo dos métodos nuevos a los anteriores, por ejemplo: Milligan & Cooper (1987) sugieren hacer la división en: métodos jerárquicos, métodos particionados, métodos de agrupación superpuesta y técnicas de ordenación. Por otro lado, Halkidi et al. (2001) y Han et al. (2012), entre otros, sugieren añadir dos métodos, aun cuando estos ya existían en la clasificación de los no jerárquicos, a saber: métodos particionados, métodos jerárquicos, métodos basados en densidad, métodos basados en cuadriculas. Hay autores que sugieren cinco grupos, aunque en realidad esta sería una subdivisión de los métodos existentes como no jerárquicos o particionados, a saber: métodos particionados, métodos jerárquicos, métodos basados en 3- Análisis de Clustering ~ 77 ~ densidad, métodos basados en cuadriculas y métodos basados en modelos. (Han & Kamber, 2012; Prakash et al., 2016) entre otros (Figura 3.9). Figura 3.9. Clasificación en cinco Métodos (Prakash et al., 2016) 3.4.1. Método Jerárquico Estos métodos construyen los clusters dividiendo de forma recursiva los elementos del conjunto de datos, de forma descendente o ascendente, para lo cual se requiere que el número de cluster final sea establecido a priori (Figura 3.10). BIRCH K-MEANS DBSCAN STING EM CURE K-MEDOIDS OPTICS WAVE CLUSTER COBWEB ROCK K-MODES DBCLASD BANG CLASSIT CHAMALEON PAM GDBSCAN CLIQUE SOM ECHIDNA CLARA DENCLU OPTIGRID SLINK WARDS CLARANS SUBCLU MAFIA SNN FCM ENCLUS CACTUS PROCLUS GRIDCLUST ORCLUS FCM STIRR JERARQUICO MODELO Algoritmos de Clustering PARTICIONADO DENSIDAD REJILLA 3- Análisis de Clustering ~ 78 ~  Clustering jerárquico aglomerativo (ascendente): Cada elemento representa inicialmente un cluster propio, y se fusionan sucesivamente hasta obtener la estructura de los clusters deseada.  Clustering jerárquico divisivo (descendente): Todos los elementos pertenecen inicialmente a un cluster, y se dividen sucesivamente hasta obtener la estructura de clusters deseada. Figura 3.10 Esquema Método Jerárquico (Giacoumidis et al., 2018) La fusión o división de los clusters se realiza en función de alguna medida de similitud, elegida para optimizar algún criterio (Jain et al., 1999). 3- Análisis de Clustering ~ 79 ~ El resultado de los métodos jerárquicos es un dendrograma, que representa la agrupación de los objetos y los niveles de similitud en los que cambian las agrupaciones. Se obtiene una agrupación de los objetos de datos cortando el dendrograma en el nivel de distancia o similitud deseado. En la Figura 3.11, se puede observar que al cortar el dendrograma, se formarían cinco clusters. Figura 3.11. Dendograma Agrupación de elementos (Ávila, 2021) 3- Análisis de Clustering ~ 80 ~ 3.4.2. Método No Jerárquico o Particionado Los métodos no Jerárquicos o de partición reubican las instancias moviéndolas de un cluster a otro, partiendo de una partición inicial. En concreto, un método de reubicación reubica iterativamente los puntos entre los k cluster. Al igual que los métodos Jerárquicos, estos métodos necesitan saber a priori el número de cluster final. Para lograr la optimización global en la agrupación basada en particiones, se requiere un proceso de enumeración exhaustiva de todas las particiones posibles. Como esto no es factible, se utilizan ciertas técnicas heurísticas en forma de optimización iterativa (Figura 3.12). Figura 3.12. Clustering Particionado (Saxena et al., 2017) 3- Análisis de Clustering ~ 81 ~ 3.4.3. Métodos basados en Densidad El objetivo principal de este tipo de métodos, es hacer que los puntos que pertenecen a cada cluster se extraigan de una distribución de probabilidad específica (Banfield & Raftery, 1993). Estos métodos están diseñados para descubrir grupos o cluster de forma arbitraria, haciendo que la distribución global de los datos sea una mezcla de varias distribuciones. La idea es, hacer crecer el cluster dado mientras la densidad, es decir, el número de elementos o puntos de datos en una región con un radio específico (Eps), supere algún umbral o por lo menos contenga un número mínimo de elementos (MinPts) (Figura 3.13). Figura 3.13 Clustering de Densidad (Rixin et al., 2015) 3- Análisis de Clustering ~ 82 ~ Gran parte de los trabajos en este campo se han basado en la suposición subyacente de que las densidades de los componentes son gaussianas multivariantes (datos numéricos) o multinomial (datos nominales). Una solución aceptable en este caso es utilizar el principio de máxima verosimilitud. Según este principio, se debe elegir la estructura de clustering y los parámetros de tal manera que la probabilidad de que los datos sean generados por dicha estructura y parámetros de clustering sea maximizada. 3.4.4. Métodos basados en rejilla o cuadricula Este tipo de métodos dividen el espacio en un número finito de celdas que forman una estructura de rejilla en la que se realizan todas las operaciones de agrupación (Figura 3.14). La principal ventaja de este enfoque es su rápido tiempo de procesamiento, la ausencia de cálculos de distancia y la facilidad para determinar qué clusters son vecinos (Han et al., 2012). Los pasos básicos del algoritmo basado en rejilla o cuadrículas, serían: (1) Definir el conjunto de celdas que debe tener la cuadrícula, (2) Asignar los elementos a la celda de la cuadrícula correspondiente y calcular la densidad de cada celda, (3) Eliminar las celdas cuya densidad esté por debajo del umbral 3- Análisis de Clustering ~ 83 ~ fijado, (4) Formar los clusters finales a partir de grupos contiguos de celdas densas. Figura 3.14 Clustering en Rejilla (Cao et al., 2009) 3.4.5. Métodos basados en Modelos El objetivo de este tipo de métodos, es optimizar el ajuste entre el conjunto de datos original y diversos modelos matemáticos. Al igual que el clustering convencional, los métodos de clustering basados en modelos también detectan detalles de características para cada cluster, donde cada cluster representa un concepto o clase. Los métodos basados en modelos más utilizados son los árboles de decisión y las redes neuronales. 3- Análisis de Clustering ~ 84 ~ I. Arboles de decisión: En los árboles de decisión, los datos se representan mediante un árbol jerárquico, donde cada hoja se refiere a un concepto y contiene una descripción probabilística de ese concepto (Quinlan, 1986) (Figura 3.15). Hay muchos algoritmos que producen árboles de clasificación para definir los datos no etiquetados, ver entre otros (Biswas et al., 1998; Fisher, 1987; Kolodner, 1983; Michalski & Stepp, 1983; Polumari, 2017; Thompson & Langley, 1991). Figura 3.15 Clustering en Arboles de Decisión (Ferrero, 2020) 3- Análisis de Clustering ~ 85 ~ II. Redes neuronales: En las Redes neuronales, cada cluster se representa por una neurona o "prototipo" (Haykin, 2009) (Figura 3.16). Los datos de entrada también se representan mediante neuronas que están conectadas a las neuronas prototipo. Cada una de estas conexiones tiene un peso, que se aprende de forma adaptativa durante el aprendizaje. Hay muchos algoritmos que producen clasificación con redes neuronales, ver entre otros (Kohonen, 1998; Patel, 2019; Vesanto & Alhoniemi, 2000). Figura 3.16 Clustering en Redes Neuronales (Delgado, 2018) 3- Análisis de Clustering ~ 86 ~ 3.4.6. Métodos basados en Distancia o Similaridad Además de los métodos de agrupación de datos expuestos anteriormente, existen muchos métodos de cluster para dividir un conjunto de datos por alguna medida natural de similitud o distancia. Encontramos, entre otros, Aggarwal & Reddy (2014), Agresti (2019), Aldenderfer & Blashfield (1984), Bagirov et al. (2020), Bailey (1975), Bohanec & Rajkovic (1988), Bouveyron et al. (2019), Duda et al. (1973), Estivill-Castro & Yang (2004), Everitt et al. (2011), Huang et al. (2013), Hunt & Jorgensen (2011), Jain et al. (1999), Ji et al. (2012), Jia & Song (2020), King (2015), Kumar et al. (1999), Sajidha et al. (2020), Seca et al. (2020), Selosse et al. (2020), Sibson (1976), Upton (2017), Wierzchon & Klopotek (2018). 3.5. ALGORITMOS DE CLUSTERS POPULARES Hay mucha literatura dedicada a los diferentes algoritmos de cluster existentes según el tipo de variables permitidas en el conjunto de datos y según el método de agrupación aplicado. 3- Análisis de Clustering ~ 87 ~ Se adjunta resumen de algunos de estos algoritmos (Tabla 3.3). Tabla 3.3. Tabla de Algoritmos y Metodologías de Clustering Metodología Algoritmo tipico Autores Density DBSCAN Ester et al. (1996); Liu et al. (2017); Pietrzykowski (2017); Zhu et al. (2013) Density FDCA Jinyin et al. (2017) Density IDCUP Altaf et al. (2020) Density DENCLUE Hinneburg & Keim (1998) Entropy COOLCAT Barbará et al. (2002) Entropy ENCLUS Cheng et al., (1999) Grid STING Makhabel (2015); Wang et al. (1997) Grid GK-PROTOTYPES Jang et al. (2018) Grid CLIQUE Agaarwal et al. (2005) Grid WAVECLUSTER Sheikholeslami et al. (1998, 2000) Hierarchical SINGLE-LINKAGE Sneath & Sokal (1973) Hierarchical COMPLETE-LINKAGE King (1967) Hierarchical AVERAGE-LINKAGE Murtagh (1983, 1984); Ward (1963) Hierarchical BIRCH Chiu et al. (2001); Zhang et al. (1996, 1997) Hierarchical CURE Guha et al. (2000) Hierarchical DIANA, AGNES, MONA Kaufman & Rousseeuw (1990) Hierarchical ROCK Guha et al. (2001) Hierarchical SBAC Li & Biswas (2002) Mixed ACC-FSFDP Chen & He (2016) Mixed CCS-K-Prototypes Ji et al. (2020) Mixed CLICOT Behzadi et al. (2020) Mixed K-MEAN Ahmad & Dey (2007a) Mixed KL-FCM-GM Chatzis (2011) Mixed K-PROTOTYPES Huang (1997b, 1998); Ji et al. (2013); Kim (2017); Khan & Ahmad (2015); Szepannek (2018) Mixed INITKMIX Ahmad & Khan (2021) Mixed K-HARMONIC Ahmad & Hashmi (2016) Model-based CLUSTMD McParland & Gormley (2015) Model-based COBWEB Fisher (1987) Model-based KAMILA Foss et al. (2016); Foss & Markatou (2018) Partitioning K-MEANS McQueen (1967); Forgy (1965) Partitioning TCLUST Fritz et al. (2012) Partitioning FUZZY C-MEANS Bezdek (1981, 2011); Hamerly & Elkan (2002) Partitioning K-HARMONIC MEANS Zhang et al. (1999, 2001) Partitioning K-MODES Dorman & Maitra (2020); Huang (1997b, 1998); Khan & Ahmad (2012, 2013) Partitioning PAM, CLARA, CLARANS, FANNY Kaufman & Rousseeuw (1990) 3- Análisis de Clustering ~ 88 ~ A pesar de la existencia de una gran diversidad de métodos, se siguen utilizando en el análisis de cluster algunos métodos con más frecuencia que otros. K-Means (Forgy, 1965; McQueen, 1967) sólo funciona con datos numéricos. Este algoritmo representa cada cluster por su centro de gravedad, su valor medio, y asigna los elementos a los clusters más cercanos utilizando la distancia euclídea. Una vez que ha asignado todos los elementos del conjunto de datos a un cluster, el algoritmo vuelve a calcular todos los centros de gravedad y vuelve a repetir el proceso hasta que no exista ningún cambio sobre ningún cluster formado. También cabe mencionar K-Means++ (Arthur & Vassilvitskii, 2007), importante variación de K-Means, que mejora el tiempo de ejecución del algoritmo de Lloyd (Lloyd, 1982) y la calidad de la solución final. Además, se implementa en la mayoría de los paquetes numéricos, por ejemplo: scikit-learn o Matlab. K-Modes (Huang, 1997b; 1998), funciona para datos categóricos, y puede ser considerado como una adaptación de K-Means, ya que ambos se inspiran en ideas similares. K-Modes funciona de manera similar a K-Means, considerando las modas de los grupos en lugar de sus medias, y usando 3- Análisis de Clustering ~ 89 ~ disimilitudes en lugar de distancias numéricas, pero el proceso de construcción de cluster es el mismo que en K-Means. Para calcular la disimilitud entre dos elementos X e Y descritos por “r” atributos categóricos, la función de distancia en K-Modes toma el valor 0 cuando los atributos de dos elementos son iguales (𝑋𝑋𝑟𝑟 = 𝑌𝑌𝑟𝑟) y toma el valor 1 cuando son distintos (𝑋𝑋𝑟𝑟 ≠ 𝑌𝑌𝑟𝑟), dando la misma importancia a cada categoría de cada atributo. El libro “Finding Groups in Data” (Kaufman & Rousseeuw, 1990), describe varias técnicas para el análisis de cluster, entre ellas figuran DAISY y PAM (Partitioning Around Medoids), las cuales fueron originariamente implementadas en lenguaje Fortran. La principal función del algoritmo DAISY es calcular los coeficientes de disimilitud entre atributos y su capacidad para manejar variables nominales, ordinales, binarias y de escala, incluso si hay diferentes tipos de variables en el mismo conjunto de datos, la matriz de disimilaridad obtenida por este algoritmo se utiliza como entrada en el algoritmo PAM. El algoritmo PAM, se basa en la búsqueda de k objetos representativos, llamados medoides, entre los elementos del conjunto de datos. Estos medoides 3- Análisis de Clustering ~ 90 ~ se calculan de forma que la disimilitud total de todos los elementos con su medoide más cercano sea mínima, es decir, el objetivo es encontrar un subconjunto {𝑚𝑚1,𝑚𝑚2𝑚𝑚3, … . . ,𝑚𝑚𝑘𝑘} ⊂ {1,2, … …𝑛𝑛} que minimice la función objetivo (Ecuación 3.10). ∑ mint=1,2,…k d(i,mt)n i=1 (3.10) El método PAM puede compararse con el conocido método K-Means (MacQueen, 1967), donde el centro de cada cluster se define como el promedio de todos los objetos dentro del cluster, minimizando la suma de distancias euclídeas al cuadrado, en este sentido, el algoritmo PAM es más robusto, porque minimiza una suma de disimilitudes no cuadradas. Tclust (Fritz et al., 2012), presenta un algoritmo para realizar clustering robusto no jerárquico, que funciona para datos de tipo mixto y de tipo categórico. En lugar de intentar "ajustar" los datos ruidosos, como ocurre con otros algoritmos, recorta una proporción de las observaciones más alejadas, de forma que pueda manejar de forma eficaz diferentes restricciones de dispersión de los clusters. K-Prototypes (Huang, 1997a; 1998) funciona para datos mixtos, y combina las medias de los atributos numéricos y las modas de los atributos 3- Análisis de Clustering ~ 91 ~ categóricos para conseguir el Coeficiente de Disimilaridad de K-Prototypes, introduciendo un parámetro nuevo "γ" para el control de la influencia producida por las “p” características o atributos categóricos y por las “r - p” características o atributos numéricos (Ecuación 3.11). d(P,Q)=γ∑ δ�Pp,Qp� p k=1 +∑ �(Pk - Qk)2r k=p+1 (3.11) El algoritmo K-Prototypes utiliza el Coeficiente de Disimilaridad (Ecuación 3.11.) dividido en dos partes separadas, una para el cálculo de la parte categórica y otra parte para el cálculo de la parte numérica. La parte categórica adopta la distancia de Hamming y la parte numérica adopta el cuadrado de la distancia euclídea (Huang, 1998). El ajuste de las dos partes, numérica y categórica, viene dado por el parámetro "γ", analizado ampliamente en Huang (1997a). Huang y Ng (1999) introducen el algoritmo Fuzzy K-Modes, basándose en el algoritmo Fuzzy k-Means (Bezdek, 1981), mediante un nuevo procedimiento para generar la matriz difusa a partir de datos categóricos, mediante la medida de disimilaridad simple para datos categóricos. Ji et al. (2012; 2013) proponen una mejora del algoritmo K-Prototypes con el concepto de centroide de distribución, que representa el “prototype” de los 3- Análisis de Clustering ~ 92 ~ atributos categóricos en el cluster, e introducen una nueva medida de disimilitud que tiene en cuenta el significado de cada atributo. Chatzis (2011) presenta una extensión del algoritmo Gath-Geva para permitir el manejo de datos con atributos numéricos y categóricos empleando una disimilitud probabilística funcional para manejar datos con atributos de tipo mixto. Foss et al. (2016) propusieron el algoritmo KAMILA (KAy-means for MIxed LArge data sets), que combina las características de dos algoritmos, el algoritmo K-Means (Forgy 1965; Lloyd 1982) y el modelo mixto Multinomial-Gaussiano (Hunt & Jorgensen 2011), introduciendo un estimador de densidad calculado a partir de los datos para equilibrar la contribución de las variables continuas y categóricas. En la presente Tesis Doctoral se propone un nuevo algoritmo de agrupamiento y clasificación, FairMclus (Santos & Heras, 2020; 2021), para datos categóricos puros y datos mixtos, que ofrece estabilidad en el agrupamiento de los grupos finales, debido a la selección de los centroides iniciales de dichos grupos y además proporciona una mayor eficiencia de agrupamiento final. 3- Análisis de Clustering ~ 93 ~ La agrupación de datos categóricos se realizará según la propia característica de cada atributo para no perder así la identidad y diferencia de los atributos entre sí. Para los datos numéricos se agrupará cada atributo por separado e independientemente, para que no se vea afectada la ubicación de cada elemento del conjunto de datos en su grupo por el resto de atributos numéricos si se agrupasen de forma conjunta. 3- Análisis de Clustering ~ 94 ~ 4 – Metodología del Algoritmo Propuesto ~ 95 ~ 4 METODOLOGÍA DEL ALGORITMO PROPUESTO 4 – METODOLOGÍA DEL ALGORITMO PROPUESTO 4 – Metodología del Algoritmo Propuesto ~ 96 ~ 4 – Metodología del Algoritmo Propuesto ~ 97 ~ 4.1. INTRODUCCIÓN En este Capítulo se explican las ideas principales de la metodología y su implementación mediante el algoritmo propuesto, para conseguir conjuntos finales eficientes y equitativos según el atributo sensible o protegido elegido del conjunto de datos inicial. Nuestra filosofía se basa en mantener las distintas particiones, obtenidas según los diferentes atributos, lo más separadas posible y no agregando todos los atributos al principio de la clasificación, como se hace actualmente. Se estudia el comportamiento de agrupación de cada atributo de forma independiente a cualquier otro atributo y se evita por tanto la inferencia directa, indirecta o subjetiva de unos atributos sobre otros. Suponemos la existencia de un atributo sensible o protegido en el conjunto de datos y también de las proporciones deseadas entre sus valores. Por ejemplo, el atributo protegido podría ser Género, con dos posibles valores categóricos, masculino y femenino, y la proporción deseada entre ellos podría ser la observada de ambos géneros en el conjunto de datos. El objetivo del algoritmo es dividir la base de datos total en un conjunto de grupos homogéneos y justos: homogéneos porque cada uno de ellos debe 4 – Metodología del Algoritmo Propuesto ~ 98 ~ contener solo observaciones similares; y justo, porque las proporciones de los valores de los atributos protegidos deben estar cerca de las proporciones deseadas. En la búsqueda de la estabilidad, eficiencia y equidad en la agrupación de conjuntos, nos encontramos con varios aspectos a tener en cuenta, y que todos ellos van unidos en el objetivo de conseguir conjuntos lo más homogéneos y equitativos posible, para no producir ningún tipo de sesgo sobre cualquier atributo sensible incluido en el conjunto de datos original. El primer aspecto que nos encontramos en la formación de grupos es conseguir Estabilidad en la solución final de los grupos y de los elementos que conforman cada uno de los grupos finales. La búsqueda de los centroides iniciales sobre los cuales se van a formar los conjuntos finales es fundamental. Se trata de eliminar la aleatoriedad en la búsqueda de dichos centros y, por consiguiente, que la formación de los grupos finales siempre contenga a los mismos elementos. Como segundo aspecto tenemos el alcanzar la mayor Eficiencia o precisión en la formación de los conjuntos finales, y asegurar que el resultado 4 – Metodología del Algoritmo Propuesto ~ 99 ~ final obtenido guarde tanto los principios de similitud de los elementos dentro de sus grupos como la disimilitud entre distintos grupos. Aunque la clasificación en cluster es un método no supervisado, para comprobar la eficiencia en el ajuste de los grupos finales, usaremos las Bases de Datos utilizadas para este tipo de investigaciones y que poseen un atributo con la solución del cluster final. Dicho atributo se eliminará en todos los procesos de la investigación y únicamente se utilizará para comprobar el grado de eficiencia obtenida al final del proceso. Como tercer aspecto tenemos la Equidad sobre el atributo sensible o protegido en el resultado final, asegurando que no se produzca ningún tipo de sesgo o discriminación sobre el atributo protegido (género, raza, estado civil, edad, religión, etc.) en el resultado final de los grupos, evitando la manipulación manual en la agrupación final. 4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES 4.2.1. Respecto del Agrupamiento Un tema clave para el desempeño en la agrupación de clusters es la selección de las semillas o centroides iniciales. Para superar este problema, se 4 – Metodología del Algoritmo Propuesto ~ 100 ~ han sugerido algunas soluciones en la literatura sobre diferentes algoritmos de agrupamiento. K-Means (Forgy, 1965; McQueen, 1967), K-Modes (Huang, 1997a, 1998) y K-Prototypes (Huang, 1997b) son tres de los algoritmos más populares para agrupar datos numéricos, categóricos y mixtos, respectivamente. Todos estos métodos se basan en la misma metodología: a. Seleccionan “K” centroides iniciales de forma aleatoria. b. Asignan cada observación de la base de datos al punto representativo más cercano. c. Aplican distintas técnicas de distancia y agrupación al tratarse de diferentes tipos de datos. d. Recalculan repetidamente los centroides a lo largo del proceso, hasta que no existan más cambios sobre ningún cluster. Por lo general, esto se hace mediante algún procedimiento aleatorio, pero esta selección aleatoria de las semillas o centroides iniciales, a menudo conduce a agregaciones de conglomerados finales muy diferentes. El algoritmo se vuelve inestable, porque al realizar varias ejecuciones aleatorias sobre el mismo conjunto de datos suelen dar diferentes grupos finales, 4 – Metodología del Algoritmo Propuesto ~ 101 ~ tal y como se reconoce en Ahmad & Hashmi (2016), Ahmad & Khan (2019), Huang (1998), Huang et al. (2005), Khan & Ahmad (2004), Li (2011), entre otros. El rendimiento del algoritmo K-Modes se ha mejorado utilizando la técnica de búsqueda tabú (Ng & Wong, 2002) y algoritmos genéticos (Gan et al., 2005). Se han aplicado técnicas de detección de valores atípicos a la inicialización de K-Modes (Jiang et al., 2016; Knor & Ng, 1998), basándose en la idea de que los valores atípicos no deben seleccionarse como centros iniciales de los conglomerados. Kondo et al. (2016) introducen el método robusto y disperso de K-Means (RSKC) que refuerza el método disperso de Witten & Tibshirani (2010) incorporando un concepto de recorte, pero se vuelve más problemático cuando hay valores atípicos en la distribución. Brodinova et al. (2019) introducen un procedimiento basado en Sparse K- Means, capaz de encontrar la estructura subyacente en datos con valores atípicos y variables de ruido simultáneamente. Incorporan una función de ponderación que emplea una medida de los valores atípicos para asignar automáticamente un peso a cada observación. 4 – Metodología del Algoritmo Propuesto ~ 102 ~ DeSarbo et al. (1984) introdujeron el primer método de ponderación sobre K-Means con el algoritmo SYNCLUS, el cual utiliza primero el algoritmo K-Means para dividir los datos iniciales en “K” cluster, optimiza una función de coste cuadrática del conjunto de datos inicial y realiza una estimación de pesos óptimos, pero no es posible su uso sobre grandes volúmenes de datos al requerir mucho tiempo de cálculo. De Soete (1986) propuso un método para encontrar pesos en las variables y resolver su problema de ponderación, para lo cual se realiza un ajuste ultra métrico y aditivo en los métodos de agrupación de tipo jerárquico únicamente. Makarenkow & Legendre (2001) extendió el método de Soete a la ponderación optima de variables de K-Means, asignando a cada variable un peso relativo al cálculo de la distancia entre dos objetos, y de esta forma encontrar los pesos óptimos. Foss et al. (2016) propusieron el algoritmo KAMILA (KAy-means for MIxed LArge data sets), que combina las características de dos algoritmos. El algoritmo K-Means para datos numéricos y el modelo mixto Multinomial-Gaussiano (Hunt & Jorgensen 2011) para datos categóricos. Introducen un estimador de densidad calculado a partir de los datos, de forma que se equilibre la contribución de las variables continuas y categóricas. 4 – Metodología del Algoritmo Propuesto ~ 103 ~ La condensación de datos multiescala basada en la densidad, también se ha utilizado junto con la distancia de Hamming para extraer los centros de cluster iniciales de los conjuntos de datos; véase entre otros: Khan & Ahmad (2013, 2015), y Mitra et al. (2002). Cao et al. (2009) calculan la densidad de cada grupo de datos y proponen como grupos iniciales aquellos con densidades medias máximas. Wu et al. (2007) desarrollan un método basado en la densidad para calcular los centros iniciales y así reducir la complejidad algorítmica. Sin embargo, existe cierta aleatoriedad en los resultados finales y es posible conseguir nuevamente los mismos resultados. Bai et al. (2012) proponen un método para calcular los centros de conglomerados iniciales basado en una función de densidad y una función de distancia. Dinh & Huynh (2020) proponen un algoritmo llamado k-Pbc, para mejorar la inicialización del centro de conglomerados para el agrupamiento de datos categóricos. Khan & Ahmad (2013) proponen una metodología de selección de centros, mediante tres métodos distintos según la importancia de los atributos: 4 – Metodología del Algoritmo Propuesto ~ 104 ~ a. El primer método, llamado enfoque de vainilla, se consideran significativos a todos los atributos. b. El segundo método, llamado de atributo prominente, donde un atributo es significativo si el número de valores únicos de los atributos es menor o igual que el número requerido de conglomerados (Khan & Ahmad, 2012). c. El tercer método, consiste en identificar los atributos más significativos midiendo la coexistencia de sus valores con los valores de los demás atributos (Ahmad & Dey, 2007a, 2007b). Finalmente, el algoritmo de selección para los centros iniciales se aplica a los atributos obtenidos mediante los tres métodos, y posteriormente ejecuta el algoritmo K-Modes (Sajidha et al., 2020) para el agrupamiento final. El rendimiento del algoritmo K- Prototypes se ha mejorado evitando los cálculos de la distancia de las observaciones y sus centros de cluster, mediante el cálculo de la distancia parcial (Kim, 2017) o mediante agrupamiento de densidad rápido basado en un escaneo único con centros de grupo determinados automáticamente (Jinyin et al., 2017). Sajidha et al. (2020) han aplicado técnicas para introducir una nueva medida de distancia única, en donde la distancia de los atributos numéricos se 4 – Metodología del Algoritmo Propuesto ~ 105 ~ escala de manera que puedan ser comparables a los atributos categóricos, asegurando la selección de los centros iniciales para que las pueda tratar el algoritmo K-Means. Jia & Song (2020) desarrollan un método que mejora la selección inicial de los centros de cluster con un nuevo método para calcular el coeficiente de disimilitud híbrida entre los objetos y los centros de cluster. Liu et al. (2017) propone un algoritmo de agrupación de flujo de datos rápido basado en densidad con centros de agrupación determinados, basado en el gráfico de distribución de intensidad-distancia de campo para cada objeto de datos, el modelo de regresión lineal y el análisis de residuos. En general, estos métodos son difíciles de implementar, algunos de ellos no eliminan por completo la aleatoriedad, otros cambian el significado de las características que contienen los atributos para ser tratados como datos numéricos, y en otros es necesario dividir el conjunto de datos en varias partes, según sean los datos numéricos o categóricos e incluso dentro de estos, aquellos que son de tipo binario con los que son de tipo nominal, incrementando y complicando significativamente la preparación de los Datos. 4 – Metodología del Algoritmo Propuesto ~ 106 ~ En la presente Tesis Doctoral, se propone una nueva metodología con un algoritmo de agrupamiento para datos categóricos puros y datos mixtos, superando los problemas de inestabilidad que se han descrito anteriormente por otros algoritmos populares y por consiguiente teniendo Estabilidad en las agrupaciones finales de los grupos y sus elementos, y por otro lado proporcionando una mayor Eficiencia en el agrupamiento final (Santos & Heras, 2020; 2021). 4.2.2. Respecto de la Equidad Además de la eficiencia en la clasificación y la estabilidad de los resultados, un nuevo problema ha recibido mucha atención en los últimos años. La necesidad de prevenir los sesgos de clasificación debido a la raza, el género, el estatus socioeconómico, religión, etc., ha aumentado el interés en diseñar algoritmos de agrupamiento justos. La idea principal es garantizar que la salida del algoritmo no esté sesgada a favor o en contra de subgrupos específicos de la población. Para superar este problema, se han sugerido algunas soluciones en la literatura. Por ejemplo, Zemel et al. (2013) realizan una formulación de la equidad como un problema de optimización para conseguir una buena representación de 4 – Metodología del Algoritmo Propuesto ~ 107 ~ los datos con dos objetivos contrapuestos: codificar los datos lo mejor posible y, al mismo tiempo, ocultar cualquier información sobre la pertenencia al grupo protegido. Chierichetti et al. (2017) realizan un enfoque similar al de Zemel et al. (2013), pero formulando el primer paso como un problema combinatorio explícito, y mostrando garantías de aproximación, que se traducen en una mejor aproximación sobre la solución óptima. Chen et al. (2019) definen una noción de agrupación proporcionalmente justa en la que todos los grupos posibles de tamaño razonablemente grande tienen derecho a elegir un centro por sí mismos. Kleindessner et al. (2019) estudian el problema de hacer cumplir una representación justa en los puntos de datos elegidos como centros de grupos. Abraham et al. (2020) proponen un método de agrupamiento justo FairKM, inspirado en la popular formulación de agrupamiento de K-Means. Esmaeili et al. (2020) asumen un conocimiento imperfecto de la pertenencia al cluster a través de asignaciones probabilísticas. 4 – Metodología del Algoritmo Propuesto ~ 108 ~ Ziko et al. (2019) proponen un marco variacional general de agrupamiento justo, integrando un término de equidad de Kullback-Leibler (Kullback & Leibler, 1951; Sankaran et al., 2016). Backurs et al. (2019) estudiaron una variante sobre el agrupamiento de K- Mediana introducido por Chierichetti et al. (2017), en donde los puntos están coloreados de diferentes colores y cuyo objetivo es minimizar la distancia media intentando garantizar que todos los clusters tengan igual número de puntos de cada color y que el tiempo de ejecución sea casi lineal. Calders & Verwer (2010) realizaron una modificación al clasificador Naive- Bayes para realizar una clasificación restringida a la independencia con respecto a un atributo sensible o protegido. Ghadiri et al. (2020) proponen el algoritmo Fair-Lloyd que está basado en una modificación del algoritmo k-Means con la heurística de Lloyd. Schmidt et al. (2018) proponen una variante del algoritmo de Lloyd que calcula agrupaciones justas, pero extendiéndolo a un algoritmo de agrupación de medias justa. La presente Tesis Doctoral, propone una nueva metodología para agrupar datos categóricos y datos mixtos (nominal, de intervalo, ordinal, binario), basado 4 – Metodología del Algoritmo Propuesto ~ 109 ~ en el método propuesto por Santos & Heras (2020, 2021) sobre datos categóricos, obteniendo agrupaciones Estables, Eficientes y Equitativas respecto a los atributos sensibles o protegidos que tenga la Base de Datos, como: género, sexo, raza, estado civil, religión, u otros. Por supuesto, existe un equilibrio entre la equidad y la eficiencia, por lo que, si queremos aumentar la equidad, tenemos que renunciar a cierta eficiencia de clasificación. Sin embargo, es posible alcanzar un compromiso razonable entre estos objetivos (Santos & Heras, 2020; 2021). 4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO La metodología del algoritmo propuesto consiste en tres fases perfectamente diferenciadas y a la vez totalmente conexas, puesto que los resultados obtenidos en cada fase sirven de entrada en la siguiente fase, de manera que la comprensión y seguimiento del algoritmo sea fácil y lo más transparente posible. La primera fase marca la pauta para conseguir la Estabilidad en el agrupamiento final y por tanto la búsqueda de los mejores centroides para la agrupación final. 4 – Metodología del Algoritmo Propuesto ~ 110 ~ Se comienza por calcular todas las posibles combinaciones no vacías que forman los clusters de los valores de cada atributo de la Base de Datos, formando lo que llamaremos en adelante Multicluster, los cuales nos servirán como centroides iniciales para realizar el posterior agrupamiento y a su vez como número máximo de cluster en el que se puede agrupar el conjunto de datos inicial. En la segunda fase se consigue la Eficiencia del agrupamiento, partiendo de la matriz Multicluster obtenida en la Fase anterior de Estabilidad, se construye la matriz de coincidencias entre cada par de Multicluster. Aquellos Multiclusters que muestren un gran número de coincidencias entre sus atributos eventualmente se vincularán, dando lugar a Multiclusters o grupos de mayor tamaño, que comparten muchos de sus atributos, aunque no necesariamente todos ellos, y que formarán los Multiclusters Óptimos para nuestro agrupamiento final. Finalmente, en la tercera fase de Equidad, se crean los conjuntos equitativos en base al atributo sensible o protegido, tomando los Multiclusters Óptimos obtenidos en la fase anterior y agrupando cada uno de ellos con el resto. 4 – Metodología del Algoritmo Propuesto ~ 111 ~ Formaremos los Multiclusters Óptimos y Equitativos, en función de la distancia mínima obtenida, a partir del ratio observado de cada Multicluster Óptimo y Equitativo formado y el ratio deseado que contiene la Base de Datos, finalizando el proceso cuando se alcanza el número deseado de grupos finales. 4.3.1. Estabilidad (Fase 1) Esta fase comienza con la lectura de todo el conjunto de datos, se realiza la identificación y la composición de los clusters de cada atributo de forma individual y dependiendo únicamente de los diferentes valores que contenga cada atributo, bien sean estos de tipo categórico o de tipo numérico. Si un determinado atributo sólo tiene dos valores A y B, éstos son también los clusters asociados a dicho atributo, de esta manera conseguimos que cada atributo no se vea influenciado o sesgado por la incidencia de otros atributos del conjunto de datos, y que puedan tener cierta asociación. Por ejemplo, un atributo que identifique el área o zona geográfica de una ciudad con el atributo que identifique el tipo de raza o etnia que allí pueda vivir. Combinando los números de cluster de cada atributo por cada observación del conjunto de datos, obtenemos el conjunto inicial de combinaciones o conjunto de múltiples clusters, al cual llamaremos Multicluster. 4 – Metodología del Algoritmo Propuesto ~ 112 ~ Si sólo hay dos atributos con valores A, B y C, D, E, respectivamente, tendremos entonces seis Multiclusters, a saber: AC, AD, AE, como combinación del valor A con cada uno de los valores del segundo atributo, y por otro lado BC, BD y BE, que son las combinaciones entre el valor B y el resto de valores del segundo atributo. Obsérvese que todos los elementos pertenecientes a un determinado Multicluster presentan una coincidencia total de los valores de sus atributos. Al conjunto inicial resultante, la llamaremos, Matriz de Multicluster_Máximo, en adelante MM, el cual nos da el número máximo de clusters, aunque pueda ser grande, en todas las pruebas realizadas sobre diferentes Bases de Datos, muchos de ellos suelen estar vacíos, por lo que el número de MM no vacíos es mucho más reducido. Esta fase nos ofrece la ventaja de que la agrupación de estos máximos, la matriz MM, siempre será la misma independientemente del número de repeticiones sobre el mismo conjunto de datos, ya que está basada en el número de clusters que tiene cada atributo de cada observación, fijando los centroides iniciales para poder agrupar todos los elementos posteriormente, y evita cualquier incidencia de los atributos sobre el atributo protegido (Figura 4.1). 4 – Metodología del Algoritmo Propuesto ~ 113 ~ Figura 4.1: Fase 1 de Estabilidad Algoritmo propuesto 4 – Metodología del Algoritmo Propuesto ~ 114 ~ 4.3.2. Eficiencia (Fase 2) Con la Matriz MM obtenida en la Fase 1, formamos la Matriz de Coincidencias (r x r), representando “r” el número máximo de Multiclusters obtenidos. Para cada par de Multiclusters (fila y columna), calculamos el número de coincidencias entre sus atributos. Por ejemplo, el número de coincidencias entre AC y AD es uno (A), y el número de coincidencias entre AC y BD es cero, dicha información se mostrará y conformará la matriz de Coincidencias. En este procedimiento no se vuelve a considerar ninguna fila que ya haya sido considerada anteriormente, y por esta razón sólo necesitamos trabajar con el triángulo superior de la matriz. Es decir, no es necesario tener en cuenta el término de la fila "i" y la columna "j" cuando i > j, porque este término ya ha sido considerado antes, en la fila "j" y la columna "i". O, en otros términos, si ya hemos comparado el cluster "A" y el cluster "B", no es necesario seguir comparando el cluster "B" y el cluster "A". En Santos & Heras (2020) se muestra que este procedimiento suele conducir a conjuntos óptimos de clusters. Además, tomar en consideración todos 4 – Metodología del Algoritmo Propuesto ~ 115 ~ los elementos de la Matriz de Coincidencia podría conducir a bucles computacionales, y a un proceso sin término. Por lo tanto y teniendo en cuenta que la matriz de Coincidencias es simétrica y solo se trabaja con la matriz superior, de cada fila de la matriz de Coincidencias, seleccionamos la columna que contenga el número más grande de coincidencias con su fila correspondiente y se fusionan los datos del Multicluster Emisor (fila) con los datos del Multicluster Receptor (columna). Los elementos pertenecientes al nuevo Multicluster tienen un mayor número de elementos y comparten muchos atributos (pero no necesariamente todos). En el caso de que existan dos o más Multiclusters Receptores (columna) con el mismo número máximo de coincidencias, procedemos a realizar el desempate entre ellas mediante el coeficiente Kappa de Fleiss (Fleiss et al., 1969, 2003; Fleiss, 1971), medida ampliamente utilizada del grado de similitud entre objetos, seleccionando aquella combinación que tenga un menor coeficiente. 4 – Metodología del Algoritmo Propuesto ~ 116 ~ Con los Multiclusters Receptores finales obtenidos, se construye la Matriz de Multiclusters_Óptimos, en adelante MO, siendo este conjunto de grupos óptimos los que ofrecen una mayor precisión en el agrupamiento (Figura 4.2). Figura 4.2: Fase 2 de Eficiencia Algoritmo propuesto 4 – Metodología del Algoritmo Propuesto ~ 117 ~ 4.3.3. Equidad (Fase 3) Con la Matriz MO, obtenida en la Fase 2, se crea una matriz (t x t), donde “t” es el número máximo de Óptimos obtenido, clasificada en orden creciente según el número de elementos de cada grupo. Se toma el primer Multicluster Emisor (fila) y se fusionan sus elementos con cada uno de los Multiclusters Receptores (columna) de la matriz. Se calcula el ratio observado existente dentro de cada nuevo grupo fusionado, y se calcula la distancia euclídea entre dicho ratio observado y el ratio deseado, que es aquel que contiene la Base de Datos inicial sobre el atributo protegido fijado. Seleccionamos la distancia menor entre ambos ratios, obteniendo el Multicluster Receptor Óptimo, se fusionan definitivamente los elementos del Multicluster Emisor con los elementos del Multicluster Receptor Óptimo. Una vez agrupados los elementos del Emisor dentro del cluster del Receptor Óptimo, se elimina el Multicluster Emisor de la Matriz MO, es decir la primera fila de la matriz MO, y se recalcula nuevamente la matriz en orden ascendente del número de elementos que contiene cada los Óptimos de la matriz MO, obteniendo una matriz idéntica, pero con una fila menos. 4 – Metodología del Algoritmo Propuesto ~ 118 ~ Se ejecuta nuevamente el paso anterior con el primer Multicluster Emisor (fila) de la matriz MO, hasta alcanzar el número deseado de clusters “K”, los cuales contendrán a todos los elementos de la Base de Datos con un alto grado de homogeneidad y equidad en cada uno de ellos (Figura 4.3). Figura 4.3: Fase 3 de Equidad Algoritmo propuesto 4 – Metodología del Algoritmo Propuesto ~ 119 ~ 4.4. PROCESO DEL ALGORITMO PROPUESTO El siguiente ejemplo ilustra el proceso de ejecución de la metodología del algoritmo propuesto, utilizando para ello un conjunto de datos de Seguros de automóviles “Cars Insurance”, obtenido de Macquarie Australia University Data Repository (Department of Applied Finance and Actuarial Studies (http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finan ce_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets). Para una mejor exposición del funcionamiento del algoritmo propuesto, del total de pólizas que contiene la Base de Datos, se ha tomado una muestra aleatoria de 20 observaciones, que contengan en el campo Exposición (Exposure) de la póliza un valor igual o superior a 0.95, puesto que este campo toma valores entre 0 y 1, ambos inclusive. La Base de Datos tiene 6 atributos categóricos y 3 atributos numéricos (ver Tabla 4.1). El significado de las columnas es el siguiente: a. Observation: representa el número de observación o identificación única que tiene cada registro de la Base de Datos. b. Veh_Value: atributo numérico, es el valor del vehículo, representado en 10.000 $. http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets 4 – Metodología del Algoritmo Propuesto ~ 120 ~ c. Exposure: atributo numérico, representa el número de años que tiene la póliza, estando sus valores entre 0 y 1. d. Numclaims: atributo numérico discreto, representa el número de siniestros que ha tenido el vehículo, al tener pocos valores también se puede considerar como atributo categórico. e. Claimcst0: atributo numérico, representa el importe total de los siniestros por póliza, siendo 0 si no hay siniestros. f. Veh_body: atributo categórico, representa la división en 12 tipos de vehículo diferentes, siendo sus valores:  CONVT = descapotable  COUPE = vehículo con dos puertas  HBACK = portón trasero  HDTOP = techo duro  MCARA = caravana motorizada  MIBUS = minibús  PANVN = furgoneta  RDSTR = roadster  SEDAN = vehículo con maletero separado del habitáculo  STNWG = camioneta  TRUCK = camión  UTE – utilitario 4 – Metodología del Algoritmo Propuesto ~ 121 ~ g. Veh_age: atributo categórico, que representa la edad del vehículo, siendo sus valores: 1 (el más joven), 2, 3, 4. h. Gender: atributo categórico y protegido, que representa el género o sexo del conductor del vehículo, siendo sus valores: (M: Male/hombre) y (F: Female/Mujer). i. Área: atributo categórico, que representa la zona de residencia del conductor del vehículo, siendo sus valores: A, B, C, D, E, F. j. Agecat: atributo categórico, que representa la edad del conductor, siendo sus valores: 1 (el más joven), 2, 3, 4, 5. Tabla 4.1: Matriz de datos del conjunto inicial Observacion veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat 48112 1,000 0,9993 0 0,00 SEDAN 4 M C 2 12898 1,090 0,9993 0 0,00 TRUCK 4 F B 4 43094 0,390 0,9993 0 0,00 STNWG 4 F C 5 54857 1,660 0,9829 0 0,00 HBACK 2 M A 2 40398 2,560 0,9884 0 0,00 SEDAN 1 M D 5 9413 0,370 0,9993 0 0,00 HBACK 4 F A 4 51946 1,480 0,9856 1 480,00 HBACK 1 F D 3 6506 4,000 0,9993 1 390,00 STNWG 3 F F 4 41937 1,684 0,9993 0 0,00 HBACK 1 F A 2 51891 1,210 0,9802 0 0,00 HBACK 2 M E 5 27351 4,000 0,9993 0 0,00 STNWG 3 M F 3 45716 0,580 0,9993 0 0,00 SEDAN 4 M C 4 39410 2,760 0,9774 0 0,00 STNWG 1 F F 3 16236 1,560 0,9993 0 0,00 SEDAN 1 M C 5 48031 0,840 0,9610 0 0,00 SEDAN 3 F C 1 55110 1,600 0,9911 0 0,00 HBACK 2 F C 2 64230 0,460 0,9993 0 0,00 PANVN 4 M C 4 51551 1,300 0,9966 0 0,00 HBACK 2 F A 1 44909 0,420 0,9774 1 353,77 SEDAN 4 M A 4 59744 2,220 0,9555 0 0,00 STNWG 4 M B 3 4 – Metodología del Algoritmo Propuesto ~ 122 ~ 4.4.1. Proceso de la fase de Estabilidad Como primer paso del algoritmo, calculamos para cada atributo de la Base de Datos su clasificación cluster, dependiendo de si el atributo es categórico (nominal, de intervalo, ordinal o binario) o si el atributo es numérico (discreto o continuo) (Figura 4.4). Figura 4.4: Distribución gráfica de cada atributo 4 – Metodología del Algoritmo Propuesto ~ 123 ~ Se ha representado como diagrama de barras a los atributos que contiene la Base de Datos, figurando en el eje X de abcisas, los valores que contiene dicho atributo, y en el eje Y de ordenadas la frecuencia de dicho atributo. La división de los atributos categóricos se hace en base a los diferentes valores que contienen de forma natural. Por ejemplo, si el atributo género toma los valores “Hombre” (M) y “Mujer” (F) dentro de la Base de Datos, ese atributo se dividirá en 2 cluster, conteniendo cada uno de ellos aquellas observaciones de datos que contengan dicho valor y no otro, lo que nos asegura que cada cluster contiene únicamente los valores exactos de la característica del atributo y que ningún otro atributo influirá en su clasificación. Respecto a los atributos numéricos, tanto en su forma discreta como en su forma continua, el número de cluster en que se debe dividir dicho atributo numérico puede ser demasiado grande, dependiendo del número de valores distintos que contenga el atributo. Partiendo de la base que el número óptimo en el que dividir cualquier atributo numérico debe de cumplir la mejor eficiencia y mayor equidad en la agrupación, el número de clusters en el que se debe dividir dicho atributo debe 4 – Metodología del Algoritmo Propuesto ~ 124 ~ de estar entre el valor final en el que se quiere dividir el conjunto de datos y el número de valores distintos que contiene dicho atributo numérico (Ecuación 4.1): K < K(a) ≤ V(a) (4.1) Donde:  K: Número de clusters finales elegidos para clasificar la Base de Datos.  a: Atributo numérico dentro de la Base de Datos.  K(a): Número de clusters en que se quiere dividir el atributo numérico “a”.  V(a): Número de valores distintos que contiene el atributo "a". Una de las preguntas importantes en todas las técnicas de clasificación, es en cuantas clases se puede dividir un atributo, para que dicho atributo pueda recoger toda su distribución y además que su clasificación sea óptima. Sturges (1926) propuso una regla sencilla para clasificar elementos, aunque no ofrece buenos resultados para grandes conjuntos de datos, al no ofrecer suficientes clases que demuestren la distribución de los datos (Hyndman, 1995). Dogan & Dogan (2010) realizan un análisis sobre 23 aproximaciones distintas para conseguir un número de clases óptimo de un atributo, y afirman 4 – Metodología del Algoritmo Propuesto ~ 125 ~ que, el número de clases en el que se va a clasificar un atributo, no solo depende del número de elementos del conjunto de datos. Según los resultados que se obtienen utilizando la regla de Scott (1979) y la regla de Freedman & Diaconis (1981), el número de clases aumenta muy rápidamente a medida que aumenta el rango y la desviación estándar de los datos. Knuth (2006) utilizando la teoría de la probabilidad bayesiana, derivó un algoritmo que calculaba la probabilidad posterior del número de clases para un conjunto de datos. La regla de Ishikawa (1986) ofrece un nivel demasiado alto en la formación de clases de un atributo, incrementándose exponencialmente para Bases de datos superiores a 300 elementos, y, por otro lado, la regla de Larson (1982) obtiene un número muy reducido de clases (Westlake & Larson, 1970). Rudemo (1982) propuso una técnica de validación cruzada para seleccionar el número óptimo de clases con el que poder clasificar un atributo. Un mayor número de clases permite mostrar más detalles del atributo; sin embargo, si el número de clases es demasiado grande, la clasificación pierde su eficacia. Por otro lado, si el número de clases es demasiado pequeño, los datos 4 – Metodología del Algoritmo Propuesto ~ 126 ~ se agruparán tanto que se obtendrá muy poca información del atributo (Cargill et al., 1980; Plane & Oppermann, 1981). Existen muchos criterios y directrices para abordar el problema, puesto que el número de clases de un atributo aumenta a medida que aumenta el tamaño del conjunto de datos (Dogan & Dogan, 2010). Si consideramos el caso más desfavorable, donde ningún valor del atributo numérico se repite, entonces V(a) sería igual a N, siendo N el total de elementos del conjunto de datos, lo que significa que nuestro óptimo para dicho atributo estaría comprendido en el intervalo dado por la Ecuación (4.2): K < K(a) ≤ V(a) = N (4.2) Para el valor de K(a), nos hemos basado en la formulación propuesta por Rice (Dogan & Dogan, 2010; Lohaka, 2007), quedando finalmente nuestro intervalo dado por la Ecuación 4.3: K < K(a) = 2 ∗ √N3 ≤ V(a) = N (4.3) En la Tabla 4.2, observamos la distribución llevada a cabo sobre el atributo numérico “Exposure”, del ejemplo (Tabla 4.1), siguiendo la Ecuación 4.3. 4 – Metodología del Algoritmo Propuesto ~ 127 ~ Tabla 4.2: Distribución de cluster sobre el atributo “Exposure” En la Tabla 4.3, observamos la distribución de cluster natural que se ha realizado sobre el atributo categórico “Veh_body” del ejemplo (Tabla 4.1). Tabla 4.3: Distribución de cluster sobre el atributo “Veh_body” 4 – Metodología del Algoritmo Propuesto ~ 128 ~ La Tabla 4.4, muestra la distribución de cluster que se ha calculado para cada atributo en el conjunto de datos considerado y expuesto en la Tabla 4.1. Tabla 4.4: Distribución de cluster para cada atributo La Tabla 4.5, muestra el resumen de la distribución de cluster que se ha calculado para cada atributo en el conjunto de datos considerado, la división natural para los atributos categóricos y según la Ecuación 4.3 en los atributos numéricos. veh_value Frecuencia Nº Clúster exposure Frecuencia Nº Clúster numclaims Frecuencia Nº Clúster 4,000 2 1 0,991 1 1 1 3 1 2,220 1 0,997 1 2 0 17 2 2,560 1 0,956 1 3 2,760 1 0,983 1 1,210 1 0,986 1 1,300 1 0,988 1 1,480 1 0,961 1 0,580 1 0,977 2 0,840 1 0,980 1 1,000 1 0,999 10 6 1,090 1 0,370 1 0,390 1 0,420 1 0,460 1 1,560 1 1,600 1 1,660 1 1,684 1 claimcst0 Frecuencia Nº Clúster veh_body Frecuencia Nº Clúster veh_age Frecuencia Nº Clúster 480,00 1 1 PANVN 1 1 3 3 1 390,00 1 2 TRUCK 1 2 2 4 2 353,77 1 3 STNWG 5 3 1 5 3 0,00 17 4 SEDAN 6 4 4 8 4 HBACK 7 5 gender Frecuencia Nº Clúster area Frecuencia Nº Clúster agecat Frecuencia Nº Clúster F 10 1 E 1 1 1 2 1 M 10 2 B 2 2 2 4 2 D 2 3 3 4 3 F 3 4 5 4 4 A 5 5 4 6 5 C 7 6 6 4 5 2 3 4 5 4 – Metodología del Algoritmo Propuesto ~ 129 ~ Tabla 4.5: Resumen distribución de clusters de todos los atributos A la luz de los resultados obtenidos en la Tabla 4.5, si tomamos el valor de cluster en el que se divide cada atributo, tenemos el número máximo de combinaciones posibles con todos los resultados obtenidos para cada atributo, ver (Ecuación 4.4): ∏ K(a(i)) = 6 ∗ 6 ∗ 2 ∗ 4 ∗ 5 ∗ 4 ∗ 2 ∗ 6 ∗ 5 = 345.600 r i=1 (4.4) Donde: a(i): denota el atributo i-ésimo. r: es el número total de atributos incluidos en nuestro conjunto de datos. K(a): representan el número de grupos calculados para cada atributo. Atributo Nº de Clusters Veh_value 6 Exposure 6 Numclaims 2 Claimcst0 4 Veh_body 5 Veh_age 4 Gender 2 Area 6 Agecat 5 4 – Metodología del Algoritmo Propuesto ~ 130 ~ Sin embargo y aunque aparentemente el número de clusters (Ecuación 4.5), pueda parecer demasiado grande, las combinaciones sobre cualquier conjunto de Datos usado, casi siempre están vacías y no contienen ninguna observación del conjunto de datos. Como se puede observar en este ejemplo, el número de grupos reales obtenido ha sido de 20, lo que significa un 6 ∗ 10−5% aproximadamente, de Multiclusters distintos. En la tabla 4.6, cada multicluster contiene una sola observación. Para identificar los multiclusters, utilizamos los números asociados a los valores de los atributos en la Tabla 4.4. Obsérvese que las variables de la Tabla 4.1 tienen el etiquetado original dado en el conjunto de datos Cars Insurance: por ejemplo, los valores de los atributos de la primera observación (48112) están etiquetados como 1,000 (para el atributo "Veh_Value"), 0,9993 ("Exposure"), SEDAN ("Veh_body"), etc. Para simplificar la notación, en la Tabla 4.6 estas etiquetas se sustituyen por números: según la Tabla 4.4, 1,000 será "4", 0,9993 será "6", SEDAN será "4", etc. En la Tabla 4.6 etiquetamos los Multiclusters con los valores numéricos adjuntos a los valores de sus atributos en la Tabla 4.4. Siguiendo esta regla, el Multicluster que contiene la observación 48112, por ejemplo, se etiquetará como "462444262”. 4 – Metodología del Algoritmo Propuesto ~ 131 ~ Tabla 4.6: Composición de los 20 Multiclusters no vacíos 4.2.2. Proceso de la fase de Eficiencia En base a la información obtenida, con los Multiclusters obtenidos en la Tabla 4.6 (última columna), formamos una matriz cuadrada, a la que llamaremos Matriz de Coincidencias (Tabla 4.8). Estas coincidencias indican que, el número de cluster de un atributo cualquiera, es igual en cada par de Multiclusters, o lo que es lo mismo, que el valor que contiene un cierto atributo es igual en diferentes observaciones de nuestra Base de Datos, lo cual representa el porcentaje máximo de igualdad entre diferentes observaciones. Observacion veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat Multicluster 48112 4 6 2 4 4 4 2 6 2 462444262 12898 4 6 2 4 2 4 1 2 5 462424125 43094 5 6 2 4 3 4 1 6 4 562434164 54857 6 4 2 4 5 2 2 5 2 642452252 40398 2 4 2 4 4 3 2 3 4 242443234 9413 5 6 2 4 5 4 1 5 5 562454155 51946 3 4 1 1 5 3 1 3 3 341153133 6506 1 6 1 2 3 1 1 4 5 161231145 41937 6 6 2 4 5 3 1 5 2 662453152 51891 3 5 2 4 5 2 2 1 4 352452214 27351 1 6 2 4 3 1 2 4 3 162431243 45716 4 6 2 4 4 4 2 6 5 462444265 39410 2 5 2 4 3 3 1 4 3 252433143 16236 6 6 2 4 4 3 2 6 4 662443264 48031 4 5 2 4 4 1 1 6 1 452441161 55110 6 1 2 4 5 2 1 6 2 612452162 64230 5 6 2 4 1 4 2 6 5 562414265 51551 3 2 2 4 5 2 1 5 1 322452151 44909 5 5 1 3 4 4 2 5 5 551344255 59744 2 3 2 4 3 4 2 2 3 232434223 4 – Metodología del Algoritmo Propuesto ~ 132 ~ Si nos fijamos en la Tabla 4.7, tenemos los Multiclusters_Máximos formados por las filas 5 y 14 respectivamente, 242443234 y 662443264, cuyo valor de Multicluster lo forma el string del cluster de cada atributo unidos entre sí. Podemos observar por tanto en la Tabla 4.7, que la coincidencia entre estos dos Multiclusters es de 6 (casillas marcadas en verde), lo que significa que los valores de los atributos de ambas observaciones y por tanto de ambos Multiclusters, al tener el mismo valor cada uno de ellos, se han ubicado en los mismos clusters. Tabla 4.7: Coincidencia de los atributos entre dos Multicluster En base a lo descrito anteriormente acerca de cómo se forman las coincidencias, podemos formar la Matriz de Coincidencias entre cada par de Multiclusters (Tabla 4.8): Multicluster veh_value exposure numclaims claimcst0 veh_body veh_age gender area agecat 242443234 2 4 2 4 4 3 2 3 4 662443264 6 6 2 4 4 3 2 6 4 4 – Metodología del Algoritmo Propuesto ~ 133 ~ Tabla 4.8: Matriz de Coincidencias entre Multiclusters Según se puede observar en la matriz de la Tabla 4.8, el valor que figura en cada casilla entre cada par de Multiclusters, representa el número de atributos que coinciden en los mismos clusters, y por consiguiente el porcentaje de similitud a priori, entre cada par de Multiclusters. El proceso de fusión de los Multiclusters de la Matriz de Coincidencias en este paso del algoritmo está diseñado como un proceso "top-down" y siguiendo la formulación del algoritmo propuesto en Santos & Heras (2020), comenzando por la primera fila de la Matriz de Coincidencia. Multicluster Frecuencia 16 12 31 14 5 16 24 31 24 3 23 24 34 22 3 24 24 43 23 4 25 24 33 14 3 32 24 52 15 1 34 11 53 13 3 35 24 52 21 4 45 24 41 16 1 46 24 24 12 5 46 24 44 26 2 46 24 44 26 5 55 13 44 25 5 56 24 14 26 5 56 24 34 16 4 56 24 54 15 5 61 24 52 16 2 64 24 52 25 2 66 24 43 26 4 66 24 53 15 2 161231145 1 5 1 0 3 1 2 0 2 3 1 2 2 2 3 3 1 0 1 2 162431243 1 5 3 5 2 1 3 3 3 4 4 1 4 4 3 2 3 4 3 232434223 1 4 5 2 1 3 2 4 4 4 2 4 4 3 2 3 3 2 242443234 1 4 2 3 4 3 2 4 4 2 3 3 2 2 4 6 3 252433143 1 3 3 3 4 3 2 2 1 2 4 3 3 2 3 4 322452151 1 3 5 4 3 2 2 1 2 3 5 5 5 2 5 341153133 1 2 1 1 0 0 1 0 1 2 2 2 1 3 352452214 1 3 2 3 3 2 3 3 3 4 5 4 3 452441161 1 4 5 5 2 3 4 3 4 2 4 3 462424125 1 5 6 2 5 5 6 3 2 3 4 462444262 1 8 3 6 5 4 4 4 6 4 462444265 1 4 7 5 5 3 3 6 3 551344255 1 4 2 4 0 2 2 1 562414265 1 6 6 3 3 5 3 562434164 1 6 4 2 5 4 562454155 1 4 4 3 6 612452162 1 6 4 6 642452252 1 4 6 662443264 1 5 662453152 1 9 4 – Metodología del Algoritmo Propuesto ~ 134 ~ En este procedimiento no volvemos a considerar ninguna fila que ya haya sido considerada anteriormente, y por esta razón sólo necesitamos trabajar con el triángulo superior de la matriz. Es decir, no necesitamos tener en cuenta el término de la fila "i" y la columna "j" cuando i > j, porque este término ya ha sido considerado antes, en la fila "j" y la columna "i". O, en otros términos, si ya hemos comparado el cluster "A" y el cluster "B", no necesitamos seguir comparando el cluster "B" y el cluster "A". En Santos y Heras (2020) mostramos que este procedimiento suele conducir a conjuntos óptimos de clusters. Además, tomar en consideración todos los elementos de la Matriz de Coincidencia podría conducir a bucles computacionales, y el algoritmo no podría funcionar. Para fusionar cada Multicluster (fila), llamado Emisor, con otro Multicluster (columna), llamado Receptor, de la Tabla 4.8, comprobamos el mayor número de coincidencias existentes de cada Emisor con todos sus posibles Receptores, lo que significa la igualdad del mayor número de características de los atributos de la Base de Datos, o lo que es lo mismo el mayor porcentaje de similitud entre ambos Multiclusters. Para reducir el número de clusters, fusionamos aquellos Multiclusters que comparten el mayor número de valores de atributos, y en este punto podemos 4 – Metodología del Algoritmo Propuesto ~ 135 ~ encontrarnos con dos posibilidades, que solo exista un valor máximo único en la fila o que el mismo valor máximo de fila lo contengan más de un Multicluster. En caso de que haya un solo valor máximo, procedemos a unir el Multicluster-Emisor (fila) con el Multicluster-Receptor (columna), cuya intersección ha producido esa coincidencia máxima. Esta es la situación que se muestra en la Tabla 4.9, construida a partir de la segunda fila de la Matriz de Coincidencias (Tabla 4.8): en este caso, los Multiclusters 462444262 y 462444265 deben fusionarse, porque comparten los mismos valores en 8 de los 9 atributos que contiene la Base de Datos. Si observamos la fila 11 de la Tabla 4.8, se puede ver que solo existe una coincidencia máxima entre Multicluster_Emisor (fila) y Multicluster_Receptor (columna) (Tabla 4.9). Tabla 4.9: Fusión de Multiclusters, con una sola coincidencia Multicluster Frecuencia 16 12 31 14 5 16 24 31 24 3 23 24 34 22 3 24 24 43 23 4 25 24 33 14 3 32 24 52 15 1 34 11 53 13 3 35 24 52 21 4 45 24 41 16 1 46 24 24 12 5 46 24 44 26 2 46 24 44 26 5 55 13 44 25 5 56 24 14 26 5 56 24 34 16 4 56 24 54 15 5 61 24 52 16 2 64 24 52 25 2 66 24 43 26 4 66 24 53 15 2 462444262 1 8 3 6 5 4 4 4 6 4 4 – Metodología del Algoritmo Propuesto ~ 136 ~ En el caso de que exista más de un valor igual de coincidencia entre el Multicluster-Emisor (fila) y el Multicluster-Receptor (columna), como se muestra en la Tabla 4.10, construida a partir de la fila 6 de la Matriz de Coincidencias (Tabla 4.8), donde se puede observar hasta cinco coincidencias iguales entre el Multicluster emisor y sus posibles Multiclusters receptores. Tabla 4.10: Fusión de Multiclusters, con varias coincidencias Calcularemos el Coeficiente Kappa de Fleiss (Fleiss et al., 1969, 2003; Fleiss, 1971), para romper el empate producido entre varios Receptores con el Emisor, eligiendo aquel Multicluster_Receptor que tenga el mayor coeficiente Kappa-Fleiss con el Emisor, lo que nos indicará la mayor afinidad entre ambos y por consiguiente producirá la mejor eficiencia en su agrupamiento (Tabla 4.11). Tabla 4.11: Mejor Kappa-Fleiss entre Multiclusters Multicluster Frecuencia 16 12 31 14 5 16 24 31 24 3 23 24 34 22 3 24 24 43 23 4 25 24 33 14 3 32 24 52 15 1 34 11 53 13 3 35 24 52 21 4 45 24 41 16 1 46 24 24 12 5 46 24 44 26 2 46 24 44 26 5 55 13 44 25 5 56 24 14 26 5 56 24 34 16 4 56 24 54 15 5 61 24 52 16 2 64 24 52 25 2 66 24 43 26 4 66 24 53 15 2 322452151 1 3 5 4 3 2 2 1 2 3 5 5 5 2 5 Multicluster Optimo Valor Kappa-Fleiss 352452214 0,9137931 562454155 0,9143357 612452162 0,9066901 322452151 642452252 0,9066901 662453152 0,8908451 Multicluster Máximo 4 – Metodología del Algoritmo Propuesto ~ 137 ~ Si hubiese varios Multiclusters o agrupaciones conteniendo el mismo valor máximo de concordancia Kappa de Fleiss, se sigue la clasificación de los Multiclusters. En el ejemplo, si la fusión del Multicluster A con el Multicluster B y la fusión del Multicluster A con el Multicluster C tienen el mismo valor Kappa de Fleiss y el Multicluster B está clasificado antes que el Multicluster C, entonces la vinculación final será AB. Por supuesto, un orden diferente puede conducir a resultados distintos, afectando a la estabilidad del proceso. Por esta razón, hemos seleccionado un orden inicial razonable, en el que los valores de los atributos se clasifican en orden creciente según su tamaño. Por ejemplo, si la frecuencia del valor "a" es menor que la de "b", entonces "a" precede a "b", y esto puede representarse tomando los valores a = 1 y b = 2. Hemos seguido esta regla para la clasificación de los valores de los atributos que se muestran en la Tabla 4.4. Una vez realizado el proceso anterior para todos los Multiclusters (fila) de la Tabla 4.8, obtenemos la matriz de los mejores Multiclusters_Receptores y por consiguiente el óptimo Multicluster receptor para cada Multicluster emisor (fila) de la Matriz de Coincidencias (Tabla 4.8). Las observaciones que corresponden a cada Multicluster_Emisor se ha fusionado con su óptimo Multicluster_Receptor, obteniéndose finalmente la 4 – Metodología del Algoritmo Propuesto ~ 138 ~ llamada Matriz de Multiclusters_Óptimos con 11 Multiclusters no vacíos (ver Tabla 4.12), finalizando en este punto la fase 2 de la metodología propuesta. Obsérvese en la Tabla 4.12, que aquellos Multiclusters que tienen la misma frecuencia, se ordenan de forma lexicográfica. Tabla 4.12: Matriz de Multiclusters Óptimos Si no tuviésemos ningún atributo sensible o protegido en la Base de Datos, se podría construir una nueva Matriz de Coincidencias a partir de la Matriz de Multiclusters_Óptimos y ejecutar esta misma Fase 2 repetidamente hasta alcanzar el número de clusters final deseado, obteniendo los mejores clusters para la clasificación final de nuestra Base de Datos (Santos & Heras, 2020). Multicluster Optimo Frecuencia 162431243 1 562434164 1 662443264 1 252433143 2 562414265 2 642452252 2 462444265 3 562454155 3 662453152 5 4 – Metodología del Algoritmo Propuesto ~ 139 ~ 4.4.3. Proceso de la fase de Equidad En el último paso del algoritmo, nos centramos en el objetivo de equidad. Calculamos la proporción inicial que tiene el conjunto de datos respecto del atributo “Gender (Género)”, 50% (para mujeres) y 50% (para hombres) (ver Tabla 4.4), evitando de esta manera tener que asignar otra distribución manual, y por consiguiente evitando sesgos manuales o subjetivos respecto del atributo protegido (Tabla 4.13). Tabla 4.13: Ratio Deseado del atributo protegido. Formamos una Matriz cuadrada de los Multiclusters_Óptimos obtenidos en el paso anterior (Tabla 4.12), para calcular el ratio observado que se produce al fusionar dentro de cada Multicluster Óptimo Receptor (columna) las observaciones del Multicluster Óptimo Emisor (fila), de la misma forma que se hizo en la fase de eficiencia con los Multiclusters Máximos obtenidos y conformaban la Matriz de Coincidencias. Female 50% Male 50% Desired Distribution "GENDER" (in Dataset) % 4 – Metodología del Algoritmo Propuesto ~ 140 ~ El primer paso es calcular los ratios observados correspondiente a la primera fila, al fusionarse con cada uno de los otros Multiclusters óptimos que hacen de receptores en este caso, a continuación, calculamos la distancia euclídea entre las proporciones observadas del atributo protegido y las proporciones deseadas calculadas anteriormente, eligiendo la distancia menor, pues nos indicará la mejor equidad en la fusión de los elementos u observaciones de la Base de Datos y correspondiente a dichos Multiclusters óptimos (Tabla 4.14). Tabla 4.14: Distancias entre ratio deseado y observado En este punto, nos podemos encontrar con dos posibilidades, por un lado que exista un unico ratio mínimo, como el observado en la Tabla 4.14, o bien, que exista mas de un ratio mínimo identico entre los Multiclusters receptores. M U LT IC LU ST ER O PT IM O N U M ER O O BS ER VA CI O N ES 16 24 31 24 3 56 24 34 16 4 66 24 43 26 4 25 24 33 14 3 56 24 14 26 5 64 24 52 25 2 46 24 44 26 5 56 24 54 15 5 66 24 53 15 2 162431243 1 0,70711 0,00000 0,23570 0,23570 0,23570 0,35355 0,35355 0,23570 562434164 1 662443264 1 252433143 2 562414265 2 642452252 2 462444265 3 562454155 3 662453152 5 M U LT IC LU ST ER _E M IS O R 4 – Metodología del Algoritmo Propuesto ~ 141 ~ En nuestro ejemplo, dado que la distancia mínima en la primera fila de la matriz de Óptimos se alcanza uniendo el Multicluster_Emisor “162431243” y el Multicluster_Receptor “662443264”, los Multicluster uno (primera fila) y tercero (tercera fila), todas las observaciones contenidas en la Base de Datos de los dos Multiclusters, se unirán formando un nuevo Multicluster más eficiente y con una proporción más justa del atributo protegido “Género”. En el caso que existan varios Multiclusters con los mismos ratios mínimos observados, la selección entre los diferentes Multiclusters seguirán la clasificación de las agrupaciones, es decir, se procederá de igual manera que la descrita en el punto 4.4.2 (pagina 137) del presente Capitulo, para la agrupación de los Multiclusters con idéntico valor Kappa de Fleiss en la Matriz de Coincidencias. Una vez realizada la fusión del primer Multicluster óptimo de la matriz (Tabla 4.12), se vuelve a calcular y ordenar la nueva matriz de óptimos, clasificando dicha matriz en orden ascendente del número de observaciones que tiene cada Multicluster Óptimo Emisor, y por orden lexicográfico del número de Multicluster para valores de frecuencia iguales. 4 – Metodología del Algoritmo Propuesto ~ 142 ~ Este procedimiento se realiza con el resto de Multiclusters Óptimos (filas) de la Tabla 4.14, hasta alcanzar los "K" clusters finales elegidos, en nuestro caso se ha elegido K = 2 (ver Tabla 4.15). Tabla 4.15: Distribución final de los “k” clusters elegidos 4.5. RESULTADOS DEL PROCESO Vamos a analizar finalmente el resultado del algoritmo propuesto y por consiguiente de la Metodología propuesta, sobre la Base de Datos utilizada en este Capítulo, respecto a la hipótesis de partida, en cuanto a Estabilidad, Eficiencia y Equidad. Respecto a la Estabilidad, y comparada con otros dos algoritmos populares, que han sido descritos ampliamente en esta Tesis Doctoral, se puede observar que nuestro algoritmo propuesto mantiene el 100% de Estabilidad, manteniendo la misma agrupación de los elementos en los clusters finales, con MULTICLUSTER OPTIMO CLUSTER NUMERO OBSERVACIONES 462444265 1 10 662453152 2 10 4 – Metodología del Algoritmo Propuesto ~ 143 ~ los mismos elementos en la Base de Datos inicial, sobre 10 ejecuciones llevadas a cabo. (Figura 4.5). Figura 4.5: Comparativa de Estabilidad Respecto a la Eficiencia, o precisión en el agrupamiento de los elementos del conjunto de datos en los clusters finales, en el Capitulo V, punto 5.3, de la presente Tesis Doctoral se muestra información detallada respecto a las distintas métricas llevadas a cabo para comprobar la eficiencia entre el cluster formado por cada algoritmo y la distribución final esperada. No obstante lo anterior, podemos observar en este punto, tomando el Índice de Fowlkes-Mallows (FMI) (Fowlkes & Mallows, 1983), dado por la 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 Proposed Algorithm KAMILA TCLUST 4 – Metodología del Algoritmo Propuesto ~ 144 ~ ecuación FMI=� TP TP+FP ∙ TP TP+FN , y en donde los valores altos del índice indican una gran similitud entre dos clusters P y R de un conjunto de datos dado, siendo P la agrupación propuesta por el algoritmo de agrupamiento objeto de la presente Tesis Doctoral y R la agrupación real observada en el conjunto de datos, en donde:  TP: Se define como el número de pares de puntos que están en la agrupación P y en la R.  FP: Se define como el número de pares de puntos que están en la agrupación P, pero no en la R.  FN: Se define como el número de pares de puntos que están en la agrupación R, pero no en la P.  TN: Se define como el número de pares de puntos que están en diferentes agrupaciones en P y en R. Se observa en la Tabla 4.16, como el mayor indice de agrupamiento o eficiencia se consigue con el algoritmo propuesto, respecto de otros algoritmos populares. Tabla 4.16: Distribución Final de la Efiiencia FMI PROPOSED ALGORITHM 0,5811 KAMILA 0,5779 TCLUST 0,5400 4 – Metodología del Algoritmo Propuesto ~ 145 ~ Respecto a la Equidad, se puede observar en la Tabla 4.17 la distribución final conseguida del atributo protegido dentro de cada cluster, alcanzando el 100% en ratio de equidad, y superando a los algoritmos de la comparativa. Tabla 4.17: Distribución Final del Ratio Observado por cluster 1 2 Female 50% 50% Female 50% Male 50% 50% Male 50% KAMILA 78,57% Total achieved per Cluster 100% 100% TCLUST 61,43% Overall total achieved PROPOSED ALGORITHM 100,00%100% Observed Distribution "GENDER" (Proposed Algorithm) Final Clusters Desired Distribution "GENDER" (in Dataset) % 4 – Metodología del Algoritmo Propuesto ~ 146 ~ 5 - Resultados ~ 147 ~ 5 RESULTADOS 5 – RESULTADOS 5 - Resultados ~ 148 ~ 5 - Resultados ~ 149 ~ 5.1. INTRODUCCIÓN Para la evaluación de la eficiencia de clustering del algoritmo y su comparación con otros algoritmos, trabajamos con bases de datos categóricas y mixtas, donde la variable respuesta es conocida pero no utilizada en el análisis. Las Bases de Datos usadas e incluidas en la Tabla 5.1 y especificadas brevemente en el apartado 5.2.1 del presente Capítulo, son conjuntos de datos supervisados, al contener variables de entrada o atributos del propio conjunto de datos y una variable de salida o variable respuesta, la cual nos indica el objetivo de agrupación deseado para cada elemento del conjunto de datos. Por ejemplo, el conjunto de datos Bank Marketing incluido en la Tabla 5.1, contiene una variable respuesta de salida para cada elemento o cliente, indicando si el cliente ha suscrito un deposito a plazo o no, lo cual identifica dicha respuesta el cluster deseado en donde se deberia de agrupar dicho elemento. La variable respuesta en definitiva, se puede identificar con los clusters o grupos reales a los que pertenecen los elementos incluidos en cada Base de Datos. 5 - Resultados ~ 150 ~ Con cada conjunto de datos, realizamos un análisis en dos pasos:  En el primer paso realizamos el análisis de clustering de los datos, donde se ha omitido la variable respuesta (los clusters reales).  En el segundo paso usamos esa información omitida para comprobar la eficiencia y precisión del algoritmo (comparando los clusters reales con los dados por el algoritmo). En realidad, este es un procedimiento comúnmente utilizado en la literatura de agrupamiento: véase, entre otros, Yu et al. (2018), y Zhu & Ma (2018). En cuanto a la evaluación de la Equidad de la clasificación, medimos la distancia entre la distribución deseada del atributo protegido y su distribución final en los clusters dados por el algoritmo. Se ha tomado como distribución deseada del atributo protegido, aquella que se encuentra fijada por las proporciones iniciales de los valores del atributo protegido en el conjunto de datos, de forma que no se pueda fijar manualmente otra proporción, ya que eso nos llevaría nuevamente a introducir un sesgo manual sobre el atributo protegido. 5 - Resultados ~ 151 ~ En otros términos, las proporciones de los valores del atributo protegido en los clusters finales (la salida del algoritmo) deben estar próximas a las proporciones observadas iniciales en todo el conjunto de datos. 5.2. BASES DE DATOS Para evaluar el desempeño del algoritmo propuesto y su metodología, se realizará el análisis en 16 Bases de Datos, las cuales contienen atributos categóricos y/o numéricos, nueve de ellas son de tipo mixto y las siete restantes son de tipo categórico (Tabla 5.1). Para comprobar la Estabilidad, Eficiencia y Equidad por la metodología propuesta mediante el algoritmo FairMclus, se ha realizado la comparación con algoritmos de clustering populares y conocidos, para datos de tipo mixto: K- Prototypes (Huang, 1997b; 1998), Kamila (Foss et al., 2016) y Tclust (Fritz et al., 2012) en cuanto a datos de tipo categórico: K-Modes (Huang, 1997a), Daisy y Pam (Kaufman & Rousseeuw, 1990) y Tclust (Fritz et al., 2012). La interpretación de las columnas de la Tabla 5.1 es la siguiente:  Tipo de Datos: Tipo de datos que contiene el conjunto de datos (mixto o categórico).  Nombre Base de datos: Nombre del conjunto de datos utilizado. 5 - Resultados ~ 152 ~  N.º Elementos: Número de elementos u observaciones (filas) que contiene el conjunto de datos.  N.º total Atributos: Número total de variables o atributos que contiene el conjunto de datos.  N.º Atributos Categóricos: Número de atributos categóricos en el conjunto de datos (binario, nominal, ordinal, razón o intervalo).  N.º Atributos Numéricos: Número de atributos numéricos en el conjunto de datos (continuo, discreto).  Tipo Atributo Protegido: Tipo de atributo protegido dentro del conjunto de datos para el análisis de equidad.  N.º de valores diferentes del Atributo Protegido: Número de características o valores diferentes que contiene el atributo protegido.  N.º de clusters finales “k”: Número deseado (k) de clusters finales para dividir el conjunto de datos. 5 - Resultados ~ 153 ~ Tabla 5.1: Bases de Datos utilizadas en el análisis Ti po de D at os No mb re Ba se de D at os Nº El em en to s Nº to ta l At rib ut os Nº At rib ut os Ca te gó ric os Nº At rib ut os Nu mé ric os Ti po At rib ut o Pr ot eg id o Nº va lo re s d ife re nt es At rib ut o P ro te gi do Nº clú st er s fin ale s "k " (1 ) Ab se nte eis m 83 36 9 6 3 Ge ne ro 2 6 (2 ) Ai rlin e 50 00 12 11 1 Ge ne ro 2 2 (3 ) Au str ali an C re dit 69 0 14 8 6 Ge ne ro 2 2 (4 ) Ba nk M ar ke tin g 43 34 16 9 7 Ed uc ac ión 3 2 (5 ) Cu sto me r S eg me nta tio n 66 65 9 6 3 Ge ne ro 2 4 (6 ) Ge rm an C re dit F C1 10 00 20 17 3 Es tad o C ivi l 5 2 (7 ) He ar t D ise as e 29 7 13 8 5 Ge ne ro 2 5 (8 ) Au tis m 60 9 18 18 0 Ge ne ro 2 2 (9 ) Br ea st ca nc er 26 5 8 8 0 Ed ad 6 2 (1 0) Ca rs In su ra nc e 36 37 5 5 0 Ge ne ro 2 2 (1 1) Ce ns us In co me 20 00 8 8 0 Ra za 5 2 (1 2) Ge rm an C re dit F C2 10 00 16 16 0 Ge ne ro 2 2 (1 3) Ge rm an C re dit F C3 10 00 16 16 0 Es tad o C ivi l 3 2 (1 4) HR IB M 14 70 23 23 0 Ed uc ac ión 5 3 (1 5) Hu ma n R es ou rc es 29 2 19 19 0 Ge ne ro 2 4 (1 6) Nu rs er y 12 63 2 8 8 0 Si tua cio n E co nó mi ca 2 4 Mi xto Ca teg ór ico 5 - Resultados ~ 154 ~ 5.2.1. Bases de Datos de tipo Mixto (1) El conjunto de datos "Absenteeism" se puede encontrar en el Repositorio de KAGGLE (https://www.kaggle.com/). Contiene 8336 elementos y 9 atributos, de los cuales 6 son atributos categóricos y 3 son atributos numéricos, los datos son ficticios y la base de datos ha sido construida para investigadores de RRHH, debido a que el absentismo es un gasto importante para las organizaciones. Estos datos finalmente se clasifican en 6 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponden con las diferentes unidades de negocio dentro de la empresa. Su atributo protegido “Género” contiene dos características o valores diferentes. (2) El conjunto de datos "Airline" se puede encontrar en el Repositorio de KAGGLE (https://www.kaggle.com/). Contiene 5000 elementos y 12 atributos, de los cuales 11 son atributos categóricos y 1 es atributo numérico, relativo a una encuesta de satisfacción de los pasajeros de una aerolínea. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta https://www.kaggle.com/ https://www.kaggle.com/ 5 - Resultados ~ 155 ~ del conjunto de datos y que se corresponde con el nivel de satisfacción con la linea aerea. Su atributo protegido “Género” contiene 2 valores o características diferentes. (3) El conjunto de datos “Australian credit” se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 690 elementos 14 atributos, de los cuales 8 son atributos categóricos y 6 son numéricos, relativos a solicitudes de tarjetas de crédito de clientes, en donde los nombres y valores se han cambiado para proteger la confidencialidad de los datos. Estos datos finalmente se clasifican en 2 grupos diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con la respuesta positiva o negariva a la solicitud. Su atributo protegido “Género” contiene 2 características diferentes. (4) El conjunto de datos “Bank Marketing” se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). https://archive.ics.uci.edu/ml/datasets.php https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 156 ~ Contiene 4334 elementos y 16 atributos, de los cuales 9 son atributos categóricos y 7 son numéricos, recopilados a través de campañas de marketing directo (llamadas telefónicas) de un instituto bancario portugués. Estos datos finalmente se clasifican en 2 grupos diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde a si el cliente ha suscrito o no un depósito a plazo con la entidad bancaria. Su atributo protegido “Educación” contiene 3 características diferentes. (5) El conjunto de datos “Customer Segmentation” puede encontrar en el Repositorio de KAGGLE (https://www.kaggle.com/). Contiene 6665 elementos y 9 atributos, de los cuales 6 son atributos numéricos y 3 son atributos categóricos, basado en estudio de mercado de una empresa de automóviles para introducir sus productos en un nuevo mercado similar al que tienen actualmente. Estos datos finalmente se clasifican en 4 grupos diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con la clasificación realizada a los clientes por segmento de mercado. Su atributo protegido “Género” contiene 2 características diferentes. https://www.kaggle.com/) 5 - Resultados ~ 157 ~ (6) El conjunto de datos "German Credit FC1" se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 1000 elementos y 20 atributos, de los cuales 17 son atributos categóricos 3 son numéricos, relativos a las calificaciones crediticias de los clientes. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde en función de si es o no un trabajador extranjero. Su atributo protegido “Estado Civil” tiene 5 valores diferentes. (7) El conjunto de datos "Heart Disease" se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 297 elementos y 13 atributos, de los cuales 8 son atributos categóricos y 5 son atributos numéricos, relativos a experimentos llevados a cabo sobre los datos recogidos en V.A. Medical Center, Long Beach and Cleveland Clinic Foundation, sobre la presencia o ausencia de una enfermedad cardiaca en los pacientes. Estos datos finalmente se clasifican en 5 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con la https://archive.ics.uci.edu/ml/datasets.php https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 158 ~ presencia o ausencia de la enfermedad en una escala de 0 a 4, siendo 0 ausencia de enfermedad. Su atributo protegido “Género” tiene 2 valores diferentes. 5.2.2. Bases de Datos de tipo Categórico (8) El conjunto de datos "Autism" se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 609 elementos y dieciocho atributos categóricos, relativos al cribado del trastorno del espectro autista en adultos. Estos datos finalmente se clasifican en 2 cluster diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde a si el paciente puede tener o no rasgos del trastorno del espectro autista. Su atributo protegido “Género” contiene 2 características o valores diferentes. (9) El conjunto de datos "Breast Cancer" se pueden encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 265 elementos y 8 atributos categóricos, tomados del Centro Médico Universitario, Instituto de Oncología, Ljubljana, Eslovenia. https://archive.ics.uci.edu/ml/datasets.php https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 159 ~ Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con si el paciente pertenece o no a caso control. Su atributo protegido “Edad” tiene 6 valores diferentes. (10) El conjunto de datos “Cars Insurance” se puede encontrar en el Repositorio de Datos de la Universidad Macquarie de Australia (Departamento de Finanzas Aplicadas y Estudios Actuariales) http://www.businessandeconomics.mq.edu.au/our_departments/Applied_ Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/ data_sets). Contiene 3.637 pólizas de seguros de vehículos y 5 atributos categóricos. Los datos se basan en pólizas de seguro de vehículos de un año de duración y con un campo de exposición al menos igual a 0,95. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde en si el cliente ha tenido o no un siniestro. Su atributo protegido “Género” contiene 2 valores diferentes. http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets 5 - Resultados ~ 160 ~ (11) El conjunto de datos "Census Income" se puede encontrar en el Repositorio de MLD-API Spreadsheets (https://www.apispreadsheets.com/datasets). Contiene 2000 elementos, que han sido tomados como una muestra aleatoria del conjunto total, con 8 atributos categóricos, relativos a datos censales. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde a si los ingresos exceden o no los 50.000$ al año. Su atributo protegido “Raza” contiene 5 características diferentes. (12) El conjunto de datos "German Credit FC2” se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 1000 elementos y 16 atributos categóricos, relativos a las calificaciones crediticias de los clientes. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde en función de si es o no un trabajador extranjero. Su atributo protegido “Género” tiene 2 valores diferentes. https://www.apispreadsheets.com/datasets https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 161 ~ (13) El conjunto de datos "German Credit FC3” se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php ) (Dua & Graff, 2019). Contiene 1000 elementos y 16 atributos categóricos, relativos a las calificaciones crediticias de los clientes. Estos datos finalmente se clasifican en 2 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde en función de si es o no un trabajador extranjero. Su atributo protegido “Estado Civil” tiene 3 valores diferentes. (14) El conjunto de datos "HR IBM" se puede encontrar en el Repositorio de KAGGLE (https://www.kaggle.com/). Contiene 1470 observaciones y 23 atributos categóricos, relativos a un conjunto de datos ficticio creado por científicos de datos de IBM, respecto a los factores que conducen al abandono de los empleados. Estos datos finalmente se clasifican en 3 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con los diferentes departamentos dentro de la empresa. Su atributo protegido “Educación” contiene 5 valores o características diferentes. https://archive.ics.uci.edu/ml/datasets.php https://www.kaggle.com/ 5 - Resultados ~ 162 ~ (15) El conjunto de datos "Human Resources" se puede encontrar en el Repositorio de KAGGLE (https://www.kaggle.com/). Contiene 292 observaciones con 19 atributos categóricos, los datos relacionados con los RRHH y utilizados en el curso de postgrado HR Metrics and Analytics, en el New England College of Business. Estos datos finalmente se clasifican en 4 clusters diferentes, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con la puntuación del rendimiento mas reciente del empleado. Su atributo protegido “Género” tiene 2 valores o características diferentes. (16) El conjunto de datos “Nursery” se puede encontrar en el Repositorio de UCI-Machine Learning (https://archive.ics.uci.edu/ml/datasets.php) (Dua & Graff, 2019). Contiene 12632 observaciones y 8 atributos categóricos, los datos se refieren a guarderías que se derivó de un modelo de decisión jerárquico desarrollado originalmente para clasificar las solicitudes de guarderías, en donde las solicitudes rechazadas necesitaban con frecuencia una explicación objetiva. Estos datos finalmente se clasifican en 4 clusters, correspondiente a la variable respuesta del conjunto de datos y que se corresponde con las diferentes clases recomendadas. Su atributo https://www.kaggle.com/) https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 163 ~ protegido “Situación Económica” contiene 2 características o valores diferentes. 5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS En la literatura se han propuesto muchas medidas del grado de similitud entre diferentes particiones del mismo conjunto de datos: ver, entre otros, Dom (2002), Headden et al. (2008), Meilâ (2007), Reichart & Rappoport (2009), Rosenberg & Hirschberg (2007), Vinh et al. (2010), Wagner & Wagner (2007), Walker & Ringger (2008). Hemos seleccionado cuatro medidas bien conocidas de la similitud entre dos particiones P y R de un conjunto de datos dado, siendo P la agrupación propuesta por el algoritmo de agrupamiento FairMclus y R la agrupación real observada en el conjunto de datos. I. Índice de Fowlkes-Mallows (FMI) (Fowlkes & Mallows, 1983), en donde los valores altos del índice indican una gran similitud entre los clusters (Ecuación 5.1). FMI=� TP TP+FP ∙ TP TP+FN (5.1) 5 - Resultados ~ 164 ~ Dónde:  TP: Se define como el número de pares de puntos que están en la agrupación P y en la R.  FP: Se define como el número de pares de puntos que están en la agrupación P, pero no en la R.  FN: Se define como el número de pares de puntos que están en la agrupación R, pero no en la P.  TN: Se define como el número de pares de puntos que están en diferentes agrupaciones en P y en R II. Índice Máximum-Match Measure (MMM) (Meilâ & Heckerman, 2001), Meila y Heckerman utilizan otra medida asimétrica, que aplican para comparar algoritmos de clustering, no comparan los resultados de los diferentes métodos de clustering entre sí, sino que nos sirve para comparar cada resultado de clustering con una solución óptima de clustering, que viene dada por la variable respuesta que ya tiene el propio conjunto de datos, y en donde P es la agrupación que proporciona el algoritmo y R es la agrupación óptima (Ecuación 5.2.) MMM(P, R) = 1 n ∑ maxjk i=1 mij (5.2) 5 - Resultados ~ 165 ~ Donde:  𝑚𝑚𝑖𝑖𝑖𝑖: número de observaciones o elementos que están en ambos clusters  n: número total de observaciones en 𝑃𝑃𝑖𝑖𝑅𝑅𝑖𝑖 III. Índice Normalized Variation of Information Measure (NVI) (Reichart & Rappoport, 2009), es una versión normalizada de la Variación de la medida de información (VI) de Meila (2007), y en donde NVI es independiente del total de la muestra y sus valores para las agrupaciones consideradas buenas por VI se encuentran en [0, 1]. Por lo tanto, NVI puede utilizarse para comparar el rendimiento de la agrupación entre conjuntos de datos y ademas mantiene la propiedad aditiva convexa de VI pero no sus axiomas metricos. (Ecuación 5.3): NVI= � H(P|R)+ H(R|P) H(P) H(P) ≠ 0 H(R) H(P) = 0 (5.3) Donde;  H(P) y H(R) son las entropías de las particiones P y R.  H(P| R) y H(R| P) son sus entropías condicionales. 5 - Resultados ~ 166 ~ IV. Índice de superposición (OI) (Vijaymeena & Kavitha, 2016), también conocido como coeficiente de Szymkiewicz-Simpson, es una medida de similitud basada en el concepto de superposición entre dos conjuntos. Dados dos conjuntos finitos X e Y, la superposición entre ellos se define como el tamaño de la intersección dividido por el tamaño más pequeño de los dos conjuntos (Ecuación 5.4) OI = X∩Y min (|X|,|Y|) (5.4) V. Índice de Equidad (Santos & Heras, 2021), La evaluación de la Equidad está basada en calcular la media de las distancias euclideas entre los valores observados y deseados que tiene el atributo protegido, en función del numero de clusters finales construidos (Ecuación 5.5). Fairness ratio = ∑ (1− euclidean distance(Observedi ; Desired)i=k i=1 number of clusters (k) (5.5) Donde:  Euclidean distance: Realiza el cálculo de la distancia euclídea entre dos puntos, a saber: Ratio_Observado y Ratio_Deseado, 5 - Resultados ~ 167 ~ pertenecientes a un espacio n_dimensional (ℝ𝑛𝑛), dependiendo del número de características que tenga el atributo protegido en cada caso, si por ejemplo el atributo protegido fuera la raza y este atributo tuviera 4 características distintas e identificables, los puntos estarían en un espacio de dimensión 4 (ℝ4). o Ratio_Deseado: El punto definido por la distribución que contiene el conjunto de datos respecto al atributo protegido, o Ratio_Observado: El punto definido por la distribución obtenida en los clusters finales respecto al atributo protegido.  k: Es el número final de clusters en el que se va a dividir el conjunto de datos inicial. 5.4. RESULTADOS 5.4.1. Respecto de la Estabilidad Independientemente del número de veces que se tenga que ejecutar un algoritmo de clustering sobre el mismo conjunto de datos, la Estabilidad es la primera característica que debe de cumplir, pues debe de garantizar que los elementos se clasifiquen siempre sobre los mismos clusters y no cambien de cluster por el hecho de ejecutarse varias veces. 5 - Resultados ~ 168 ~ Para probar esta característica, se ha ejecutado, el algoritmo FairMclus presentado en esta Tesis Doctoral, y diferentes algoritmos en función del tipo de datos a tratar, mixto o categórico, diez veces cada uno de ellos sobre el mismo conjunto de datos. En todas las ejecuciones llevadas a cabo sobre cada conjunto de datos, el algoritmo FairMclus siempre es estable en el resultado final, obteniendo el mismo conjunto de elementos en cada cluster especificado, mientras que los otros algoritmos tienen resultados dispersos y heterogéneos, tal y como ha quedado recogido ampliamente en la presente Tesis Doctoral en los capítulos 1, 3 y 4, y lo demuestran diversos estudios, entre ellos: Ahmad &Khan (2019) y Huang (1997a, 1998). Se exponen a continuación a modo de ejemplo, los resultados de estabilidad sobre algunas de las Bases de Datos de tipo mixto y de tipo categórico, incluidas en el punto 5.2 de la presente Tesis Doctoral (Figura 5.1 a Figura 5.4), como se puede observar, el algoritmo FairMclus obtiene en cada ejecución realizada, el mismo resultado de agrupación de sus elementos en los clusters correspondientes, y sobre cada una de las Bases de Datos utilizadas y descritas en la Tabla 5.1. Todas las gráficas correspondientes a todas las Bases de Datos se enuentran recogidas en el Anexo 1. 5 - Resultados ~ 169 ~ Figura 5.1: Base de Datos de tipo mixto “Australian Credit” Figura 5.2: Base de Datos de tipo mixto “Heart Disease” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 5 - Resultados ~ 170 ~ Figura 5.3: Base de Datos categórica “Human Resources” Figura 5.4: Base de Datos categórica “Breast Cancer” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 5 - Resultados ~ 171 ~ 5.4.2. Respecto de la Eficiencia La Tabla 5.2 muestra la eficiencia de agrupación sobre datos de tipo mixto (categórico y numérico) del algoritmo propuesto FairMclus, y su comparativa con los algoritmos k-Prototypes, Kamila y Tclust. La Tabla 5.3 muestra la eficiencia de agrupación sobre datos de tipo categórico del algoritmo propuesto FairMclus, y su comparativa con los algoritmos k-Modes, Daisy + Pam y Tclust. Los conjuntos de datos utilizados en la comparativa están mostrados en la Tabla 5.1, y las medidas usadas para su comparación han sido expuestas en el punto 5.3 del Capítulo 5 de la presente Tesis Doctoral [Índice de Fowlkes- Mallows (FMI), Índice Máximum-Match Measure (MMM), Índice Normalized Variation of Information Measure (NVI), Índice de superposición (OI)]. Las casillas coloreadas en verde, muestran los mejores resultados de la comparativa, pudiendo observar que el algoritmo FairMclus, objeto de esta Tesis Doctoral, supera en precisión a los otros algoritmos, independientemente de que los datos sean de tipo mixto o categórico en la práctica totalidad de las Bases de Datos utilizadas y sobre las diferentes métricas usadas. 5 - Resultados ~ 172 ~ Tabla 5.2: Eficiencia de clustering Datos de tipo Mixto FM I MM M NV I OI FM I MM M NV I OI FM I MM M NV I OI FM I MM M NV I OI Ab se nte eis m 0,5 46 0,4 31 0,9 77 0,9 66 0,4 15 0,2 41 0,9 58 0,9 59 0,4 15 0,2 34 0,8 93 0,9 70 0,4 00 0,2 21 0,9 31 0,9 64 Air line 0,7 05 0,9 85 0,9 51 0,9 74 0,5 30 0,6 03 0,9 61 0,5 31 0,5 06 0,5 30 0,9 98 0,5 10 0,4 80 0,4 85 0,9 99 0,5 09 Au str alia n c red it 0,5 66 0,7 64 0,9 95 0,6 36 0,5 64 0,6 74 0,9 15 0,5 65 0,5 37 0,6 12 0,9 69 0,5 45 0,5 07 0,5 78 0,9 60 0,5 24 Ba nk M ark eti ng 0,8 63 0,9 64 0,9 99 0,9 34 0,6 44 0,5 85 0,9 93 0,8 02 0,6 72 0,6 62 0,9 94 0,8 06 0,6 55 0,6 41 0,9 84 0,8 19 Cu sto me r S eg me nta tio n 0,3 83 0,7 51 0,9 98 0,5 87 0,3 53 0,5 42 0,9 17 0,4 09 0,3 48 0,4 94 0,8 91 0,3 66 0,3 60 0,5 44 0,9 13 0,4 13 Ge rm an C red it F C1 0,7 34 0,9 57 0,9 95 0,9 24 0,5 38 0,5 05 1,0 00 0,5 79 0,5 40 0,5 36 0,9 97 0,5 82 0,5 23 0,4 94 0,9 89 0,5 91 He art D ise as e 0,4 18 0,6 77 0,9 68 0,4 93 0,3 52 0,3 77 0,8 67 0,4 53 0,3 32 0,3 54 0,8 76 0,4 35 0,3 09 0,3 50 0,9 41 0,3 88 DA TA SE T Fa irM clu s (pr op os ed ) K- Pr oto typ es Ka mi la Tc lus t 5 - Resultados ~ 173 ~ Tabla 5.3: Eficiencia de clustering Datos de tipo Categórico FM I MM M NV I OI FM I MM M NV I OI FM I MM M NV I OI FM I MM M NV I OI Au tis m 0,6 90 0,9 15 0,9 87 0,8 30 0,6 31 0,7 19 0,6 90 0,6 75 0,7 77 0,8 57 0,5 18 0,8 31 0,5 55 0,6 70 0,9 99 0,5 82 Br ea st Ca nc er 0,6 83 0,8 23 0,9 97 0,7 16 0,5 69 0,5 77 0,9 96 0,6 40 0,5 65 0,5 17 0,9 99 0,6 43 0,6 92 0,7 28 0,9 07 0,7 36 Ca rs Ins ura nc e 0,7 32 0,8 01 1,0 00 0,7 89 0,6 46 0,6 19 1,0 00 0,7 90 0,6 59 0,6 51 0,9 99 0,7 93 0,6 28 0,6 25 1,0 00 0,7 91 Ce ns us in co me 0,6 13 0,7 64 0,9 92 0,6 26 0,5 94 0,6 51 0,9 01 0,6 57 0,5 75 0,6 56 0,9 07 0,6 08 0,6 98 0,9 04 0,9 92 0,8 09 Ge rm an C re dit F C2 0,6 90 0,9 06 0,9 99 0,8 26 0,5 76 0,7 23 0,9 75 0,5 86 0,5 67 0,6 77 0,9 99 0,5 76 0,5 40 0,6 20 0,9 99 0,5 85 Ge rm an C re dit F C3 0,7 15 0,9 36 1,0 00 0,8 81 0,6 01 0,7 35 0,9 98 0,6 17 0,5 49 0,6 22 0,9 87 0,5 74 0,5 32 0,5 88 0,9 97 0,5 85 HR IB M 0,4 86 0,5 76 0,9 97 0,5 30 0,4 48 0,4 78 0,9 78 0,5 32 0,4 43 0,4 69 0,9 67 0,5 44 0,4 06 0,3 88 0,9 97 0,5 19 Hu ma n R es ou rce s 0,4 38 0,4 35 0,9 88 0,6 43 0,3 94 0,2 98 0,9 82 0,6 25 0,3 95 0,2 98 0,9 84 0,6 25 0,3 96 0,3 63 0,9 00 0,6 27 Nu rse ry 0,3 46 0,4 94 0,9 97 0,3 56 0,3 42 0,4 08 0,9 45 0,3 71 0,3 31 0,3 67 0,9 44 0,3 69 0,3 51 0,5 41 0,9 86 0,3 62 DA TA SE T Fa irM clu s (p ro po se d) K- Mo de s Da isy + Pa m Tc lu st 5 - Resultados ~ 174 ~ 5.4.3. Respecto de la Equidad La Tabla 5.4 muestra la equidad de agrupación sobre datos de tipo mixto (categórico y numérico) y la Tabla 5.5 muestra la equidad de agrupación sobre datos de tipo categórico, del algoritmo propuesto FairMclus, y su comparativa con los algoritmos k-Prototypes, Kamila y Tclust para datos de tipo mixto y k- Modes, Daisy + Pam y Tclust para datos de tipo categórico, sobre los conjuntos de datos de la Tabla 5.1, y con la métrica de Fairness expuesta en la ecuación 5.5, en el punto 5.3 del Capítulo 5 de la presente Tesis Doctoral (Santos & Heras, 2021). Tabla 5.4: Equidad de clustering Datos de tipo Mixto DATASET FairMclus (proposed) K-Prototypes Kamila Tclust Absenteeism 0,99 0,71 0,98 0,98 Airline 1,00 0,80 0,85 0,97 Australian credit 1,00 0,93 0,93 0,92 Bank Marketing 0,96 0,85 0,94 0,94 Customer Segmentation 1,00 0,81 0,96 0,95 German Credit FC1 0,93 0,88 0,97 0,94 Heart Disease 0,96 0,68 0,83 0,89 5 - Resultados ~ 175 ~ Tabla 5.5: Equidad de clustering Datos de tipo Categórico En las tablas 5.4 y 5.5, las celdas en color verde, muestran los mejores resultados de la comparativa, pudiendo observar que el algoritmo FairMclus, objeto de esta Tesis Doctoral, supera en equidad a los otros algoritmos, independientemente de que los datos sean de tipo mixto o categórico. En base a los resultados obtenidos anteriormente y mostrados en las Tablas 5.2 a 5.5, concluimos que el algoritmo FairMclus propuesto y su metodología implícita tiene un excelente rendimiento en términos de la medida de equidad, mientras que al mismo tiempo supera a algoritmo conocidos popularmente en términos de eficiencia de clasificación, tanto para datos de tipo mixto como para datos de tipo categórico. DATASET FairMclus (proposed) K-Modes Daisy + Pam Tclust Autism 0,99 0,83 0,88 0,92 Breast Cancer 0,93 0,70 0,78 0,88 Cars Insurance 0,99 0,63 0,64 0,79 Census income 1,00 0,97 0,96 0,87 German Credit FC2 0,99 0,95 0,95 0,97 German Credit FC3 1,00 0,57 0,77 0,95 HR IBM 0,99 0,88 0,94 0,94 Human Resources 1,00 0,66 0,86 0,93 Nursery 1,00 0,78 0,67 0,92 5 - Resultados ~ 176 ~ 5.5. APLICACIONES EMPRESARIALES Tal y como hemos demostrado en el Capítulo 4, la metodología propuesta en la presente Tesis Doctoral, realiza una total estabilidad en la agrupación de los datos, y una mejor eficiencia o precisión en el agrupamiento final de los datos. Todo ello se ha realizado sobre Bases de Datos supervisadas, lo cual nos da un ratio óptimo de las tres cualidades al mismo tiempo (Estabilidad, Eficiencia, Equidad), tanto si lo comparamos con el resultado esperado que tiene la Base de Datos, como al ser comparado su resultado con otras metodologías populares. Para evaluar el desempeño de la metodología propuesta en aplicaciones empresariales, vamos a tomar un fichero de datos de seguros no vida con datos de tipo mixto y un fichero de datos de créditos con datos de tipo categórico, ambos sin supervisar, debido a que en cualquier organización empresarial los datos que contienen sus Bases de Datos carecen de un atributo que indique en donde se debe de agrupar el elemento, pues eso es precisamente lo que se quiere realizar, descubrir el agrupamiento de los datos de forma precisa y mas equitativa. 5 - Resultados ~ 177 ~ Podemos por tanto agrupar el conjunto de datos en el número de grupos o clusters que se desee y que pueda ser de utilidad para la empresa y su Dirección, de manera que se puedan realizar diferentes acciones sobre los grupos, como por ejemplo: acciones de marketing específicas, entrevistas a candidatos para cubrir vacantes en la organización, estudios de mercado sobre cada grupo o cluster obtenido. 5.5.1. Sector Seguros (Primas No Vida) Utilizamos un conjunto de datos no supervisado "Cars Insurance" obtenido del Repositorio de Datos de la Universidad Macquarie de Australia (Departamento de Finanzas Aplicadas y Estudios Actuariales), y usado para demostrar el funcionamiento de la metodología expuesta en el Capítulo 4 de la presente Tesis Doctoral. (http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finan ce_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets ) El conjunto de datos "Cars Insurance" contiene 3.637 pólizas de seguros de vehículos, con 9 atributos, de los cuales, 6 son atributos categóricos y 3 atributos numéricos. Los datos se basan en pólizas de seguro de vehículos de un año de duración y con un campo de exposición al menos igual a 0,95. Su http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets http://www.businessandeconomics.mq.edu.au/our_departments/Applied_Finance_and_Actuarial_Studies/research/books/GLMsforInsuranceData/data_sets 5 - Resultados ~ 178 ~ atributo protegido “Género” contiene 2 valores diferentes. El punto 4.4 y la Figura 4.4. de la presente Tesis Doctoral, muestran ampliamente los atributos incluidos en el conjunto de datos “Cars Insurance”, asi como el significado de cada atributo. Para probar esta característica, se ha comparado el algoritmo FairMclus, así como su metodología implícita y presentada en esta Tesis Doctoral, respecto a algunos de los algoritmos más populares que tratan atributos de tipo mixto (numéricos de tipo continuo, numéricos de tipo discreto y categóricos), como son el algoritmo K-Prototypes, el algoritmo Kamila y el algoritmo Tclust. La Tabla 5.6 y la Figúra 5.5 muestran la equidad de agrupación y su comparativa con los algoritmos K-Prototypes, Kamila y Tclust, al realizar diferentes agrupaciones en los clusters finales, a modo de ejemplo se han tomado desde 2 clusters hasta 10 clusters. Observamos que en todas las ejecuciones llevadas a cabo y en donde la variación es respecto al número de grupos o clusters, el algoritmo FairMclus siempre obtiene mejores resultados, obteniendo el 100% de equidad en la agrupación final, si tenemos en cuenta la distribución original que tiene el 5 - Resultados ~ 179 ~ conjunto de datos, incluso cuando se aumenta el número de clusters finales en los que se pretende agrupar el con junto de datos inicial. Tabla 5.6: Equidad de clustering del algoritmo FairMclus Figura 5.5: Equidad de clustering del algoritmo FairMclus NUMERO de CLÚSTERS ALGORITMO PROPUESTO (FairMclus) K-PROTOTYPES KAMILA TCLUST k=2 100% 84% 88% 97% k=3 100% 84% 90% 96% k=4 100% 63% 89% 92% k=5 99% 68% 89% 91% k=6 99% 66% 90% 91% k=7 99% 64% 93% 91% k=8 99% 63% 91% 88% k=9 100% 66% 91% 86% k=10 100% 62% 90% 87% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 ALGORITMO PROPUESTO (FairMclus) K-PROTOTYPES KAMILA TCLUST 5 - Resultados ~ 180 ~ En la Tabla 5.7, se puede observar, como ejemplo, la distribución realizada sobre 9 clusters y su comparativa con la distribución original del conjunto de datos Cars Insurance (Tabla 5.8). Tabla 5.7: Distribución sobre 9 clusters del atributo protegido Género Tabla 5.8: Distribución original del atributo protegido Género Final Clusters Female Male 1 54,50% 45,50% 100% 2 54,50% 45,50% 100% 3 54,50% 45,50% 100% 4 55,40% 44,60% 99% 5 54,50% 45,50% 100% 6 53,40% 46,60% 98% 7 54,90% 45,10% 99% 8 54,70% 45,30% 100% 9 54,70% 45,30% 100% Observed Distribution per Cluster Overall total achieved 99,53% Desired Distribution "GENDER" (in Dataset) % Female 54,50% Male 45,50% 5 - Resultados ~ 181 ~ 5.5.2. Sector Crediticio Utilizamos un conjunto de datos no supervisado "German Credit" obtenido del Repositorio de Datos UCI-Machine Learning y usado para demostrar el funcionamiento de la metodología expuesta en el Capítulo 4 de la presente Tesis Doctoral. (https://archive.ics.uci.edu/ml/datasets.php) (Dua & Graff, 2019). El conjunto de datos "German Credit FC3" contiene 1000 elementos y se han seleccionado únicamente 17 atributos categóricos, relativos a las calificaciones crediticias de los clientes, clasificando a las personas descritas por un conjunto de atributos como buenos o malos riesgos crediticios. Estos datos finalmente se clasifican en 2 clusters diferentes y su atributo protegido “Estado Civil” tiene 3 valores diferentes. El significado de los atributos es el siguiente (Figura 5.6): a. Status of checking account: atributo categórico, representa el estado de la cuenta corriente. b. Credit history: atributo categórico, representa el historial de créditos que tiene el cliente. https://archive.ics.uci.edu/ml/datasets.php 5 - Resultados ~ 182 ~ c. Purpose: atributo categórico, representa la finalidad a la que se va destinar el crédito. d. Savings acc.: atributo categórico, representa el rango que tiene en cuenta de ahorro el cliente. e. Installment rate5: atributo categórico, representa el tiempo que lleva en el empleo actual el cliente. f. Marital status: atributo categórico, representa el estado civil que tiene el cliente actualmente. g. Debtors guarantors: atributo categórico, representa si es deudor o avalista de otras operaciones. h. Present Residence: atributo categórico, representa la residencia actual del cliente. i. Property: atributo categórico, representa que otros inmuebles tiene el cliente. j. Others plans: atributo categórico, representa otros planes de pago a plazos que tiene el cliente. k. Housing: atributo categórico, representa el tipo de vivienda actual del cliente, si es de alquiler o cualquier otra. l. Nbr. Existing credits: atributo categórico, representa el número de créditos existentes con el banco. 5 - Resultados ~ 183 ~ m. Job: atributo categórico, representa la situación de empleo actual que tiene el cliente. n. Nbr. People to prov. maintenance: atributo categórico, representa el número de personas que están obligadas a prestar alimentos. o. Telephone: atributo categórico, representa el teléfono. p. Foreign worker: atributo categórico, representa si es trabajador extranjero el cliente. Figura 5.6: Atributos de la Base de Datos “German Credit” 5 - Resultados ~ 184 ~ Para probar esta característica, se ha comparado el algoritmo FairMclus, así como su metodología implícita y presentada en esta Tesis Doctoral, respecto a algunos de los algoritmos más populares que tratan datos de tipo categórico, como el algoritmo K-Modes, la combinación de los algoritmos Daisy y Pam, y el algoritmo Tclust. La Tabla 5.9 y la Figúra 5.7 muestran la equidad de agrupación y su comparativa con los algoritmos k-Modes, Daisy y Pam, Tclust, al realizar diferentes agrupaciones en los clusters finales, a modo de ejemplo se han tomado desde 2 clusters hasta 10 clusters. Observamos que en todas las ejecuciones llevadas a cabo y en donde la variación es respecto al número de grupos o clusters, el algoritmo FairMclus siempre obtiene mejores resultados en la agrupación final, si tenemos en cuenta la distribución original que tiene el conjunto de datos, incluso cuando se aumenta el número de clusters finales en los que se pretende agrupar el conjunto de datos inicial. 5 - Resultados ~ 185 ~ Tabla 5.9: Equidad de clustering del algoritmo FairMclus Figura 5.7: Equidad de clustering del algoritmo FairMclus NUMERO de CLÚSTERS ALGORITMO PROPUESTO (FairMclus) K-MODES DAISY + PAM TCLUST k=2 100% 98% 75% 96% k=3 96% 93% 71% 94% k=4 94% 77% 67% 75% k=5 95% 71% 77% 88% k=6 96% 74% 66% 82% k=7 96% 78% 67% 85% k=8 97% 65% 67% 82% k=9 94% 61% 63% 88% k=10 90% 67% 59% 77% 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 ALGORITMO PROPUESTO (FairMclus) K-MODES DAISY + PAM TCLUST 5 - Resultados ~ 186 ~ En la Tabla 5.10, se puede observar, como ejemplo, la distribución realizada sobre 8 clusters y su comparativa con la distribución original del conjunto de datos German Credit FC3 (Tabla 5.11). Tabla 5.10: Distribución sobre 9 clusters del atributo protegido Estado Civil Tabla 5.11: Distribución original del atributo protegido Estado Civil Final Clusters Divorced Married Single 1 36,40% 9,10% 54,50% 100% 2 36,40% 9,10% 54,50% 100% 3 36,40% 9,10% 54,50% 100% 4 36,40% 9,10% 54,50% 100% 5 35,00% 10,00% 55,00% 99% 6 38,50% 15,40% 46,20% 89% 7 40,00% 14,30% 45,70% 89% 8 35,80% 8,80% 55,40% 99% Observed Distribution per Cluster Overall total achieved 96,75% Desired Distribution "MARITAL STATUS" (in Dataset) % Divorced 36,00% Married 9,20% Single 54,80% 5 - Resultados ~ 187 ~ A partir de los resultados mostrados en la Tabla 5.6 en Bases de datos de tipo mixto y en la Tabla 5.9 en Bases de datos de tipo categórico, podemos concluir que el algoritmo FairMclus y la metodología que lleva implícita tiene un excelente desempeño en términos de Equidad. Cuando trabajamos con datos sin supervisar en aplicaciones empresariales, en la totalidad de los casos, el atributo protegido o sensible, incluido en el connjunto de datos inicial, obtiene la misma distribución original o muy próxima a ella, en cada cluster final, independientemente del número de grupos o clusters que se pretenda analizar. 5 - Resultados ~ 188 ~ 6- Software R ~ 189 ~ 6 SOFTWARE R 6 – SOFTWARE R 6- Software R ~ 190 ~ 6- Software R ~ 191 ~ En este capítulo se incluye el software necesario para realizar cualquier análisis de clustering en conjuntos de datos de tipo categórico únicamente o bien de tipo mixto (numérico y categórico), y que contengan un atributo protegido o sensible, para poder llevar a cabo la agrupación equitativa y eficiente, según la distribución que tenga dicho atributo en los datos originales. Se trata de obtener tantos grupos de elementos como se estime necesario sobre el conjunto de datos inicial, y que en cada grupo se mantenga la misma distribución que posee el atributo protegido en los datos iniciales o lo más próxima posible a dicha distribución. El desarrollo del algoritmo que incluye la metodología expuesta en la presente Tesis Doctoral, se ha realizado con el software , el cual ha sido autorizado y publicado, y se encuentra disponible para toda la comunidad de usuarios que quieran usarlo bajo dicha plataforma de software. La función del algoritmo FairMclus ejecuta la metodología objeto de la presente Tesis Doctoral, y se compone de seis parámetros de entrada y de seis parámetros de salida. 6- Software R ~ 192 ~ Parámetros de Entrada El comando de llamada de la función FairMclus (versión 2.2.1), se compone de seis parámetros de entrada: FairMclus (data, typedata, protected, ncores, kclus, numpos) (1) data: Representa el fichero de datos de entrada, que puede ser con datos únicamente de tipo categórico o de tipo mixto, y en donde los elementos estarán en filas y los atributos en columnas. (2) typedata: Representa el tipo de datos de entrada, “m” si los datos son de tipo mixto, o bien “c” si son de tipo categórico. (3) protected: Representa el nombre de la columna que contiene el atributo sensible o protegido, por ejemplo: “género”, “raza” …. otros. (4) ncores: número de procesadores lógicos del ordenador que queremos dedicar al proceso paralelo del algoritmo, si se pone 0, se tomara por defecto 2 núcleos lógicos. (5) kclus: Número de clusters para agrupar los datos. (6) numpos: Vector numérico que representan las posiciones que ocupan nuestros atributos de tipo numérico real o discreto en nuestra Base de Datos, si los datos son de tipo categórico únicamente entonces se pondrá c(0). 6- Software R ~ 193 ~ Parámetros de Salida (1) $cluster: Número de cluster asignado a cada elemento del fichero de datos de entrada, dependiendo del número de clusters que se haya seleccionado en el parámetro de entrada correspondiente. (2) $fairdis: Distribución que tiene la base de datos original, según el atributo protegido que contienen los datos iniciales. (3) $fairatio: Distribución equitativa total alcanzada por el algoritmo en la clasificación final realizada de los datos originales. (4) $fairclus: Distribución equitativa total alcanzada por el algoritmo en la clasificación final realizada de los datos originales por cada cluster definido, y por cada valor del atributo protegido. (5) $clusize: Número de elementos que contiene cada cluster construido. (6) $fairsize: Número de elementos que contiene cada cluster construido y por cada valor del atributo protegido 6- Software R ~ 194 ~ Ejemplo de ejecución del Algoritmo FairMclus (1) Instalamos el paquete correspondiente al algoritmo FairMclus: (2) Cargamos la Librería del algoritmo: (3) Conjunto de librerías necesarias del Algoritmo 6- Software R ~ 195 ~ (4) Ejecución del algoritmo para datos de tipo mixto: Tomamos el ejemplo incluido en el comando de ayuda del propio algoritmo dentro de R, el cual configura un conjunto de datos con valores en sus atributos de forma aleatoria, tanto de tipo categórico como de tipo numérico, y se incluye un atributo protegido. ## EJECUCIÓN CON DATOS DE TIPO MIXTO # ## generate data set with 4 columns and 20 rows: a <- c(1:20) # name of element b <- c(1:5) # categorical attribute c <- c(1:2) # protected attribute d <- rbind(matrix(rnorm(20, mean=10, sd = 1), ncol = 1)) # numerical value # # dataM <- cbind(a,b,c,d) # colnames(dataM) <- c("V0", "V1", "gender", "V3") # # ## FICHERO DE DATOS GENERADO # > dataM V0 V1 gender V3 [1,] 1 1 1 9.857207 [2,] 2 2 2 10.240603 [3,] 3 3 1 10.426926 [4,] 4 4 2 10.841425 [5,] 5 5 1 10.906296 [6,] 6 1 2 8.416753 [7,] 7 2 1 9.622248 [8,] 8 3 2 10.288196 [9,] 9 4 1 10.847620 [10,] 10 5 2 9.509984 [11,] 11 1 1 10.118701 [12,] 12 2 2 10.853467 [13,] 13 3 1 11.594939 [14,] 14 4 2 10.360534 [15,] 15 5 1 9.210204 [16,] 16 1 2 9.729036 [17,] 17 2 1 10.751257 [18,] 18 3 2 11.241220 [19,] 19 4 1 8.968505 [20,] 20 5 2 10.453559 ## run algorithm on mixed-type of data: FairMclus(dataM, "m", "V2", 0, 2, c(3)) 6- Software R ~ 196 ~ FairMclus - A Fairness Clustering for categorical and mixed data with protected attribute Dataset has 20 rows and 3 attributes 2 categorical attributes and 1 numeric attribute Will use 2 logical cores of computer, and is going to be clustered in 2 clusters Protected attribute -gender- contains 2 different values $cluster [1] 2 1 1 2 2 2 2 1 1 2 2 1 1 1 2 2 1 2 2 2 $fairdis 1 2 "1" "2" "50%" "50%" $fairatio [1] "100%" $fairclus 1 2 1 50% 50% 2 50% 50% $clusize 1 2 8 12 $fairsize 1 2 1 4 4 2 6 6 (5) Ejecución del algoritmo para datos de tipo categórico: Tomamos el ejemplo incluido en el comando de ayuda del propio algoritmo dentro de R, el cual configura un conjunto de datos con valores en sus atributos de forma aleatoria y únicamente de tipo categórico, y se incluye un atributo protegido. ## EJECUCIÓN CON DATOS DE TIPO MIXTO # ## generate data set with 4 columns and 20 rows: a <- c(1:20) # name of element b <- c(1:5) # categorical attribute d <- rbind(matrix(rnorm(20, mean=10, sd = 1), ncol = 1)) # numerical value e <- c(1:4) # categorical value # dataC <- cbind(a,b,c,e) 6- Software R ~ 197 ~ # colnames(dataC) <- c("V0", "V1", "gender", "V3") # # ## FICHERO DE DATOS GENERADO # > dataC V0 V1 gender V3 [1,] 1 1 1 1 [2,] 2 2 2 2 [3,] 3 3 1 3 [4,] 4 4 2 4 [5,] 5 5 1 1 [6,] 6 1 2 2 [7,] 7 2 1 3 [8,] 8 3 2 4 [9,] 9 4 1 1 [10,] 10 5 2 2 [11,] 11 1 1 3 [12,] 12 2 2 4 [13,] 13 3 1 1 [14,] 14 4 2 2 [15,] 15 5 1 3 [16,] 16 1 2 4 [17,] 17 2 1 1 [18,] 18 3 2 2 [19,] 19 4 1 3 [20,] 20 5 2 4 ## run algorithm on categorical data: FairMclus(dataC, "c", "gender", 0, 2, c(0)) FairMclus - A Fairness Clustering for categorical and mixed data with protected attribute Dataset has 20 rows and 3 attributes 3 categorical attributes and 0 numeric attributes Will use 2 logical cores of computer, and is going to be clustered in 2 clusters Protected attribute -gender- contains 2 different values $cluster [1] 1 1 2 2 2 1 2 2 1 2 2 2 1 1 2 2 1 1 2 2 $fairdis 1 2 "1" "2" "50%" "50%" $fairatio [1] "100%" $fairclus 1 2 1 50% 50% 2 50% 50% $clusize 1 2 8 12 $fairsize 1 2 1 4 4 2 6 6 6- Software R ~ 198 ~ Contenido en el comando de ayuda ¿FairMclus 6- Software R ~ 199 ~ 6- Software R ~ 200 ~ Conclusiones ~ 201 ~ 7 CONCLUSIONES CONCLUSIONES Conclusiones ~ 202 ~ Conclusiones ~ 203 ~ La exhaustiva revisión llevada a cabo sobre el análisis de cluster y sus métodos de clasificación, así como la equidad en la clasificación de datos cuando se tienen datos protegidos o sensibles, nos ha permitido: (1) Conocer el impacto que tiene la clasificación o clustering de datos, cuando estos conjuntos de datos tienen atributos protegidos o sensibles, y los sesgos que se producen al pretender agrupar elementos de una forma equitativa por distintos departamentos de la empresa. (2) Conocer los métodos existentes para el análisis de clustering, realizar un exhaustivo estudio de los mismos, lo que nos ha permitido estudiar las diferencias entre ellos, cuando se trata de datos categóricos puros o mixtos, y el tratamiento que estos dan sobre los atributos sensibles. (3) Proponer una metodología para la clasificación de datos de tipo categórico puro y datos de tipo mixto, que contengan atributos sensibles o protegidos, como la raza, el género o el estatus social, para encontrar clusters homogéneos y justos. Los clusters deben ser homogéneos, es decir, formados por elementos similares, y también deben ser justos, no sesgados hacia o contra subgrupos específicos de la población, manteniendo el compromiso entre la equidad y la eficiencia, que no suponga una pérdida de uno de los dos factores. Conclusiones ~ 204 ~ (4) Con respecto al objetivo de Estabilidad, la metodología propuesta en la presente Tesis Doctoral, muestra la mejor estabilidad en conseguir los mismos grupos con los mismos elementos dentro de cada uno de dichos clusters finales en todos los casos, alcanzando una puntuación máxima del 100% con todas las Bases de Datos utilizadas (Figuras A.1 a A.16). (5) Con respecto al objetivo de Eficiencia de la metodología propuesta en la presente Tesis Doctoral, se ha comprobado sobre 16 Bases de datos de distintos ámbitos empresariales, realizando la comparación con algoritmos populares y conocidos, tanto en el tratamiento de datos de tipo categórico puro (K-Modes, Daisy y Pam, Tclust), como en el tratamiento de datos de tipo mixto (K-Prototypes, Kamila, Tclust), utilizando cuatro medidas conocidas de eficiencia y una medida de equidad basada en la distancia entre la distribución final del atributo protegido y su distribución deseada (Tabla 5.2 y Tabla 5.3). (6) Con respecto al objetivo de Equidad la metodología propuesta en la presente Tesis Doctoral, muestra el mejor rendimiento en todos los casos, alcanzando una puntuación máxima del 100% en prácticamente todos ellos (Tabla 5.4 y Tabla 5.5), lo que nos permite estar en consonancia con las diferentes normativas existentes en Derechos Humanos, sobre la no discriminación por razones de genero, sexo, edad, raza, etc. Conclusiones ~ 205 ~ (7) La metodología propuesta, se ha aplicado a conjuntos de datos no supervisados, siendo uno de ellos un conjunto de seguros no vida, con datos de tipo mixto y con el atributo protegido Género, (Tabla 5.6) y otro conjunto de datos de créditos, con datos de tipo categórico puro y con el atributo protegido Estado Social (Tabla 5.9), para descubrir el agrupamiento de los datos más preciso y equitativo según la variación llevada a cabo sobre el número de clusters finales que se quiera agrupar, obteniendo en la práctica totalidad de las ejecuciones el 100% de equidad (Tabla 5.7 y Tabla 5.10). (8) Se ha desarrollado un paquete de software en lenguaje R (FairMclus), para uso de la comunidad científica, que realiza una agrupación eficiente y equitativa sobre datos de tipo categórico puro o de tipo mixto, que contengan un atributo protegido. (9) La estabilidad, la eficacia de la clasificación y la equidad son las principales ventajas de la metodología propuesta en la presente Tesis Doctoral. (10) Entre los futuros desarrollos de esta metodología, destacamos su aplicación a conjuntos de datos con varios (más de uno) atributos protegidos, así como extender la metodología a bases de datos con mayor numero de observaciones. Conclusiones ~ 206 ~ Bibliografía ~ 207 ~ 7 BIBLIOGRAFÍA BIBLIOGRAFÍA Bibliografía ~ 208 ~ Bibliografía ~ 209 ~ Abasi, A. K., Khader, A. T., Al-Betar, M. A., Naim, S., Makhadmeh, S. N., & Alyasseri, Z. A. A. (2021). An improved text feature selection for clustering using binary grey wolf optimizer. Lecture Notes in Electrical Engineering, 666, 503–516. https://doi.org/10.1007/978-981-15-5281-6_34 Abraham, S. S., P, D., & Sundaram, S. S. (2020). Fairness in Clustering with Multiple Sensitive Attributes. Advances in Database Technology - EDBT, 287–298. http://arxiv.org/abs/1910.05113 Adebayo, J., & Kagal, L. (2016). Iterative Orthogonal Feature Projection for Diagnosing Bias in Black-Box Models. https://arxiv.org/abs/1611.04967v1 Adhikari, S. K., Sing, J. K., Basu, D. K., & Nasipuri, M. (2015). Conditional spatial fuzzy C-means clustering algorithm for segmentation of MRI images. Applied Soft Computing Journal, 34, 758–769. https://doi.org/10.1016/J.ASOC.2015.05.038 Agarwal, S., & Upadhyay, S. (2014). A Fast Fraud Detection Approach using Clustering Based Method. Journal of Basic and Applied Engineering Research, 1(10), 33–37. Krishi Sanskriti Publications http://www.krishisanskriti.org/jbaer.html Aggarwal, C.C., & Reddy, C.K. (2014). Data Clustering: Algorithms and Applications (1st ed.). Chapman and Hall/CRC. https://doi.org/10.1201/9781315373515 Agrawal, R., Gehrke, J., Gunopulos, D., & Raghavan, P. (2005). Automatic Subspace Clustering of High Dimensional Data. Min Knowl. Disc. 11, 5–33. https://doi.org/10.1007/S10618-005-1396-1 Agresti, A. (2019). An Introduction to Categorical Data Analysis (Third Edition; Wiley, ed.). Wiley Series in Probability and Statistics. Ahmad, A., & Dey, L. (2007a). A k-mean clustering algorithm for mixed numeric and categorical data. Data & Knowledge Engineering, 63(2), 503–527. https://doi.org/10.1016/j.datak.2007.03.016 Ahmad, A., & Dey, L. (2007b). A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set. Pattern Recognition Letters, 28(1), 110–118. https://doi.org/10.1016/j.patrec.2006.06.006 Ahmad, A., & Hashmi, S. (2016). K-Harmonic means type clustering algorithm for mixed datasets. Applied Soft Computing Journal, 48, 39–49. https://doi.org/10.1016/J.ASOC.2016.06.019 Ahmad, A., & Khan, S. S. (2019). Survey of State-of-the-Art Mixed Data Clustering Algorithms. IEEE Access, 7, 31883–31902. https://doi.org/10.1109/ACCESS.2019.2903568 Ahmad, A., & Khan, S. S. (2021). initKmix-A novel initial partition generation algorithm for clustering mixed data using k-means-based clustering. Expert Systems with Applications, 167. https://doi.org/10.1016/J.ESWA.2020.114149 https://doi.org/10.1007/978-981-15-5281-6_34 http://arxiv.org/abs/1910.05113 https://arxiv.org/abs/1611.04967v1 https://doi.org/10.1016/J.ASOC.2015.05.038 http://www.krishisanskriti.org/jbaer.html https://doi.org/10.1201/9781315373515 https://doi.org/10.1007/S10618-005-1396-1 https://doi.org/10.1016/j.datak.2007.03.016 https://doi.org/10.1016/j.patrec.2006.06.006 https://doi.org/10.1016/J.ASOC.2016.06.019 https://doi.org/10.1109/ACCESS.2019.2903568 https://doi.org/10.1016/J.ESWA.2020.114149 Bibliografía ~ 210 ~ Alamuri, M., Surampudi, B. R., & Negi, A. (2014). A survey of distance/similarity measures for categorical data. Proceedings of the International Joint Conference on Neural Networks, 1907–1914. https://doi.org/10.1109/IJCNN.2014.6889941 Aldenderfer, M., & Blashfield, R. (1984). Cluster Analysis. SAGE Publications https://doi.org/10.4135/9781412983648 Almeida, B. F., Correia, I., & Saldanha-da-Gama, F. (2018). A biased random-key genetic algorithm for the project scheduling problem with flexible resources. TOP 26, 283–308. https://doi.org/10.1007/S11750-018-0472-9 Altaf, S., Waseem, M., & Kazmi, L. (2020). IDCUP Algorithm to Classifying Arbitrary Shapes and Densities for Center-based Clustering Performance Analysis. Interdisciplinary Journal of Information, Knowledge, and Management, 15, 091– 108. https://doi.org/10.28945/4541 Altman, D. G. (1980). Statistics and ethics in medical research. Misuse of statistics is unethical. British Medical Journal, 281(6249), 1182–1184. https://doi.org/10.1136/bmj.281.6249.1182 Angwin, J., Larson, J., Mattu, S., & Kirchner, L. (2016). Machine Bias. ProPublica website: https://www.propublica.org/article/machine-bias-risk-assessments-in- criminal-sentencing Arthur, D., & Vassilvitskii, S. (2007). K-Means++: The Advantages of Careful Seeding. SODA '07: Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, Society for Industrial and Applied Mathematics, USA, 1027- 1035. https://dl.acm.org/doi/10.5555/1283383.1283494 Avati, A., Jung, K., Harman, S., Downing, L., Ng, A., & Shah, N. H. (2017). Improving Palliative Care with Deep Learning. Proceedings - 2017 IEEE International Conference on Bioinformatics and Biomedicine, page 311–316. https://arxiv.org/abs/1711.06402v1 Ávila Camacho, J. (2021). Clustering Jerárquico. JacobSoft website: https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/ Baçak Aydemir, F., Giorgini, P., & Mylopoulos, J. (2016). Multi-objective risk analysis with goal models. IEEE Tenth International Conference on Research Challenges in Information Science (RCIS), 1–10. https://doi.org/10.1109/RCIS.2016.7549302 Backurs, A., Indyk, P., Onak, K., Schieber, B., Vakilian, A. H., & Wagner, T. (2019). Scalable Fair Clustering. 36th International Conference on Machine Learning, 623–634. https://arxiv.org/abs/1902.03519v2 Bagirov, A., Karmitsa, N., & Taheri, S. (2020). Introduction to Clustering. Partitional Clustering via Nonsmooth Optimization. In Unsupervised and Semi-Supervised Learning. Springer, Cham. https://doi.org/10.1007/978-3-030-37826-4 Bai, L., Liang, J., Dang, C., & Cao, F. (2012). A cluster centers initialization method for clustering categorical data. Expert Systems with Applications, 39(9), 8022–8029. https://doi.org/10.1016/j.eswa.2012.01.131 https://doi.org/10.1109/IJCNN.2014.6889941 https://doi.org/10.4135/9781412983648 https://doi.org/10.1007/S11750-018-0472-9 https://doi.org/10.28945/4541 https://doi.org/10.1136/bmj.281.6249.1182 https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing https://dl.acm.org/doi/10.5555/1283383.1283494 https://arxiv.org/abs/1711.06402v1 https://www.jacobsoft.com.mx/es_mx/clustering-jerarquico-con-python/ https://doi.org/10.1109/RCIS.2016.7549302 https://arxiv.org/abs/1902.03519v2 https://doi.org/10.1007/978-3-030-37826-4 https://doi.org/10.1016/j.eswa.2012.01.131 Bibliografía ~ 211 ~ Bailey, K. D. (1975). Cluster Analysis. Sociological Methodology, 6, 59. https://doi.org/10.2307/270894 Baker, R. S., & Hawn, A. (2021). Algorithmic Bias in Education. Manuscript under Review, 36. https://edarxiv.org/pbmvz/ Bandyopadhyay, A., Datta, K., Zhang, J., Yang, W., Raychaudhuri, S., Miyao, M., & Datta, S. K. (2007). Enhanced photosynthesis rate in genetically engineered indica rice expressing pepc gene cloned from maize. Plant Science, 172(6), 1204– 1209. https://doi.org/10.1016/j.plantsci.2007.02.016. Banfield, J. D., & Raftery, A. E. (1993). Model-based Gaussian and non-Gaussian clustering. Biometrics, 49, 803–821. https://doi.org/10.2307/2532201 Barbará, D., Li, Y., & Couto, J. (2002). COOLCAT: an entropy-based algorithm for categorical clustering. Proceedings of the Eleventh International Conference on Information and Knowledge Management - CIKM ’02, 582–589. https://doi.org/10.1145/584792.584888 Barocas, S., & Selbst, A. D. (2016). Big Data’s Disparate Impact. SSRN Electronic Journal, 104(3), 671–732. https://doi.org/10.2139/ssrn.2477899 Behzadi, S., Müller, N. S., Plant, C., & Böhm, C. (2020). Clustering of mixed-type data considering concept hierarchies: problem specification and algorithm. International Journal of Data Science and Analytics, 10(3), 233–248. https://doi.org/10.1007/s41060-020-00216-2 Benitez-Eyzaguirre, L. (2020). La invisible perspectiva de género en la transparencia. Transparencia y participación para un gobierno abierto (Cap 16), 345–358. Wolters Kluwer. http://hdl.handle.net/10498/22456 Bensaude-Vincent, B. (1986). Mendeleev’s Periodic System of Chemical Elements. The British Journal for the History of Science, 19, 3–17. https://www.jstor.org/stable/4026481 Bera, S. K., Chakrabarty, D., Flores, N. J., & Negahbani, M. (2019). Fair Algorithms for Clustering. http://arxiv.org/abs/1901.02393 Berk, R., Heidari, H., Jabbari, S., Kearns, M., & Roth, A. (2017). Fairness in Criminal Justice Risk Assessments: The State of the Art. Sociological Methods and Research, 50(1), 3–44. https://arxiv.org/abs/1703.09207v2 Bezdek, J.C. (1981) Pattern Recognition with Fuzzy Objective Function Algorithms. Plenum, New York. http://dx.doi.org/10.1007/978-1-4757-0450-1 Bezdek, J.C. (2011). Fuzzy C-means cluster analysis. Scholarpedia, 6(7), 2057. https://doi.org/10.4249/scholarpedia.2057 Bhattacharyya, A. (1943) On a Measure of Divergence between Two Statistical Populations Defined by Their Probability Distributions. Bulletin of the Calcutta Mathematical Society, 35, 99-109. https://doi.org/10.2307/270894 https://edarxiv.org/pbmvz/ https://doi.org/10.1016/j.plantsci.2007.02.016 https://doi.org/10.2307/2532201 https://doi.org/10.1145/584792.584888 https://doi.org/10.2139/ssrn.2477899 https://doi.org/10.1007/s41060-020-00216-2 http://hdl.handle.net/10498/22456 https://www.jstor.org/stable/4026481 http://arxiv.org/abs/1901.02393 https://arxiv.org/abs/1703.09207v2 http://dx.doi.org/10.1007/978-1-4757-0450-1 https://doi.org/10.4249/scholarpedia.2057 Bibliografía ~ 212 ~ Bigu, D., & Cernea, M-V. (2019). Algorithmic Bias in Current Hiring Practices: An Ethical Examination. Proceedings of the International Management Conf., Faculty of Management, Academy of Economic Studies, Bucharest, Romania, 13(1), 1068-1073. https://ideas.repec.org/a/rom/mancon/v13y2019i1p1068-1073.html Binns, R. (2017). Fairness in Machine Learning: Lessons from Political Philosophy. Conference on Fairness, Accountability, and. Transparency, New York, Forthcoming. Proceedings of Machine Learning Research, 81, 1–11. https://arxiv.org/abs/1712.03586v3 Bishnoi, S., & Hooda, B. (2020). A survey of distance measures for mixed variables. International Journal of Chemical Studies, 8(4), 338–343. https://doi.org/10.22271/CHEMI.2020.V8.I4F.10087 Biswas, G., Weinberg, J. B., & Fisher, D. H. (1998). Iterate: A conceptual clustering algorithm for data mining. IEEE Transactions on Systems, Man and Cybernetics Part C: Applications and Reviews, 28(2), 219–230. https://doi.org/10.1109/5326.669556 BOE. (2007). Ley Orgánica 3/2007, de 22 de marzo, para la igualdad efectiva de mujeres y hombres. https://www.boe.es/buscar/doc.php?id=BOE-A-2007-6115 Bohanec, M., & Rajkovic, V. (1988). Knowledge Acquisition and Explanation for Multi- Attribute Decision. 8 Th International Workshop “Expert Systems and Their Applications", 1, 59–78. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.142.2542 Boriah, S., Chandola, V., & Kumar, V. (2008). Similarity measures for categorical data: A comparative evaluation. Society for Industrial and Applied Mathematics - 8th SIAM International Conference on Data Mining 2008, Proceedings in Applied Mathematics 130, 1, 243–254. https://doi.org/10.1137/1.9781611972788.22 Bouveyron, C., Celeux, G., Murphy, T. B., & Raftery, A. E. (2019). Model-based clustering and classification for data science: With applications in R. Model-Based Clustering and Classification for Data Science: With Applications in R, 1–427. https://doi.org/10.1017/9781108644181 Box, G. E. P., Hunter, S., & Hunter, W. G. (2005). Statistics for Experimenters: Design, Innovation, and Discovery (2nd edition). John Wiley & Sons, Inc. Hoboken, New Jersey Branke, J., Deb, K., Miettinen, K., & Słowiński, R. (2008). Multiobjective Optimization. Lecture Notes in Computer Science, vol 5252. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-540-88908-3_15 Bray, J. R., & Curtis, J. T. (1957). An Ordination of the Upland Forest Communities of Southern Wisconsin. Ecological Monographs, 27(4), 325–349. https://doi.org/10.2307/1942268 Brodinova, Š., Filzmoser, P., Ortner, T., Breiteneder, C., & Rohm, M. (2019). Robust and sparse k-means clustering for high-dimensional data. Advances in Data Analysis and Classification, 13(4), 905–932. https://doi.org/10.1007/s11634-019- 00356-9 https://ideas.repec.org/a/rom/mancon/v13y2019i1p1068-1073.html https://arxiv.org/abs/1712.03586v3 https://doi.org/10.22271/CHEMI.2020.V8.I4F.10087 https://doi.org/10.1109/5326.669556 https://www.boe.es/buscar/doc.php?id=BOE-A-2007-6115 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.142.2542 https://doi.org/10.1137/1.9781611972788.22 https://doi.org/10.1017/9781108644181 https://doi.org/10.1007/978-3-540-88908-3_15 https://doi.org/10.2307/1942268 https://doi.org/10.1007/s11634-019-00356-9 https://doi.org/10.1007/s11634-019-00356-9 Bibliografía ~ 213 ~ Calders, T., Kamiran, F., & Pechenizkiy, M. (2009). Building Classifiers with Independency Constraints. ICDM Workshops 2009 - IEEE International Conference on Data Mining, 13–18. https://doi.org/10.1109/ICDMW.2009.83 Calders, T., & Verwer, S. (2010). Three naive Bayes approaches for discrimination-free classification. Data Mining and Knowledge Discovery, 21(2), 277–292. https://doi.org/10.1007/S10618-010-0190-X Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183–186. https://doi.org/10.1126/science.aal4230 Cao, Q., Bouqata, B., Mackenzie, P. D., Messier, D., & Salvo, J. J. (2009). A grid- based clustering method for mining frequent trips from large-scale, event-based telematics datasets. 2009 IEEE International Conference on Systems, Man and Cybernetics, 2996–3001. https://doi.org/10.1109/ICSMC.2009.5345924 Cargill, T. F., Berenson, M. L., & Levine, D. M. (1980). Basic Business Statistics: Concepts and Application. Journal of the American Statistical Association, 75(372), 1037. https://doi.org/10.2307/2287209 Celis, L. E., Deshpande, A., Kathuria, T., & Vishnoi, N. K. (2016). How to be Fair and Diverse? https://arxiv.org/abs/1610.07183v1 Celis, L. E., Straszak, D., & Vishnoi, N. K. (2018). Ranking with Fairness Constraints. http://arxiv.org/abs/1704.06840 Cha, S.-H., Tappert, C., & Yoon, S. (2006). Enhancing Binary Feature Vector Similarity Measures. Journal of Pattern Recognition Research, 1(1), 63–77. https://doi.org/10.13176/11.20 Cha, S.H. (2007). Comprehensive Survey on Distance Similarity Measures between Probability Density Functions. International Journal of Mathematical Models and Methods in Applied Sciences, 1(4), 300-307. Chakrapani, C. (2004). Statistics in market research. London. Hodder Arnold. Chatzis, S.P. (2011). A fuzzy c-means-type algorithm for clustering of data with mixed numeric and categorical attributes employing a probabilistic dissimilarity functional. Expert Systems with Applications, 38(7), 8684–8689. https://doi.org/10.1016/J.ESWA.2011.01.074 Chaudhury, S. (2020). Different Types of Distances Used in Machine Learning, https://medium.com/swlh/different-types-of-distances-used-in-machine-learning- ec7087616442 Chen, J.Y., & He, H. H. (2016). A fast density-based data stream clustering algorithm with cluster centers self-determined for mixed data. Information Sciences, 345, 271–293. https://doi.org/10.1016/J.INS.2016.01.071 https://doi.org/10.1109/ICDMW.2009.83 https://doi.org/10.1007/S10618-010-0190-X https://doi.org/10.1126/science.aal4230 https://doi.org/10.1109/ICSMC.2009.5345924 https://doi.org/10.2307/2287209 https://arxiv.org/abs/1610.07183v1 http://arxiv.org/abs/1704.06840 https://doi.org/10.13176/11.20 https://doi.org/10.1016/J.ESWA.2011.01.074 https://medium.com/swlh/different-types-of-distances-used-in-machine-learning-ec7087616442 https://medium.com/swlh/different-types-of-distances-used-in-machine-learning-ec7087616442 https://doi.org/10.1016/J.INS.2016.01.071 Bibliografía ~ 214 ~ Chen, X., Fain, B., Lyu, L., & Munagala, K. (2019). Proportionally Fair Clustering. 36th International Conference on Machine Learning, ICML 2019, 2019-June, 1782– 1791. https://arxiv.org/abs/1905.03674v3 Cheng, C.H., Fu, A. W., & Zhang, Y. (1999). Entropy-based subspace clustering for mining numerical data. 84–93. https://doi.org/10.1145/312129.312199 Cherif, W. (2018). Optimization of K-NN algorithm by clustering and reliability coefficients: Application to breast-cancer diagnosis. Procedia Computer Science, 127, 293–299. https://doi.org/10.1016/j.procs.2018.01.125 Chierichetti, F., Kumar, R., Lattanzi, S., & Vassilvitskii, S. (2017). Fair Clustering Through Fairlets. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Curran Associates Inc., Red Hook, NY, USA, 5036–5044. http://arxiv.org/abs/1802.05733 Chiu, T., Fang, D., Chen, J., Wang, Y., & Jeris, C. (2001). A robust and scalable clustering algorithm for mixed type attributes in large database environment. Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’01, 263–268. https://doi.org/10.1145/502512.502549 Choi, S.S. (Seung). (2008). Correlation analysis of binary similarity and dissimilarity measures. ETD Collection for Pace University. AAI3336169. https://digitalcommons.pace.edu/dissertations/AAI3336169 Choi, S., Cha, S. & Tappert C. (2010). A survey of Binary similarity and distance measures. Journal of Systems, Cybernetics and Informatics, (8), 43--48. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.352.6123 Chouldechova, A., & Roth, A. (2018). The Frontiers of Fairness in Machine Learning. https://arxiv.org/abs/1810.08810v1 Cirillo, D., Catuara-Solarz, S., Morey, C., Guney, E., Subirats, L., Mellino, S., … Mavridis, N. (2020). Sex and gender differences and biases in artificial intelligence for biomedicine and healthcare. Npj Digital Medicine, 3, 1–11. https://doi.org/10.1038/s41746-020-0288-5 Clements, F. E., Schenk, S. M., & Brown, T. K. (1926). A new objective method for showing special relationships. American Anthropologist, 28(4), 585–604. https://doi.org/10.1525/aa.1926.28.4.02a00010 Coello, C. a C., Lamont, G. B., & Veldhuizen, D. a Van. (2007). Evolutionary Algorithms for Solving Multi-Objective Problems. (2nd Edition). Springer. https://doi.org/10.1007/978-0-387-36797-2 Constitución Española. (1978). Constitución Española. https://app.congreso.es/consti/constitucion/indice/index.htm https://arxiv.org/abs/1905.03674v3 https://doi.org/10.1145/312129.312199 https://doi.org/10.1016/j.procs.2018.01.125 http://arxiv.org/abs/1802.05733 https://doi.org/10.1145/502512.502549 https://digitalcommons.pace.edu/dissertations/AAI3336169 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.352.6123 https://arxiv.org/abs/1810.08810v1 https://doi.org/10.1038/s41746-020-0288-5 https://doi.org/10.1525/aa.1926.28.4.02a00010 https://doi.org/10.1007/978-0-387-36797-2 https://app.congreso.es/consti/constitucion/indice/index.htm Bibliografía ~ 215 ~ Corbett-Davies, S., Pierson, E., Feller, A., Goel, S., & Huq, A. (2017). Algorithmic decision making and the cost of fairness. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Part F1296, 797–806. https://doi.org/10.1145/3097983.309809 Corbett-Davies, S., & Goel, S. (2018). The Measure and Mismeasure of Fairness: A Critical Review of Fair Machine Learning. https://arxiv.org/abs/1808.00023v2 Correll, S. J., & Benard, S. (2006). Gender and racial bias in hiring. Memorandum report for University of Pennsylvania. https://interviewer.ai/explainable-ai/ Courtland, R. (2018). Bias detectives: The researchers striving to make algorithms fair news-feature. Nature, 558(7710), 357–360. https://doi.org/10.1038/D41586-018- 05469-3 Cowgill, B., & Tucker, C. E. (2020). Algorithmic Fairness and Economics. SSRN Electronic Journal. https://doi.org/10.2139/SSRN.3361280 Craw, S. (2011). Manhattan Distance. Encyclopedia of Machine Learning, 639–639. https://doi.org/10.1007/978-0-387-30164-8_506 Cuadras, C. M. (1989). Distancias Estadísticas. Estadística española, 30(119), 295– 378. https://studylib.es/doc/5514841/distancias-estadísticas---instituto-nacional- de-estadistica. Cui, Y., Geng, Z., Zhu, Q., & Han, Y. (2017). Review: Multi-objective optimization methods and application in energy saving. Energy, Elsevier, 125(C), 681-704. https://ideas.repec.org/a/eee/energy/v125y2017icp681-704.html Deb K. (2012). Advances in Evolutionary Multi-objective Optimization. In: Fraser G., Teixeira de Souza J. (eds) Search Based Software Engineering.Lecture Notes in Computer Science, vol 7515, 1-26. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-33119-0_1 Delgado, R. (2018). Introducción a la Redes Neuronales Artificiales en R. RPubs by Rstudio. https://rpubs.com/rdelgado/402754 Demey, J. R., Pla, L., Vicente-Villardón, J. L., Di Rienzo, J., & Casanoves, F. (2011). Medidas de distancia y similitud. (Capítulo 5). Valoración y análisis de la diversidad funcional y su relación con los servicios ecosistémicos, 384, 47–59. Turrialba: CATIE. Costa Rica. Department of Justice USA. (1964). Title VI Of The Civil Rights Act Of 1964. https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos- civiles-de-1964-title-vi-civil-rights-act DeSarbo, W. S., Carroll, J. D., Clark, L. A., & Green, P. E. (1984). Synthesized clustering: A method for amalgamating alternative clustering bases with differential weighting of variables. Psychometrika, 49(1), 57–78. https://doi.org/10.1007/BF02294206 https://doi.org/10.1145/3097983.309809 https://arxiv.org/abs/1808.00023v2 https://interviewer.ai/explainable-ai/ https://doi.org/10.1038/D41586-018-05469-3 https://doi.org/10.1038/D41586-018-05469-3 https://doi.org/10.2139/SSRN.3361280 https://doi.org/10.1007/978-0-387-30164-8_506 https://studylib.es/doc/5514841/distancias-estad%C3%ADsticas---instituto-nacional-de-estadistica https://studylib.es/doc/5514841/distancias-estad%C3%ADsticas---instituto-nacional-de-estadistica https://ideas.repec.org/a/eee/energy/v125y2017icp681-704.html https://doi.org/10.1007/978-3-642-33119-0_1 https://rpubs.com/rdelgado/402754 https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos-civiles-de-1964-title-vi-civil-rights-act https://www.justice.gov/crt/sus-derechos-segun-el-titulo-vi-de-la-ley-de-derechos-civiles-de-1964-title-vi-civil-rights-act https://doi.org/10.1007/BF02294206 Bibliografía ~ 216 ~ De Soete, G. (1986). Optimal variable weighting for ultrametric and additive tree clustering. Quality and Quantity 1986 20:2, 20(2), 169–180. https://doi.org/10.1007/BF00227423 Dice, L.R. (1945) Measures of the Amount of Ecologic Association between Species. Ecological Society of America. Ecology, 26(3), 297-302. https://doi.org/10.2307/1932409 Dinh, D.T., & Huynh, V.N. (2020). k-PbC: an improved cluster center initialization for categorical data clustering. Applied Intelligence, 50(8), 2610–2632. https://doi.org/10.1007/s10489-020-01677-5 Dogan, N., & Dogan, I. (2010). Determination of the number of bins/classes used in histograms and frequency tables: a short bibliography. TurkStat, Journal of Statistical Research, 7(2), 77–86. Dom, B.E. (2012). An Information-Theoretic External Cluster-Validity Measure. http://arxiv.org/abs/1301.0565 Domnich, A., & Anbarjafari, G. (2021). Responsible AI: Gender bias assessment in emotion recognition. https://arxiv.org/abs/2103.11436v1 Dorman, K.S., & Maitra, R. (2020). An Efficient k-modes Algorithm for Clustering Categorical Datasets. http://arxiv.org/abs/2006.03936 Dressel, J., & Farid, H. (2018). The accuracy, fairness, and limits of predicting recidivism. Science Advances, 4(1), eaao5580. https://doi.org/10.1126/SCIADV.AAO5580 Driver, H.E., & Kroeber, A. L. (1932). Quantitative expression of cultural relationships. University of California Press. Publications in American Archaeology and Ethnology 31(4), 211-256. Dua, D., & Graff, C. (2019). UCI Machine Learning Repository. https://archive.ics.uci.edu/ml/citation_policy.html Duda, O., Hart, E., & Stork, D. G. (1973). Pattern Classification and scene analysis. New York: Wiley. Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. (2011). Fairness Through Awareness. Innovations in Theoretical Computer Science Conference, 214–226. https://arxiv.org/abs/1104.3913v2 Ehrgott, M., Figueira, J., & Greco, S. (2005). Multiple Criteria Decision Analysis. State of the Art Surveys. New York. Springer (78) https://doi.org/10.1007/b100605 El País. (2021). Algoritmos de predicción policial: para qué se usan y por qué se ensañan con los más pobres. Retrieved 27 July 2021, from Tecnología - Todonoticia: https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion- policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/ https://doi.org/10.1007/BF00227423 https://doi.org/10.2307/1932409 https://doi.org/10.1007/s10489-020-01677-5 http://arxiv.org/abs/1301.0565 https://arxiv.org/abs/2103.11436v1 http://arxiv.org/abs/2006.03936 https://doi.org/10.1126/SCIADV.AAO5580 https://archive.ics.uci.edu/ml/citation_policy.html https://arxiv.org/abs/1104.3913v2 https://doi.org/10.1007/b100605 https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion-policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/ https://www.todonoticia.cl/2021/07/21/algoritmos-de-prediccion-policial-para-que-se-usan-y-por-que-se-ensanan-con-los-mas-pobres-tecnologia/ Bibliografía ~ 217 ~ Emmerich, M.T. M., & Deutz, A. H. (2018). A tutorial on multiobjective optimization: fundamentals and evolutionary methods. Natural Computing, 17(3), 585–609. https://doi.org/10.1007/s11047-018-9685-y Esmaeili, S.A., Brubach, B., Tsepenekas, L., & Dickerson, J. P. (2020). Probabilistic Fair Clustering. http://arxiv.org/abs/2006.10916 Ester, M., Kriegel, H.P., Sander, S., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Miining (KDD-96), 226–231. Estivill-Castro, V., & Yang, J. (2004). Fast and robust general purpose clustering algorithms. Data Mining and Knowledge Discovery, 8(2), 127–150. https://doi.org/10.1023/B:DAMI.0000015869.08323.B3 European Union Agency. (2000). Artículo 21 - No discriminación | European Union Agency for Fundamental Rights. https://fra.europa.eu/es/eu-charter/article/21-no- discriminacion Everitt, B.S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster analysis. In Wiley series in probability and statistics. (5th Edition). John Wiley & Sons. https://doi.org/10.1002/9780470977811 Feldman, M., Friedler, S. A., Moeller, J., Scheidegger, C., & Venkatasubramanian, S. (2015). Certifying and removing disparate impact. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015-Augus, 259–268. https://doi.org/10.1145/2783258.2783311 Ferrero, R. (2020). Qué son los árboles de decisión y para qué sirven. Maxima Formación. https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de- decision-y-para-que-sirven/ Filiberto, Y., Bello, R., Nowe, A., Filiberto, Y., Bello, R., & Nowe, A. (2018). A New Method For Personnel Selection Based On Ranking Aggregation Using A Reinforcement Learning Approach. Computación y Sistemas, 22(2), 537–546. https://doi.org/10.13053/CYS-22-2-2353 Fisher, D.H. (1987). Knowledge acquisition via incremental conceptual clustering. Machine Learning 1987 2:2, 2(2), 139–172. https://doi.org/10.1007/BF00114265 Fleiss, J.L., Cohen, J., & Everitt, B. S. (1969). Large sample standard errors of kappa and weighted kappa. Psychological Bulletin, 72(5), 323–327. https://doi.org/10.1037/h0028106 Fleiss, J.L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382. https://doi.org/10.1037/h0031619 Fleiss, J.L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and Proportions. In Statistical Methods for Rates and Proportions. https://doi.org/10.1002/0471445428 https://doi.org/10.1007/s11047-018-9685-y http://arxiv.org/abs/2006.10916 https://doi.org/10.1023/B:DAMI.0000015869.08323.B3 https://fra.europa.eu/es/eu-charter/article/21-no-discriminacion https://fra.europa.eu/es/eu-charter/article/21-no-discriminacion https://doi.org/10.1002/9780470977811 https://doi.org/10.1145/2783258.2783311 https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-sirven/ https://www.maximaformacion.es/blog-dat/que-son-los-arboles-de-decision-y-para-que-sirven/ https://doi.org/10.13053/CYS-22-2-2353 https://doi.org/10.1007/BF00114265 https://doi.org/10.1037/h0028106 https://doi.org/10.1037/h0031619 https://doi.org/10.1002/0471445428 Bibliografía ~ 218 ~ Forgy, E.W. (1965). Cluster Analysis of multivariate data: Efficiency vs Interpretability of classification. Biometrics, 21, 768–780. Foss, A., Markatou, M., Ray, B., & Heching, A. (2016). A semiparametric method for clustering mixed data. Machine Learning, 105(3), 419–458. https://doi.org/10.1007/s10994-016-5575-7 Foss, A. & Markatou, M. (2018). Kamila : Clustering Mixed-Type Data in R and Hadoop. Journal of Statistical Software. 83. https://doi.org/10.18637/jss.v083.i13 Foss, A.H., Markatou, M., & Ray, B. (2019). Distance Metrics and Clustering Methods for Mixed‐type Data. International Statistical Review, 87(1), 80–109. https://doi.org/10.1111/insr.12274 Fowlkes, E B., & Mallows, C. L. (1983). A Method for Comparing Two Hierarchical Clusterings. Journal of the American Statistical Association, 78(383), 553. https://doi.org/10.2307/2288117 Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. The Computer Journal, 41(8), 578– 588. https://doi.org/10.1093/comjnl/41.8.578 Freedman, D., & Diaconis, P. (1981). On the histogram as a density estimator: L2 theory. Zeitschrift Für Wahrscheinlichkeitstheorie Und Verwandte Gebiete, 57(4), 453–476. https://doi.org/10.1007/BF01025868 Friedler, S. A., Scheidegger, C., Venkatasubramanian, S., Choudhary, S., Hamilton, E. P., & Roth, D. (2018). A comparative study of fairness-enhancing interventions in machine learning. FAT* 2019 - Proceedings of the 2019 Conference on Fairness, Accountability, and Transparency, 329–338. https://arxiv.org/abs/1802.04422v1 Frigui, H., & Krishnapuram, R. (1999). A robust competitive clustering algorithm with applications in computer vision. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(5), 450–465. https://doi.org/10.1109/34.765656 Fritz, H., García-Escudero, L. A., & Mayo-Iscar, A. (2012). Tclust: An R Package for a Trimming Approach to Cluster Analysis. Journal of Statistical Software, 47(12), 1– 26. https://doi.org/10.18637/JSS.V047.I12 Gallego, A.J., Calvo-Zaragoza, J., Valero-Mas, J. J., & Rico-Juan, J. R. (2018). Clustering-based k-nearest neighbor classification for large-scale data with neural codes representation. Pattern Recognition, 74, 531–543. https://doi.org/10.1016/j.patcog.2017.09.038 Gan, G., Yang, Z., & Wu, J. (2005). A Genetic k-Modes Algorithm for Clustering Categorical Data. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics): Vol. 3584 LNAI, 195–202. https://doi.org/10.1007/11527503_23 https://doi.org/10.1007/s10994-016-5575-7 https://doi.org/10.18637/jss.v083.i13 https://doi.org/10.1111/insr.12274 https://doi.org/10.2307/2288117 https://doi.org/10.1093/comjnl/41.8.578 https://doi.org/10.1007/BF01025868 https://arxiv.org/abs/1802.04422v1 https://doi.org/10.1109/34.765656 https://doi.org/10.18637/JSS.V047.I12 https://doi.org/10.1016/j.patcog.2017.09.038 https://doi.org/10.1007/11527503_23 Bibliografía ~ 219 ~ Garfinkel, P. (2016). A Linguist Who Cracks the Code in Names to Predict Ethnicity. Retrieved 27 July 2021, from The New York Times website, https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in- names-to-predict-ethnicity.html Ghadiri, M., Samadi, S., & Vempala, S. (2020). Socially Fair k-Means Clustering. FAccT 2021 - Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 438–448. https://doi.org/10.1145/3442188.3445906 Giacoumidis, E., Matin, A., Wei, J., Doran, N. J., Barry, L. P., & Wang, X. (2018). Blind Nonlinearity Equalization by Machine-Learning-Based Clustering for Single- and Multichannel Coherent Optical OFDM. Journal of Lightwave Technology, 36(3), 721–727. https://doi.org/10.1109/JLT.2017.2778883 Gibbons, J.D. (1973). A Question of Ethics. In Source: The American Statistician, 27(2), 72-76. Taylor & Francis, Ltd. https://doi.org/10.2307/2683960 Gillis, T., & Spiess, J. (2019). Big Data and Discrimination. University of Chicago Law Review, 86(2). https://chicagounbound.uchicago.edu/uclrev/vol86/iss2/4 Goldin, C., & Rouse, C. (2000). Orchestrating Impartiality: The Impact of “Blind” Auditions on Female Musicians. American Economic Review, 90(4), 715–741. https://doi.org/10.1257/AER.90.4.715 Gordon, A. (1999). Classification (2nd ed.). Boca Raton (Fla.); New York: Chapman & Hall. https://doi.org/10.1201/9780367805302 Gower, J.C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 27, 857–874. http://www.jstor.org/stable/2528823?seq=1#page_scan_tab_contents Gower, J.C., & Legendre, P. (1986). Metric and Euclidean Properties of Dissimilarity Coefficients. Journal of Classification, 3, 5–48. http://fitelson.org/coherence/gower_legendre.pdf Green, P.E., Frank, R.E., & Robinson, P.J. (1967). Cluster Analysis in Test Market Selection. Management Science, 13(8), B-387-B-400. https://doi.org/10.1287/MNSC.13.8.B387 Guha, S., Rastogi, R., & Shim, K. (2000). Rock: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 345–366. https://doi.org/10.1016/S0306-4379(00)00022-3 Guha, S., Rastogi, R., & Shim, K. (2001). Cure: an efficient clustering algorithm for large databases. Information Systems, 26(1), 35–58. https://doi.org/10.1016/S0306-4379(01)00008-4 Gustriansyah, R., Suhandi, N. & Antony, F. (2020). Clustering optimization in RFM analysis Based on k-Means. Indonesian Journal of Electrical Engineering and Computer Science, 18(1), 470-477. https://doi.org/10.11591/ijeecs.v18.i1.pp470- 477 https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in-names-to-predict-ethnicity.html https://www.nytimes.com/2016/10/16/jobs/a-linguist-who-cracks-the-code-in-names-to-predict-ethnicity.html https://doi.org/10.1145/3442188.3445906 https://doi.org/10.1109/JLT.2017.2778883 https://doi.org/10.2307/2683960 https://chicagounbound.uchicago.edu/uclrev/vol86/iss2/4 https://doi.org/10.1257/AER.90.4.715 https://doi.org/10.1201/9780367805302 http://www.jstor.org/stable/2528823?seq=1#page_scan_tab_contents http://fitelson.org/coherence/gower_legendre.pdf https://doi.org/10.1287/MNSC.13.8.B387 https://doi.org/10.1016/S0306-4379(00)00022-3 https://doi.org/10.1016/S0306-4379(01)00008-4 https://doi.org/10.11591/ijeecs.v18.i1.pp470-477 https://doi.org/10.11591/ijeecs.v18.i1.pp470-477 Bibliografía ~ 220 ~ Haimes, Y., & Li, D. (1989). Risk Management within a Hierarchical Multiobjective Framework. IFAC Proceedings Volumes, 22(10), 43–51. https://doi.org/10.1016/S1474-6670(17)53143-2 Halkidi, M., Batistakis, Y., & Vazirgiannis, M. (2001). On clustering validation techniques. Journal of Intelligent Information Systems, 17(2–3), 107–145. https://doi.org/10.1023/A:1012801612483 Hamerly, G., & Elkan, C. (2002). Alternatives to the k-means algorithm that find better clusterings. International Conference on Information and Knowledge Management, Proceedings, 600–607. https://doi.org/10.1145/584792.584890 Hamann, U. (1961). Merkmalsbestand und Verwandtschaftsbeziehungen der Farinosae. Ein Beitrag zum System der Monokotyledonen. Willdenowia 2: 639– 768. Botanischer Garten und Botanisches Museum, Berlin-Dahlem. Han, J., Kamber, M., & Pei, J. (2012). Data Mining (3rd edition). The Morgan Kaufmann Series in Data Management. https://doi.org/10.1016/C2009-0-61819-5 Handl J., & Knowles J. (2006) Multi-Objective Clustering and Cluster Validation. In: Jin Y. (eds) Multi-Objective Machine Learning. Studies in Computational Intelligence, vol 16. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-33019-4_2 Hardesty, L. (2018). Study finds gender and skin-type bias in commercial artificial- intelligence systems. Retrieved 27 July 2021, from Massachusetts Institute of Technology website: https://news.mit.edu/2018/study-finds-gender-skin-type-bias- artificial-intelligence-systems-0212 Hardt, M., Price, E., & Srebro, N. (2016). Equality of opportunity in supervised learning. Advances in Neural Information Processing Systems, 3323–3331. Retrieved from https://arxiv.org/abs/1610.02413v1 Harikumar, S., & Surya, P. V. (2015). K-Medoid Clustering for Heterogeneous Datasets. Procedia Computer Science, 70, 226–237. https://doi.org/10.1016/J.PROCS.2015.10.077 Haykin, S. (2009). Neural Networks and Learning Machines. (3rd edition) Prentice Hall. Pearson Education, Inc., Upper Saddle River, New Jersey Headden, W.P., McClosky, D., & Charniak, E. (2008). Evaluating unsupervised part-of- speech tagging for grammar induction. Coling 2008 - 22nd International Conference on Computational Linguistics, Proceedings of the Conference, 1, 329– 336. https://doi.org/10.3115/1599081.1599123 Hinneburg, A. & Keim, D. (1998) An Efficient Approach to Clustering in Large Multimedia Databases with Noise. Proceeding 4th International Conference on Knowledge Discovery & Data Mining, 58-65. https://doi.org/10.1016/S1474-6670(17)53143-2 https://doi.org/10.1023/A:1012801612483 https://doi.org/10.1145/584792.584890 https://doi.org/10.1016/C2009-0-61819-5 https://doi.org/10.1007/3-540-33019-4_2 https://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212 https://news.mit.edu/2018/study-finds-gender-skin-type-bias-artificial-intelligence-systems-0212 https://arxiv.org/abs/1610.02413v1 https://doi.org/10.1016/J.PROCS.2015.10.077 https://doi.org/10.3115/1599081.1599123 Bibliografía ~ 221 ~ Hitka, M., Lorincová, S., Ližbetinová, L., Bartáková, G. P., & Merková, M. (2017). Cluster Analysis Used as the Strategic Advantage of Human Resource Management in Small and Medium-sized Enterprises in the Wood-Processing Industry. BioResources, 12(4), 7884–7897. https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_ Cluster_Analysis_Strategic_Advantage Hoffmann, A.L., Roberts, S. T., Wolf, C. T., & Wood, S. (2018). Beyond fairness, accountability, and transparency in the ethics of algorithms: Contributions and perspectives from LIS. Proceedings of the Association for Information Science and Technology, 55(1), 694–696. https://doi.org/10.1002/PRA2.2018.14505501084 Holstein, K., Vaughan, J. W., Daumé III, H., Dudík, M., & Wallach, H. (2019). Improving fairness in machine learning systems: What do industry practitioners need?. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (CHI '19). Association for Computing Machinery, New York, NY, USA, Paper 600, 1–16. https://doi.org/10.1145/3290605.3300830 Hossain, S., Mladenovic, A., & Shah, N. (2020). Designing Fairly Fair Classifiers Via Economic Fairness Notions. The Web Conference 2020 - Proceedings of the World Wide Web Conference, 1559–1569. https://doi.org/10.1145/3366423.3380228 Hsu, C.C., & Chen, Y. C. (2007). Mining of mixed data with application to catalog marketing. Expert Systems with Applications, 32(1), 12–23. https://doi.org/10.1016/J.ESWA.2005.11.017 Hu, X. (1999). Multinomial processing tree models: An implementation. Behavior Research Methods, Instruments, & Computers 1999 31:4, 31(4), 689–695. https://doi.org/10.3758/BF03200747 Hu, X.B., Wang, M., Ye, T., & Shi, P. (2016). A New Method for Resource Allocation Optimization in Disaster Reduction and Risk Governance. International Journal of Disaster Risk Science; Heidelberg, 7(2), 138-150. https://doi.org/10.1007/s13753- 016-0089-2 Hu, Q., & Rangwala, H. (2020). Towards Fair Educational Data Mining: A Case Study on Detecting At-Risk Students. Proceedings of The 13th International Conference on Educational Data Mining Huang, Z. (1997a). Clustering large data sets with mixed numeric and categorical values. Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining, 21--34. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.9984 Huang, Z. (1997b). A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining. In Research Issues on Data Mining and Knowledge Discovery, 1--8. https://doi.org/10.1.1.6.4718 Huang, Z. (1998). Extensions to the k-means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2, 283–304. https://doi.org/10.1023/A:1009769707641 https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_Cluster_Analysis_Strategic_Advantage https://ojs.cnr.ncsu.edu/index.php/BioRes/article/view/BioRes_12_4_7884_Hitka_Cluster_Analysis_Strategic_Advantage https://doi.org/10.1002/PRA2.2018.14505501084 https://doi.org/10.1145/3290605.3300830 https://doi.org/10.1145/3366423.3380228 https://doi.org/10.1016/J.ESWA.2005.11.017 https://doi.org/10.3758/BF03200747 https://doi.org/10.1007/s13753-016-0089-2 https://doi.org/10.1007/s13753-016-0089-2 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.94.9984 https://doi.org/10.1.1.6.4718 https://doi.org/10.1023/A:1009769707641 Bibliografía ~ 222 ~ Huang, Z., & Ng, M.K. (1999). Title A fuzzy k-modes Algorithm for Clustering Categorical Data. IEEE Transactions on Fuzzy Systems, 7(4), 446–452. http://hdl.handle.net/10722/42992 Huang, J.Z., Ng, M.K., Hongqiang Rong, & Zichen Li. (2005). Automated variable weighting in k-means type clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(5), 657–668. https://doi.org/10.1109/TPAMI.2005.95 Huang, C.L., Chen, M.C., & Wang, C.J. (2007). Credit scoring with a data mining approach based on support vector machines. Expert Systems with Applications, 33(4), 847–856. https://doi.org/10.1016/J.ESWA.2006.07.007 Huang, J., Sun, H., Kang, J., Qi, J., Deng, H., & Song, Q. (2013). ESC: An efficient synchronization-based clustering algorithm. Knowledge-Based Systems, 40, 111– 122. https://doi.org/10.1016/j.knosys.2012.11.015 Hubalek, Z. (1982). Coefficients of association and similarity, based on binary (Presence-Absence) Data: an evaluation. Biological Reviews, 57(4), 669–689. https://doi.org/10.1111/j.1469-185X.1982.tb00376.x Hunt, L., & Jorgensen, M. (2011). Clustering mixed data. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1(4), 352–361. https://doi.org/10.1002/widm.33 Hyndman, R. J. (1995). The problem with Sturges’ rule for constructing histograms. Department of Econometrics and Business Statistics, Monash University, Clayton, Victoria, Australia. Ishikawa, K. (1986). Guide to quality control (2nd edition). Tokyo. White Plains N.Y. Asian Productivity Organization. https://doi.org/10.1002/qre.4680010318 Jaccard, P. (1908). Nouvelles Recherches Sur la Distribution Florale. Bull. Soc. Vaudoise Sci. Nat., 44, 223–270. https://doi.org/10.5169/seals-268384 Jackson, D. A., Somers, K.M., & Harvey, H.H. (1989). Similarity Coefficients: Measures of Co-Occurrence and Association or Simply Measures of Occurrence?. The American Naturalist, 133(3), 436–453. https://doi.org/10.1086/284927 Jain, A.K., & Dubes, R. (1980). Clustering Methodologies in Exploratory Data Analysis. Advances in Computers, 19(C), 113–228. https://doi.org/10.1016/S0065- 2458(08)60034-0 Jain, A.K., & Dubes, R.C. (1988). Algorithms for clustering data. (1st edition) Prentice- Hall, Inc., USA. Jain, A.K., Murty, M.N., & Flynn, P.J. (1999). Data clustering. ACM Computing Surveys, 31(3), 264–323. https://doi.org/10.1145/331499.331504 Jang, H.J., Kim, B., Kim, J., & Jung, S.Y. (2018). An Efficient Grid-Based K-Prototypes Algorithm for Sustainable Decision-Making on Spatial Objects. Sustainability 2018, Vol. 10, Page 2614, 10(8), 2614. https://doi.org/10.3390/SU10082614 http://hdl.handle.net/10722/42992 https://doi.org/10.1109/TPAMI.2005.95 https://doi.org/10.1016/J.ESWA.2006.07.007 https://doi.org/10.1016/j.knosys.2012.11.015 https://doi.org/10.1111/j.1469-185X.1982.tb00376.x https://doi.org/10.1002/widm.33 https://doi.org/10.1002/qre.4680010318 https://doi.org/10.5169/seals-268384 https://doi.org/10.1086/284927 https://doi.org/10.1016/S0065-2458(08)60034-0 https://doi.org/10.1016/S0065-2458(08)60034-0 https://doi.org/10.1145/331499.331504 https://doi.org/10.3390/SU10082614 Bibliografía ~ 223 ~ Ji, J., Pang, W., Zhou, C., Han, X., & Wang, Z. (2012). A fuzzy k-prototype clustering algorithm for mixed numeric and categorical data. Knowledge-Based Systems, 30, 129–135. https://doi.org/10.1016/j.knosys.2012.01.006 Ji, J., Bai, T., Zhou, C., Ma, C., & Wang, Z. (2013). An improved k-prototypes clustering algorithm for mixed numeric and categorical data. Neurocomputing, 120, 590–596. https://doi.org/10.1016/j.neucom.2013.04.011 Ji, J., Pang, W., Li, Z., He, F., Feng, G., & Zhao, X. (2020). Clustering Mixed Numeric and Categorical Data With Cuckoo Search. IEEE Access, 8, 30988–31003. https://doi.org/10.1109/ACCESS.2020.2973216 Jia, Z., & Song, L. (2020). Weighted k-Prototypes Clustering Algorithm Based on the Hybrid Dissimilarity Coefficient. Mathematical Problems in Engineering, 2020. https://doi.org/10.1155/2020/5143797 Jiang, H., Deng, Y., Chen, H.S., Tao, L., Sha, Q., Chen, J., … Zhang, S. (2004). Joint analysis of two microarray gene-expression data sets to select lung adenocarcinoma marker genes. BMC Bioinformatics, 5. https://doi.org/10.1186/1471-2105-5-81 Jiang, F., Liu, G., Du, J., & Sui, Y. (2016). Initialization of K-modes clustering using outlier detection techniques. Information Sciences, 332, 167–183. https://doi.org/10.1016/j.ins.2015.11.005 Jimenez, M. (2021). La UE establece líneas rojas a la inteligencia artificial: ¿Por qué, ¿cuáles son y a quién afectan?. https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_37875 1.html Jinyin, C., Huihao, H., Jungan, C., Shanqing, Y., & Zhaoxia, S. (2017). Fast Density Clustering Algorithm for Numerical Data and Categorical Data. Mathematical Problems in Engineering, 2017. https://doi.org/10.1155/2017/6393652 Kamiran, F., Žliobaitė, I., & Calders, T. (2013). Quantifying explainable discrimination and removing illegal discrimination in automated decision making. Knowledge and Information Systems, 35(3), 613–644. https://doi.org/10.1007/s10115-012-0584-8 Kamishima, T., Akaho, S., Asoh, H., & Sakuma, J. (2012). Fairness-Aware Classifier with Prejudice Remover Regularizer. In: Flach P.A., De Bie T., Cristianini N. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2012. Lecture Notes in Computer Science, vol 7524. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-33486-3_3 Kasa, N., Dahbura, A., Ravoori, C., & Adams, S. (2019). Improving credit card fraud detection by profiling and clustering accounts. Systems and Information Engineering Design Symposium, SIEDS 2019. https://doi.org/10.1109/SIEDS.2019.8735623 Kaufman, L., & Rousseeuw, P. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. (1st edition). New York. Wiley. https://doi.org/10.1016/j.knosys.2012.01.006 https://doi.org/10.1016/j.neucom.2013.04.011 https://doi.org/10.1109/ACCESS.2020.2973216 https://doi.org/10.1155/2020/5143797 https://doi.org/10.1186/1471-2105-5-81 https://doi.org/10.1016/j.ins.2015.11.005 https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_378751.html https://cincodias.elpais.com/cincodias/2021/04/21/companias/1619039734_378751.html https://doi.org/10.1155/2017/6393652 https://doi.org/10.1007/s10115-012-0584-8 https://doi.org/10.1007/978-3-642-33486-3_3 https://doi.org/10.1109/SIEDS.2019.8735623 Bibliografía ~ 224 ~ Khan, S.S., & Ahmad, A. (2004). Cluster center initialization algorithm for K-means clustering. Pattern Recognition Letters, 25(11), 1293–1302. https://doi.org/10.1016/j.patrec.2004.04.007 Khan, S.S., & Ahmad, A. (2012). Cluster Center Initialization for Categorical Data Using Multiple Attribute Clustering. SDM, 3–10. http://www.dbs.ifi.lmu.de/research/MultiClust2012/ Khan, S.S., & Ahmad, A. (2013). Cluster center initialization algorithm for K-modes clustering. Expert Systems with Applications, 40(18), 7444–7456. https://doi.org/10.1016/j.eswa.2013.07.002 Khan, S.S., & Ahmad, A. (2015). Computing Initial points using Density Based Multiscale Data Condensation for Clustering Categorical data. 2nd International Conference on Applied Artificial Intelligence, ICCAI. Kim, B. (2017). A Fast K-prototypes Algorithm Using Partial Distance Computation. Symmetry 2017, Vol. 9, Page 58, 9(4), 58. https://doi.org/10.3390/SYM9040058 King, B. (1967). Step-wise Clustering Procedures. Journal of the American Statistical Association, 62(317), 86–101. https://doi.org/10.1080/01621459.1967.10482890 King, R.S. (2015). Cluster Analysis and Data Mining: An Introduction. Mercury Learning & Information Stylus Publishing. LLC. https://1lib.eu/book/3649097/9adf90 Kleinberg, J., Mullainathan, S., & Raghavan, M. (2016). Inherent Trade-Offs in the Fair Determination of Risk Scores. Leibniz International Proceedings in Informatics, LIPIcs, 67. https://arxiv.org/abs/1609.05807v2 Kleinberg, J., Lakkaraju, H., Leskovec, J., Ludwig, J., & Mullainathan, S. (2017). Human Decisions and Machine Predictions*. The Quarterly Journal of Economics, 133(1), 237–293. https://doi.org/10.1093/qje/qjx032 Kleindessner, M., Awasthi, P., & Morgenstern, J. (2019). Fair k-Center Clustering for Data Summarization. 36th International Conference on Machine Learning, 5984– 6003. https://arxiv.org/abs/1901.08628v2 Knor, E.M., & Ng, R.T. (1998). Algorithms for Mining Distance-Based Outliers in Large datasets. Deutsche Medizinische Wochenschrift, 17(49), 1341–1342. https://doi.org/10.1055/s-0029-1206900 Knuth, K.H. (2006). Optimal Data-Based Binning for Histograms. https://arxiv.org/abs/physics/0605197 Köchling, A., & Wehner, M.C. (2020). Discriminated by an algorithm: a systematic review of discrimination and fairness by algorithmic decision-making in the context of HR recruitment and HR development. Business Research, 13(3), 795–848. https://doi.org/10.1007/S40685-020-00134-W Kohonen, T. (1998). The self-organizing map. Neurocomputing, 21(1–3), 1–6. https://doi.org/10.1016/S0925-2312(98)00030-7 https://doi.org/10.1016/j.patrec.2004.04.007 http://www.dbs.ifi.lmu.de/research/MultiClust2012/ https://doi.org/10.1016/j.eswa.2013.07.002 https://doi.org/10.3390/SYM9040058 https://doi.org/10.1080/01621459.1967.10482890 https://1lib.eu/book/3649097/9adf90 https://arxiv.org/abs/1609.05807v2 https://doi.org/10.1093/qje/qjx032 https://arxiv.org/abs/1901.08628v2 https://doi.org/10.1055/s-0029-1206900 https://arxiv.org/abs/physics/0605197 https://doi.org/10.1007/S40685-020-00134-W https://doi.org/10.1016/S0925-2312(98)00030-7 Bibliografía ~ 225 ~ Kolodner, J.L. (1983). Reconstructive memory: A computer model. Cognitive Science, 7(4), 281–328. https://doi.org/10.1016/S0364-0213(83)80002-0 Kondo, Y., Salibian-Barrera, M., & Zamar, R. (2016). RSKC: An R package for a robust and sparse k-means clustering algorithm. Journal of Statistical Software, 72. https://doi.org/10.18637/JSS.V072.I05 Kromrey, J.D. (1993). Ethics and Data Analysis. Educational Researcher, 22(4), 24. https://doi.org/10.2307/1177102 Krzanowski, W.J. (1983). Distance Between Populations Using Mixed Continuous and Categorical Variables. Biometrika, 70(1), 235. https://doi.org/10.2307/2335961 Kullback, S., & Leibler, R.A. (1951). On Information and Sufficiency. The Annals of Mathematical Statistics, 22(1), 79–86. https://doi.org/10.1214/aoms/1177729694 Kumar, A., Bilker, W., Jin, Z., Udupa, J., & Gottlieb, G. (1999). Age of onset of depression and quantitative neuroanatomic measures: absence of specific correlates. Psychiatry Research: Neuroimaging, 91(2), 101–110. https://doi.org/10.1016/S0925-4927(99)00021-9 Lance, G.N., & Williams, W.T. (1966). Computer Programs for Hierarchical Polythetic Classification. The Computer Journal, 9(1), 60–64. https://doi.org/10.1093/COMJNL/9.1.60 Larson, H.J. (1982). Introduction to probability theory and statistical inference (3rd edition). New York. Wiley and Sons. Law, M. H.C., Topchy, A.P., & Jain, A.K. (2004). Multiobjective data clustering. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 424–430. https://doi.org/10.1109/CVPR.2004.1315194 Learn by Marketing. (2021). Clustering – What it is and How it Works. https://www.learnbymarketing.com/methods/k-means-clustering/ Leavy, S. (2018). Gender bias in artificial intelligence: The need for diversity and gender theory in machine learning. Proceedings - International Conference on Software Engineering, 14–16. https://doi.org/10.1145/3195570.3195580 Lee, M.K. (2018). Understanding perception of algorithmic decisions: Fairness, trust, and emotion in response to algorithmic management, 5(1) https://doi.org/10.1177/2053951718756684 Legendre, L., & Legendre, P. (1979). Ecologie Numerique. Paris: Masson, 66(5), 775- 776, https://doi.org/10.1002/iroh.19810660515 Leung, Y., Zhang, J.S., & Xu, Z. Ben. (2000). Clustering by scale-space filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12), 1396–1410. https://doi.org/10.1109/34.895974 https://doi.org/10.1016/S0364-0213(83)80002-0 https://doi.org/10.18637/JSS.V072.I05 https://doi.org/10.2307/1177102 https://doi.org/10.2307/2335961 https://doi.org/10.1214/aoms/1177729694 https://doi.org/10.1016/S0925-4927(99)00021-9 https://doi.org/10.1093/COMJNL/9.1.60 https://doi.org/10.1109/CVPR.2004.1315194 https://www.learnbymarketing.com/methods/k-means-clustering/ https://doi.org/10.1145/3195570.3195580 https://doi.org/10.1177/2053951718756684 https://doi.org/10.1002/iroh.19810660515 https://doi.org/10.1109/34.895974 Bibliografía ~ 226 ~ Li, C., & Biswas, G. (2002). Unsupervised learning with mixed numeric and nominal data. IEEE Transactions on Knowledge and Data Engineering, 14(4), 673–690. https://doi.org/10.1109/TKDE.2002.1019208 Li, C.S. (2011). Cluster Center Initialization Method for K-means Algorithm Over Data Sets with Two Clusters. Procedia Engineering, 24, 324–328. https://doi.org/10.1016/j.proeng.2011.11.2650 Liu, X., Yang, Q., & He, L. (2017). A novel DBSCAN with entropy and probability for mixed data. Cluster Computing, 20(2), 1313–1323. https://doi.org/10.1007/s10586-017-0818-3 Lloyd, S.P. (1982). Least Squares Quantization in PCM. IEEE Transactions on Information Theory, 28(2), 129–137. https://doi.org/10.1109/TIT.1982.1056489 Lohaka, H.O. (2007). Making a grouped data frequency table: Development and examination of the iteration algorithm. OhioLINK Electronic Theses and Dissertations Center. http://rave.ohiolink.edu/etdc/view?acc_num=ohiou1194981215 Looman, J., & Campbell, J.B. (1960). Adaptation of Sorensen’s K (1948) for Estimating Unit Affinities in Prairie Vegetation. Ecology, 41(3), 409–416. https://doi.org/10.2307/1933315 Lourenço, F.C., Lobo, V., & Bação, F., (2004). Binary-based similarity measures for categorical data and their application in Self- Organizing Maps. JOCLAD 2004-XI Jornadas de Classificacao e Anlise de Dados, Lisbon. Lu, Y., Phillips, C.A., & Langston, M.A. (2019). A robustness metric for biological data clustering algorithms. BMC Bioinformatics 2019 20:15, 20(15), 1–8. https://doi.org/10.1186/S12859-019-3089-6 Luong, B.T., Ruggieri, S., & Turini, F. (2011). k-NN as an Implementation of Situation Testing for Discrimination Discovery and Prevention. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD ’11. New York, 502–510, San Diego, California, USA. https://doi.org/10.1145/2020408.2020488 Maddila, S., Ramasubbareddy, S., & Govinda, K. (2020). Crime and Fraud Detection Using Clustering Techniques. In Lecture Notes in Networks and Systems (Vol. 103, pp. 135–143). https://doi.org/10.1007/978-981-15-2043-3_17 Makarenkov, V., & Legendre, P. (2001). Optimal variable weighting for ultrametric and additive trees and K-means partitioning: Methods and software. Journal of Classification, 18(2), 245–271. https://doi.org/10.1007/s00357-001-0018-x Makhabel, B. (2015). Learning Data mining with R. In Packt Publishing. https://doi.org/10.1017/CBO9781107415324.004 Mancuhan, K., & Clifton, C. (2014). Combating discrimination using Bayesian networks. Artificial Intelligence and Law, 22(2), 211–238. https://doi.org/10.1007/S10506- 014-9156-4 https://doi.org/10.1109/TKDE.2002.1019208 https://doi.org/10.1016/j.proeng.2011.11.2650 https://doi.org/10.1007/s10586-017-0818-3 https://doi.org/10.1109/TIT.1982.1056489 http://rave.ohiolink.edu/etdc/view?acc_num=ohiou1194981215 https://doi.org/10.2307/1933315 https://doi.org/10.1186/S12859-019-3089-6 https://doi.org/10.1145/2020408.2020488 https://doi.org/10.1007/978-981-15-2043-3_17 https://doi.org/10.1007/s00357-001-0018-x https://doi.org/10.1017/CBO9781107415324.004 https://doi.org/10.1007/S10506-014-9156-4 https://doi.org/10.1007/S10506-014-9156-4 Bibliografía ~ 227 ~ Martínez Ortega, R.M., Tuya Pendás, L.C., Martínez Ortega, M., Pérez Abreu, A., & Cánovas, A.M. (2009). El coeficiente de correlación de rangos de Spearman. Revista Habanera de Ciencias Médicas, 3(2). http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017 McParland, D., & Gormley, I.C. (2015). Model Based Clustering for Mixed Data: clustMD. Advances in Data Analysis and Classification, 10(2), 155–169. https://arxiv.org/abs/1511.01720v1 McQueen, J.B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297. Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., & Galstyan, A. (2019). A Survey on Bias and Fairness in Machine Learning. https://arxiv.org/abs/1908.09635v2 Meilâ, M., & Heckerman, D. (2001). An Experimental Comparison of Model-Based Clustering Methods. Machine Learning, pp. 9–29. https://doi.org/https://doi.org/10.1023/A:1007648401407 Meilă, M. (2007). Comparing clusterings—an information based distance. Journal of Multivariate Analysis, 98(5), 873–895. https://doi.org/10.1016/j.jmva.2006.11.013 Merriam-Webster. (2018). Cluster Analysis definition. https://www.merriam- webster.com/dictionary/cluster%20analysis Micha, E., & Shah, N. (2020). Proportionally Fair Clustering Revisited. 47th International Colloquium on Automata, Languages, and Programming. Schloss Dagstuhl. Germany, 168. https://doi.org/10.4230/LIPICS.ICALP.2020.85 Michalski, R.S., & Stepp, R.E. (1983). Automated Construction of Classifications: Conceptual Clustering Versus Numerical Taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-5(4), 396–410. https://doi.org/10.1109/TPAMI.1983.4767409 Milligan, G.W. (1996). Clustering validation: Results and implications for applied analyses. In Clustering and Classification (pp. 341–375). https://doi.org/10.1142/9789812832153_0010 Milligan, G.W., & Cooper, M.C. (1987). Methodology review: Clustering methods. Applied Psychological Measurement, 11(4), 329–354. https://doi.org/10.1177/014662168701100401 Mitra, P., Murthy, C.A., & Pal, S.K. (2002). Density-based multiscale data condensation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(6), 734–747. https://doi.org/10.1109/TPAMI.2002.1008381 Mittelstadt, B.D., Allo, P., Taddeo, M., Wachter, S., & Floridi, L. (2016). The ethics of algorithms: Mapping the debate. Big Data & Society, 3(2), 205395171667967. https://doi.org/10.1177/2053951716679679 http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017 https://arxiv.org/abs/1511.01720v1 https://arxiv.org/abs/1908.09635v2 https://doi.org/https:/doi.org/10.1023/A:1007648401407 https://doi.org/10.1016/j.jmva.2006.11.013 https://www.merriam-webster.com/dictionary/cluster%20analysis https://www.merriam-webster.com/dictionary/cluster%20analysis https://doi.org/10.4230/LIPICS.ICALP.2020.85 https://doi.org/10.1109/TPAMI.1983.4767409 https://doi.org/10.1142/9789812832153_0010 https://doi.org/10.1177/014662168701100401 https://doi.org/10.1109/TPAMI.2002.1008381 https://doi.org/10.1177/2053951716679679 Bibliografía ~ 228 ~ Monasterio A, A. (2017). Algorithmic Ethics: Ethical implications of a society increasingly governed by Algorithms. Dilemata, pp. 185–217. https://www.docsity.com/es/etica-algoritmica-2020/7516664/ Mousa, A. A., El-Shorbagy, M.A., & Farag, M.A. (2017). K-means-Clustering Based Evolutionary Algorithm for Multi-objective Resource Allocation Problems. Applied Mathematics & Information Sciences, 11(6), 1681–1692, https://doi.org/10.18576/amis/110615 Mousa, A. A., Higazy, M., & Abo-Elnaga, Y. (2018). K-means cluster algorithm-based evolutionary approach for constrained multi-objective optimization. International Journal of Applied Engineering Research, 13(6), 3789–3809. http://www.ripublication.com Murtagh, F. (1983). A survey of recent advances in hierarchical clustering algorithms. Computer Journal, 26(4), 354–359. https://doi.org/10.1093/comjnl/26.4.354 Murtagh, F. (1984). Complexities of hierarchic clustering algorithms: State of the art Statistical Classification View project Reports on Interesting Developments in Astronomy View project. Computational Statistics Quarterly, 1(2), 101–113. https://www.researchgate.net/publication/238655641 Narayanan, A. (2019). 21 fairness definition and their politics. ACM FAT (Fairness, Accountability and Transparency) Conference, https://shubhamjain0594.github.io/post/tlds-arvind-fairness-definitions/ Neyman, J. (1967). A Selection of Early Statistical Papers of J. Neyman. In A Selection of Early Statistical Papers of J. Neyman. https://doi.org/10.1525/9780520327016 Ng, M.K., & Wong, J.C. (2002). Clustering categorical data sets using tabu search techniques. Pattern Recognition, 35(12), 2783–2790. https://doi.org/10.1016/S0031-3203(02)00021-3 Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447–453. https://doi.org/10.1126/SCIENCE.AAX2342 Ochiai, A. (1957). Zoogeographic studies on the soleoid fishes found in Japan and its neighbouring regions. Bull Jnp Soc Sci Fish, 22, 526–530. Omran, M.G.H., Engelbrecht, A.P., & Salman, A. (2007). An overview of clustering methods. Intelligent Data Analysis, 11(6), 583–605. https://doi.org/10.3233/IDA- 2007-11602 O’Reilly-Shah, V.N., Gentry, K. R., Walters, A.M., Zivot, J., Anderson, C.T., & Tighe, P.J. (2020). Bias and ethical considerations in machine learning and the automation of perioperative risk assessment. British Journal of Anaesthesia, 125(6), 843–846. https://doi.org/10.1016/J.BJA.2020.07.040 Patel, A. (2019). Neural Networks in Classification & Clustering. https://medium.com/@adeet.patel/neural-networks-in-classification-clustering- 606342ecf20e https://www.docsity.com/es/etica-algoritmica-2020/7516664/ https://doi.org/10.18576/amis/110615 http://www.ripublication.com/ https://doi.org/10.1093/comjnl/26.4.354 https://www.researchgate.net/publication/238655641 https://shubhamjain0594.github.io/post/tlds-arvind-fairness-definitions/ https://doi.org/10.1525/9780520327016 https://doi.org/10.1016/S0031-3203(02)00021-3 https://doi.org/10.1126/SCIENCE.AAX2342 https://doi.org/10.3233/IDA-2007-11602 https://doi.org/10.3233/IDA-2007-11602 https://doi.org/10.1016/J.BJA.2020.07.040 https://medium.com/@adeet.patel/neural-networks-in-classification-clustering-606342ecf20e https://medium.com/@adeet.patel/neural-networks-in-classification-clustering-606342ecf20e Bibliografía ~ 229 ~ Pearson, K. (1926). On the coefficient of racial likeness. Biometrika, 18(1/2), 105-117. https://doi.org/10.2307/2332498 Pedreshi, D., Ruggieri, S., & Turini, F. (2008). Discrimination-aware data mining. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 560–568. https://doi.org/10.1145/1401890.1401959 Pessach, D., & Shmueli, E. (2020). Algorithmic Fairness. AEA Papers and Proceedings, 108, 22–27. https://arxiv.org/abs/2001.09784v1 Peterson, P.N., Rumsfeld, J.S., Liang, L., Albert, N.M., Hernandez, A.F., Peterson, E.D., … Masoudi, F.A. (2010). A Validated Risk Score for In-Hospital Mortality in Patients With Heart Failure From the American Heart Association Get With the Guidelines Program. Circulation: Cardiovascular Quality and Outcomes, 3(1), 25– 32. https://doi.org/10.1161/CIRCOUTCOMES.109.854877 Pietrzykowski, M. (2017). Local regression algorithms based on centroid clustering methods. Procedia Computer Science, 112, 2363–2371. https://doi.org/10.1016/J.PROCS.2017.08.210 Plane, D., & Oppermann, E.B. (1981). Business and economic statistics. Plano, Tex.: Business Publications; Irwin-Dorsey. Podani, J. (1999). Extending Gower’s general coefficient of similarity to ordinal characters. Taxon, 48(2), 331–340. https://doi.org/10.2307/1224438 Polamuri, S. (2017). How the random forest algorithm works in machine learning. Retrieved 14 August 2021, from Dataaspirant website: https://dataaspirant.com/random-forest-algorithm-machine-learing/ Pombo, C. (2020). Cuando los algoritmos de los servicios sociales se olvidan de las mujeres. Digital Future Society website. https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios- sociales-olvidan-a-las-mujeres/ Porter, M.E. (1990). The Competitive Advantage of Nations. Harvard Business Review, 68(2), 73-93. https://hbr.org/1990/03/the-competitive-advantage-of-nations Porter, M.E. (1998). Clusters and the New Economics of Competition. Harvard Business Review, 76(6), 77-90. https://hbr.org/1998/11/clusters-and-the-new- economics-of-competition Prakash, K., Anuradha, K., & Vasumathi, D. (2016). A survey on clustering techniques for multi-valued data sets. Global Journal of Computer Science and Technology: C Software & Data Engineering, 16(1), 43-50. https://www.computerresearch.org/index.php/computer/article/download/1463/145 0 Quinlan, J.R. (1986). Induction of decision trees. Machine Learning 1986 1:1, 1(1), 81– 106. https://doi.org/10.1007/BF00116251 https://doi.org/10.2307/2332498 https://doi.org/10.1145/1401890.1401959 https://arxiv.org/abs/2001.09784v1 https://doi.org/10.1161/CIRCOUTCOMES.109.854877 https://doi.org/10.1016/J.PROCS.2017.08.210 https://doi.org/10.2307/1224438 https://dataaspirant.com/random-forest-algorithm-machine-learing/ https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios-sociales-olvidan-a-las-mujeres/ https://digitalfuturesociety.com/es/qanda/cuando-los-algoritmos-de-servicios-sociales-olvidan-a-las-mujeres/ https://hbr.org/1990/03/the-competitive-advantage-of-nations https://hbr.org/1998/11/clusters-and-the-new-economics-of-competition https://hbr.org/1998/11/clusters-and-the-new-economics-of-competition https://www.computerresearch.org/index.php/computer/article/download/1463/1450 https://www.computerresearch.org/index.php/computer/article/download/1463/1450 https://doi.org/10.1007/BF00116251 Bibliografía ~ 230 ~ R Core Team. (2018). A Language and Environment for Statistical Computing. 2, undefined-undefined. https://www.mendeley.com/catalogue/e58715b9-2290-3098- 82dd- 6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open _catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D Radmehr, F., & Alamolhodaei, H. (2014). Who Should be Interviewed? A Response from Cluster Analysis, 2 (2) :117-126. http://jpcp.uswr.ac.ir/article-1-176-en.html Rawls, J. (2001). Justice as Fairness (Erin I. Kelly, Ed.). https://www.hup.harvard.edu/catalog.php?isbn=9780674005112 Reichart, R., & Rappoport, A. (2009). The NVI Clustering Evaluation Measure. https://doi.org/10.5555/1596374 Rezaee, M.R., Lelieveldt, B.P.F., & Reiber, J.H.C. (1998). A new cluster validity index for the fuzzy c-mean. Pattern Recognition Letters, 19(3), 237–246. https://doi.org/10.1016/S0167-8655(97)00168-2 Rixin, W., Xuebing, G., Minqiang, X., & Yuqing, L. (2015). Fault detection of flywheel system based on clustering and principal component analysis. Chinese Journal of Aeronautics, 28(6), 1676–1688. https://doi.org/10.1016/j.cja.2015.10.003 Robb, A., & Robinson, D.T. (2018). Testing for racial bias in business credit scores. Small Business Economics 2017 50:3, 50(3), 429–443. https://doi.org/10.1007/S11187-017-9878-2 Rogers, D.J., & Tanimoto, T. (1960). A computer program for classifing plants. Science, 132, 1115–1118. https://doi.org/10.1126/science.132.3434.1115 Rokach, L., & Maimon, O. (2006). Clustering Methods. In Data Mining and Knowledge Discovery Handbook, 321–352. https://doi.org/10.1007/0-387-25465-X_15 Romei, A., & Ruggieri, S. (2013). A multidisciplinary survey on discrimination analysis. Knowledge Engineering Review, 29(5), 582–638. https://doi.org/10.1017/S0269888913000039 Rosenberg, A., & Hirschberg, J. (2007). V-Measure: A conditional entropy-based external cluster evaluation measure. https://doi.org/10.7916/D80V8N84 Ross, W.D. (1995). Aristotle. (Sixth edition). New York: Routledge. Rudemo, M. (1982). Empirical Choice of Histograms and Kernel Density Estimators. Scandinavian Journal of Statistics, 9(2), 65-78. Russell, P.F., & Rao, T.R. (1940). On habitat and association of species of anopheline larvae in south-eastern Madras. Journal of the Malaria Institute of India, 3(1), 153– 178. Ruth, T. (2019). Equity vs. Equality: What’s the Difference? | Online Public Health. https://onlinepublichealth.gwu.edu/resources/equity-vs-equality/ https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D https://www.mendeley.com/catalogue/e58715b9-2290-3098-82dd-6a3e87221f63/?utm_source=desktop&utm_medium=1.19.8&utm_campaign=open_catalog&userDocumentId=%7B2665c2ba-1107-3e73-bbfa-d420663eabb2%7D http://jpcp.uswr.ac.ir/article-1-176-en.html https://www.hup.harvard.edu/catalog.php?isbn=9780674005112 https://doi.org/10.5555/1596374 https://doi.org/10.1016/S0167-8655(97)00168-2 https://doi.org/10.1016/j.cja.2015.10.003 https://doi.org/10.1007/S11187-017-9878-2 https://doi.org/10.1126/science.132.3434.1115 https://doi.org/10.1007/0-387-25465-X_15 https://doi.org/10.1017/S0269888913000039 https://doi.org/10.7916/D80V8N84 https://onlinepublichealth.gwu.edu/resources/equity-vs-equality/ Bibliografía ~ 231 ~ Sajidha, S.A., Desikan, K., & Chodnekar, S.P. (2020). Initial Seed Selection for Mixed Data Using Modified K-means Clustering Algorithm. Arabian Journal for Science and Engineering, 45(4), 2685–2703. https://doi.org/10.1007/s13369-019-04121-0 Sanchez-Monedero, J., Dencik, L., & Edwards, L. (2019). What does it mean to solve the problem of discrimination in hiring? Social, technical and legal perspectives from the UK on automated hiring systems. FAT* 2020 - Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 458–468. https://arxiv.org/abs/1910.06144v2 Sandvig, C., Hamilton, K., Karahalios, K., & Langbort, C. (2016). When the algorithm itself is a racist: Diagnosing ethical harm in the basic Components of Software. International Journal of Communication, 10, 4972–4990. https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist- diagnosing-ethical-harm-in- Sankaran, P.G., Sunoj, S.M., & Nair, N.U. (2016). Kullback-Leibler divergence: A quantile approach. Statistics and Probability Letters, 111, 72–79. https://doi.org/10.1016/j.spl.2016.01.007 Santos-M., C., & J. Heras, A. (2020). A Multicluster Approach to Selecting Initial Sets for Clustering of Categorical Data. Interdisciplinary Journal of Information, Knowledge, and Management, 15, 227–246. https://doi.org/10.28945/4643 Santos-M., C., & J. Heras, A. (2021). A Fair-Multicluster Approach to Clustering of Categorical Data. Central European Journal of Operations Research. Under 2nd revision (Anexo 2 de la presente Tesis Doctoral) Saxena, A., Prasad, M., Gupta, A., Bharill, N., Patel, O. P., Tiwari, A., … Lin, C.T. (2017). A review of clustering techniques and developments. Neurocomputing, 267, 664–681. https://doi.org/10.1016/j.neucom.2017.06.053 Schmidt, M., Schwiegelshohn, C., & Sohler, C. (2018). Fair Coresets and Streaming Algorithms for Fair k-Means Clustering. https://arxiv.org/abs/1812.10854v4 Scott, D.W. (1979). On optimal and data-based histogram. Source: Biometrika, 66(3), 605–610. https://doi.org/10.1093/biomet/66.3.605 Seca, D., Mendes-Moreira, J., Mendes-Neves, T., & Sousa, R. (2020). Hierarchical Qualitative Clustering: clustering mixed datasets with critical qualitative information. https://arxiv.org/abs/2006.16701v3 Selbst, A.D., Boyd, D., Friedler, S.A., Venkatasubramanian, S., & Vertesi, J. (2019). Fairness and Abstraction in Sociotechnical Systems. Proceedings of the Conference on Fairness, Accountability, and Transparency, 59–68. https://doi.org/10.1145/3287560.3287598 Selosse, M., Jacques, J., & Biernacki, C. (2020). Model-based co-clustering for mixed type data. Computational Statistics and Data Analysis, 144, 106866. https://doi.org/10.1016/j.csda.2019.106866 https://doi.org/10.1007/s13369-019-04121-0 https://arxiv.org/abs/1910.06144v2 https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist-diagnosing-ethical-harm-in- https://experts.illinois.edu/en/publications/when-the-algorithm-itself-is-a-racist-diagnosing-ethical-harm-in- https://doi.org/10.1016/j.spl.2016.01.007 https://doi.org/10.28945/4643 https://doi.org/10.1016/j.neucom.2017.06.053 https://arxiv.org/abs/1812.10854v4 https://doi.org/10.1093/biomet/66.3.605 https://arxiv.org/abs/2006.16701v3 https://doi.org/10.1145/3287560.3287598 https://doi.org/10.1016/j.csda.2019.106866 Bibliografía ~ 232 ~ Sheikholeslami, G., Surojit C. & Zhang, A. (1998). WaveCluster: A Multi-Resolution Clustering Approach for Very Large Spatial Databases. In Proceedings of the 24rd International Conference on Very Large Data Bases (VLDB '98). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 428–439. https://dl.acm.org/doi/10.5555/645924.671342 Sheikholeslami, G., Surojit C. & Zhang A. (2000). WaveCluster: a wavelet-based clustering approach for spatial data in very large databases. The VLDB Journal — The International Journal on Very Large Data Bases, 8(3–4), 289–304. https://doi.org/10.1007/S007780050009 Shin, D., & Park, Y. J. (2019). Role of fairness, accountability, and transparency in algorithmic affordance. Computers in Human Behavior, 98, 277–284. https://doi.org/10.1016/J.CHB.2019.04.019 Sibson, R., & Hartigan, J.A. (1976). Clustering Algorithms. Applied Statistics, 25(1), 70. https://doi.org/10.2307/2346526 Sneath, P.H.A. & Sokal, R.R. (1973) Numerical Taxonomy: The Principles and Practice of Numerical Classification. WF Freeman & Co., San Francisco. Snow, C.P. (1961). The Moral Un-Neutrality of Science. Science, 133, 255–262. https://doi.org/10.1126/science.133.3448.255 Sokal, R., & Michener, C.D. (1958). A statistical method for evaluating systematic relationships. University of Kansas Science Bulletin, 38, 1409-1438. Sokal, R., & Sneath, P. (1963). Principles of numerical taxonomy. San Francisco (USA): Freeman W.H. and Co. Sokal, R., & Gordon, A.D. (1983). Classification: Methods for the Exploratory Analysis of Multivariate Data. Journal of the American Statistical Association, 78(382), 508. https://doi.org/10.2307/2288692 Sorensen, T. (1948). A method of establishing groups of equal amplitude in plant sociology based on similarity of species content, and its application to analyses of the vegetation on Danish commons. In Biological SKR (Vol. 5). https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf- 8f9adfc3f6f8 Sosnovshchenko, A. (2018). Machine learning with Swift : artificial intelligence for iOS. Packt Publishing. Sparck Jones, K. (1965). Experiments in Semantic Classification. In Mechanical Translation and Computational Linguistics, 8(3-4), 97-112. Sparck Jones, K. & Barber E., (1971). What Makes An Automatic Keyword Classification Effective?. Journal of the American Society for Information Science, 22(3), 166-175. https://doi.org/10.1002/asi.4630220305 https://dl.acm.org/doi/10.5555/645924.671342 https://doi.org/10.1007/S007780050009 https://doi.org/10.1016/J.CHB.2019.04.019 https://doi.org/10.2307/2346526 https://doi.org/10.1126/science.133.3448.255 https://doi.org/10.2307/2288692 https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf-8f9adfc3f6f8 https://www.scienceopen.com/document?vid=ac65af9e-a444-4bc5-97bf-8f9adfc3f6f8 https://doi.org/10.1002/asi.4630220305 Bibliografía ~ 233 ~ Sparck Jones, K. (1986). Synonymy and Semantic Classification, Ph.D. thesis, University of Cambridge, Edinburgh: Edinburgh University Press. https://dl.acm.org/doi/book/10.5555/22908 Speicher, T., Heidari, H., Grgic-Hlaca, N., Gummadi, K.P., Singla, A., Weller, A., & Zafar, M.B. (2018). A unified approach to quantifying algorithmic unfairness: Measuring individual & group unfairness via inequality indices. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 10, 2239–2248. https://doi.org/10.1145/3219819.3220046 Stanfill, C., & Waltz, D. (1986). Toward memory-based reasoning. Communications of the ACM, 29(12), 1213–1228. https://doi.org/10.1145/7902.7906 Sturges, H.A. (1926). The choice of a class interval case I. Computations involving a single series. Journal of the American Statistical Association, 21(153), 65–66. https://doi.org/10.1080/01621459.1926.10502161 Sustersic, M. & Mramor, D. & Zupan, J. (2007). Consumer Credit Scoring Models with Limited Data. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.967384 Szepannek, G. (2018). clustMixType: User-Friendly Clustering of Mixed-Type Data in R. The R Journal, 10/2. https://doi.org/10.32614/RJ-2018-048 Takagi, G. (2018). Nonprofit Law and Ethics. Retrieved 20 June 2021, from Neo Law Group website: https://nonprofitlawblog.com/nonprofit-law-and-ethics/ Teofrastro. (1988). Historia de las plantas. Editorial Gredos. Spain. Gráficas Condor. Thompson, K., & Langley, P. (1991). Concept Formation in Structured Domains. In Concept Formation (pp. 127–161). https://doi.org/10.1016/B978-1-4832-0773- 5.50011-0 Tokareva, N. (2015). Distances Between Bent Functions. Bent Functions, 89–96. https://doi.org/10.1016/B978-0-12-802318-1.00011-X Tolan, S. (2019). Fair and unbiased algorithmic decision making: Current state and future challenges. https://arxiv.org/abs/1901.04730 Tsamados, A., Aggarwal, N., Cowls, J., Morley, J., Roberts, H., Taddeo, M., & Floridi, L. (2021). The ethics of algorithms: key problems and solutions. AI & Soc, 1, 1–16. https://doi.org/10.1007/s00146-021-01154-8 Tubbs, J.D. (1989). A note on binary template matching. Pattern Recognition, 22(4), 359–365. https://doi.org/10.1016/0031-3203(89)90045-9 Tukey, J.W. (1980). We Need Both Exploratory and Confirmatory. The American Statistician, 34(1), 23. https://doi.org/10.2307/2682991 Turner L.N. (2018). Detecting racial bias in algorithms and machine learning. Journal of Information, Communication and Ethics in Society, 16(3), 252–260. https://doi.org/10.1108/JICES-06-2018-0056 https://dl.acm.org/doi/book/10.5555/22908 https://doi.org/10.1145/3219819.3220046 https://doi.org/10.1145/7902.7906 https://doi.org/10.1080/01621459.1926.10502161 https://doi.org/10.2139/ssrn.967384 https://doi.org/10.32614/RJ-2018-048 https://nonprofitlawblog.com/nonprofit-law-and-ethics/ https://doi.org/10.1016/B978-1-4832-0773-5.50011-0 https://doi.org/10.1016/B978-1-4832-0773-5.50011-0 https://doi.org/10.1016/B978-0-12-802318-1.00011-X https://arxiv.org/abs/1901.04730 https://doi.org/10.1007/s00146-021-01154-8 https://doi.org/10.1016/0031-3203(89)90045-9 https://doi.org/10.2307/2682991 https://doi.org/10.1108/JICES-06-2018-0056 Bibliografía ~ 234 ~ Turner L.N., Resnick, P., & Barton, G. (2019). Algorithmic bias detection and mitigation: Best practices and policies to reduce consumer harms. Governance Studies Main Line website. https://www.brookings.edu/research/algorithmic-bias-detection-and- mitigation-best-practices-and-policies-to-reduce-consumer-harms/ UK Public General Acts. (1975). Sex Discrimination Act 1975. https://www.legislation.gov.uk/ukpga/1975/65/enacted UK Public General Acts. (1976). Race Relations Act 1976. https://www.legislation.gov.uk/ukpga/1976/74/enacted United Nations. (1948). Declaración Universal de Derechos Humanos. https://www.un.org/es/about-us/universal-declaration-of-human-rights Upton, G.J.C. (2017). Categorical Data Analysis by Example. In Categorical Data Analysis by Example. https://doi.org/10.1002/9781119450382 Vaishali, V. (2014). Fraud Detection in Credit Card by Clustering Approach. International Journal of Computer Applications, 98(3), 29–32. https://doi.org/10.5120/17164-7225 Van de Velden, M., Iodice D’Enza, A., & Markos, A. (2019). Distance‐based clustering of mixed data. Wiley Interdisciplinary Reviews: Computational Statistics, 11(3), e1456. https://doi.org/10.1002/wics.1456 Verma, S., & Rubin, J. (2018). Fairness definitions explained. Proceedings - International Conference on Software Engineering, 18, 1–7. https://doi.org/10.1145/3194770.3194776 Vesanto, J., & Alhoniemi, E. (2000). Clustering of the self-organizing map. IEEE Transactions on Neural Networks, 11(3), 586–600. https://doi.org/10.1109/72.846731 Vijaymeena, M.K., & Kavitha, K. (2016). A Survey on Similarity Measures in Text Mining. Machine Learning and Applications: An International Journal, 3(1), 19–28. https://doi.org/10.5121/mlaij.2016.3103 Vinh, N.X., Epps, J., & Bailey, J. (2010). Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance. In Journal of Machine Learning Research (Vol. 11). https://doi.org/10.5555/1756006.1953024 Vyas, D.A., Eisenstein, L.G., & Jones, D.S. (2020). Hidden in Plain Sight — Reconsidering the Use of Race Correction in Clinical Algorithms. 383(9), 874–882. https://doi.org/10.1056/NEJMMS2004740 Wagner, S., & Wagner, D. (2007). Comparing clusterings: an overview. Karlsruhe, Universität Karlsruhe, 1-19. https://www.brookings.edu/research/algorithmic-bias-detection-and-mitigation-best-practices-and-policies-to-reduce-consumer-harms/ https://www.brookings.edu/research/algorithmic-bias-detection-and-mitigation-best-practices-and-policies-to-reduce-consumer-harms/ https://www.legislation.gov.uk/ukpga/1975/65/enacted https://www.legislation.gov.uk/ukpga/1976/74/enacted https://www.un.org/es/about-us/universal-declaration-of-human-rights https://doi.org/10.1002/9781119450382 https://doi.org/10.5120/17164-7225 https://doi.org/10.1002/wics.1456 https://doi.org/10.1145/3194770.3194776 https://doi.org/10.1109/72.846731 https://doi.org/10.5121/mlaij.2016.3103 https://doi.org/10.5555/1756006.1953024 https://doi.org/10.1056/NEJMMS2004740 Bibliografía ~ 235 ~ Walker, D.D., & Ringger, E.K. (2008). Model-based document clustering with a collapsed gibbs sampler. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 704–712. https://doi.org/10.1145/1401890.1401975 Wang, W., Yang, J., & Muntz, R. (1997). STING: A Statistical Information Grid Approach to Spatial Data Mining. In Proceedings of the 23rd International Conference on Very Large Data Bases (VLDB '97). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 186–195. Ward, J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, 236–244. https://doi.org/10.1080/01621459.1963.10500845 Westlake, A.J., & Larson, H.J. (1970). Introduction to Probability Theory and Statistical Inference. The Statistician, 19(3), 352. https://doi.org/10.2307/2986843 Wierzchoń, S.T., & Kłopotek, M.A. (2018). Modern Algorithms of Cluster Analysis, 433. http://www.springer.com/series/11970 Willett, P. (2003). Similarity-based approaches to virtual screening. Biochemical Society Transactions, 31(3), 603–606. https://doi.org/10.1042/BST0310603 Wilson, D.R., & Martinez, T.R. (1997). Improved Heterogeneous Distance Functions. Journal of Artificial Intelligence Research, 6, 1–34. https://arxiv.org/abs/cs/9701101v1 Wishart, D. (2003). k-Means Clustering with Outlier Detection, Mixed Variables and Missing Values. 216–226. https://doi.org/10.1007/978-3-642-55721-7_23 Witten, D.M., & Tibshirani, R. (2010). A framework for feature selection in clustering. Journal of the American Statistical Association, 105(490), 713. https://doi.org/10.1198/JASA.2010.TM09415 Wong, P.H. (2019). Democratizing Algorithmic Fairness. Philosophy & Technology 2019 33:2, 33(2), 225–244. https://doi.org/10.1007/S13347-019-00355-W Wu, S., Jiang, Q., & Huang, J.Z. (2007). A New Initialization Method for Clustering Categorical Data. In Advances in Knowledge Discovery and Data Mining (pp. 972–980). https://doi.org/10.1007/978-3-540-71701-0_109 Wu, D., Li, J., Xia, T., Bao, C., Zhao, Y., & Dai, Q. (2018). A multiobjective optimization method considering process risk correlation for project risk response planning. Information Sciences, 467, 282–295. https://doi.org/10.1016/j.ins.2018.07.013 Wüthrich, M.V. (2020). Bias regularization in neural network models for general insurance pricing. European Actuarial Journal 2019 10:1, 10(1), 179–202. https://doi.org/10.1007/S13385-019-00215-Z Xu, H., Zeng, W., Zeng, X., & Yen, G.G. (2019). An evolutionary algorithm based on Minkowski distance for many-objective optimization. IEEE Transactions on Cybernetics, 49(11), 3968–3979. https://doi.org/10.1109/TCYB.2018.2856208 https://doi.org/10.1145/1401890.1401975 https://doi.org/10.1080/01621459.1963.10500845 https://doi.org/10.2307/2986843 http://www.springer.com/series/11970 https://doi.org/10.1042/BST0310603 https://arxiv.org/abs/cs/9701101v1 https://doi.org/10.1007/978-3-642-55721-7_23 https://doi.org/10.1198/JASA.2010.TM09415 https://doi.org/10.1007/S13347-019-00355-W https://doi.org/10.1007/978-3-540-71701-0_109 https://doi.org/10.1016/j.ins.2018.07.013 https://doi.org/10.1007/S13385-019-00215-Z https://doi.org/10.1109/TCYB.2018.2856208 Bibliografía ~ 236 ~ Yang, M. (2018). Bias, Discrimination, and Algorithmic Fairness. Retrieved 19 August 2021, from Carlson School of Management website: https://mochenyang.github.io/2018/08/11/Algorithmic-Fairness.html Yaochu, J. (2006). Multiobjective Machine Learning (Vol. 16). Springer Science & Business Media. Springer, Berlin, Heidelberg https://doi.org/10.1007/3-540-33019- 4 Yapo, P.O., Gupta, H.V., & Sorooshian, S. (1998). Multi-objective global optimization for hydrologic models. Journal of Hydrology, 204(1–4), 83–97. https://doi.org/10.1016/S0022-1694(97)00107-8 Yevseyeva, I., Basto-Fernandes, V., Ruano-Ordás, D., & Méndez, J. R. (2013). Optimising anti-spam filters with evolutionary algorithms. Expert Systems with Applications, 40(10), 4010–4021. https://doi.org/10.1016/j.eswa.2013.01.008 Yoseph, F., Malim, A.H., Hashimah, N., Heikkilä, M., Adrian, B., Oana, G., & Aqilah, P.R.N. (2020). The impact of big data market segmentation using data mining and clustering techniques. Journal of Intelligent and Fuzzy Systems, 38(5), 6159– 6173. https://doi.org/10.3233/JIFS-179698 Yu, S.S., Chu, S.W., Wang, C.M., Chan, Y.K., & Chang, T.C. (2018). Two improved k- means algorithms. Applied Soft Computing Journal, 68, 747–755. https://doi.org/10.1016/j.asoc.2017.08.032 Yu, R., Li, Q., Fischer, C., Doroudi, S., & Xu, D. (2020). Towards Accurate and Fair Prediction of College Success: Evaluating Different Sources of Student Data. International Educational Data Mining Society, 292–301. https://facctconference.org/ Yule, G.U. (1912). On the methods of measuring asociation between two attributes. Journal of the Royal Statistical Society1, 75, 579–642. http://dx.doi.org/10.2307/2340126 Zafar, M.B., Valera, I., Rodríguez, M.G., & Gummadi, K. P. (2017). Fairness Constraints: Mechanisms for Fair Classification. Proceedings of the 20th International Conference on Artificial Intelligence and Statistics, AISTATS 2017. https://arxiv.org/abs/1507.05259v5 Zemel, R., Wu, L. Y., Swersky, K., Pitassi, T., & Dwork, C. (2013). Learning Fair Representations. Proceedings of the 30th International Conference on Machine Learning, 28(3), 325-333. https://proceedings.mlr.press/v28/zemel13.html Zezula, P., Amato, G., Dohnal, V., & Batko, M. (2006). Similarity Search The Metric Space Approach. 32. https://doi.org/10.1007/0-387-29151-2 Zhang, T., Ramakrishnan, R., & Livny, M. (1996). BIRCH: An Efficient Data Clustering Method for Very Large Databases. ACM SIGMOD Record, 25(2), 103–114. https://doi.org/10.1145/235968.233324 https://mochenyang.github.io/2018/08/11/Algorithmic-Fairness.html https://doi.org/10.1007/3-540-33019-4 https://doi.org/10.1007/3-540-33019-4 https://doi.org/10.1016/S0022-1694(97)00107-8 https://doi.org/10.1016/j.eswa.2013.01.008 https://doi.org/10.3233/JIFS-179698 https://doi.org/10.1016/j.asoc.2017.08.032 https://facctconference.org/ http://dx.doi.org/10.2307/2340126 https://arxiv.org/abs/1507.05259v5 https://proceedings.mlr.press/v28/zemel13.html https://doi.org/10.1007/0-387-29151-2 https://doi.org/10.1145/235968.233324 Bibliografía ~ 237 ~ Zhang, T., Ramakrishnan, R., & Livny, M. (1997). BIRCH: A new data clustering algorithm and its applications. Data Mining and Knowledge Discovery, 1(2), 141– 182. https://doi.org/10.1023/A:1009783824328 Zhang, B., Hsu, M., & Dayal, U. (1999). K-Harmonic Means-A Data Clustering Algorithm. Hewlett-Packard Labs Technical Report HPL-1999-124, 55. Zhang B., Hsu M., & Dayal U. (2001) K-Harmonic Means -A Spatial Clustering Algorithm with Boosting. In: Roddick J.F., Hornsby K. (eds) Temporal, Spatial, and Spatio-Temporal Data Mining. Lecture Notes in Computer Science, vol 2007, 31- 45. Springer, Berlin, Heidelberg. https://doi.org/10.1007/3-540-45244-3_4 Zhang, B., & Srihari, S.N. (2003). Binary vector dissimilarity measures for handwriting identification. Document Recognition and Retrieval X, 5010, 28–38. https://doi.org/10.1117/12.473347 Zhang, Z., & Neill, D.B. (2016). Identifying Significant Predictive Bias in Classifiers. https://arxiv.org/abs/1611.08292v2 Zhou, A., Qu, B.Y., Li, H., Zhao, S.Z., Suganthan, P.N., & Zhang, Q. (2011). Multiobjective evolutionary algorithms: A survey of the state of the art. Swarm and Evolutionary Computation, 1(1), 32–49. https://doi.org/10.1016/j.swevo.2011.03.001 Zhu, L., Lei, J. S., Bi, Z. Q., & Yang, J. (2013). Soft subspace clustering algorithm for streaming data. Ruan Jian Xue Bao/Journal of Software, 24(11), 2610–2627. https://doi.org/10.3724/SP.J.1001.2013.04469 Zhu, E., & Ma, R. (2018). An effective partitional clustering algorithm based on new clustering validity index. Applied Soft Computing Journal, 71, 608–621. https://doi.org/10.1016/j.asoc.2018.07.026 Ziko, I.M., Granger, E., Yuan, J., & Ayed, I. Ben. (2019). Variational Fair Clustering. Cornell University. http://arxiv.org/abs/1906.08207 Zliobaite, I. (2015a). A survey on measuring indirect discrimination in machine learning. ACM. https://arxiv.org/abs/1511.00148v1 Zliobaite, I. (2015b). On the relation between accuracy and fairness in binary classification. The 2nd Workshop on Fairness, Accountability, and Transparency In Machine Learning, b. https://arxiv.org/abs/1505.05723v1 https://doi.org/10.1023/A:1009783824328 https://doi.org/10.1007/3-540-45244-3_4 https://doi.org/10.1117/12.473347 https://arxiv.org/abs/1611.08292v2 https://doi.org/10.1016/j.swevo.2011.03.001 https://doi.org/10.3724/SP.J.1001.2013.04469 https://doi.org/10.1016/j.asoc.2018.07.026 http://arxiv.org/abs/1906.08207 https://arxiv.org/abs/1511.00148v1 https://arxiv.org/abs/1505.05723v1 Bibliografía ~ 238 ~ Anexos ~ 239 ~ ANEXOS ANEXOS Anexos ~ 240 ~ Anexos ~ 241 ~ ANEXO 1 Gráficas correspondientes al análisis de estabilidad de las Bases de Datos Figura A.1: Base de Datos de tipo mixto “Absenteeism” Figura A.2: Base de Datos de tipo mixto “Airline” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST Anexos ~ 242 ~ Figura A.3: Base de Datos de tipo mixto “Australian Credit” Figura A.4: Base de Datos de tipo mixto “Bank Marketing” Figura A.5: Base de Datos de tipo mixto “Customer Segmentation” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST Anexos ~ 243 ~ Figura A.6: Base de Datos de tipo mixto “German Credit FC1” Figura A.7: Base de Datos de tipo mixto “Heart Disease” Figura A.8: Base de Datos categórica “Autism” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-PROTOTYPES KAMILA TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST Anexos ~ 244 ~ Figura A.9: Base de Datos categórica “Breast Cancer” Figura A.10: Base de Datos categórica “Cars Insurance” Figura A.11: Base de Datos categórica “Census Income” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST Anexos ~ 245 ~ Figura A.12: Base de Datos categórica “German Credit FC2” Figura A.13: Base de Datos categórica “German Credit FC3” Figura A.14: Base de Datos categórica “HR IBM” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST Anexos ~ 246 ~ Figura A.15: Base de Datos categórica “Human Resources” Figura A.16: Base de Datos categórica “Nursery” 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 1 2 3 4 5 6 7 8 9 10 FAIRMCLUS (proposed) K-MODES DAISY + PAM TCLUST Anexos ~ 247 ~ ANEXO 2 A Fair-Multicluster approach to Clustering of Categorical Data Carlos Santos-Mangudo (*); Antonio J. Heras (**) Financial and Actuarial Economics & Statistics Department Complutense University of Madrid Campus de Somosaguas, s / n, 28223 Pozuelo de Alarcón, Spain (*) email: casant01@ucm.es (*) orcid: https://orcid.org/0000-0001-5514-1802 (**) email: aheras@ccee.ucm.es (**) orcid: https://orcid.org/0000-0002-0506-2388 January 14, 2022 ABSTRACT In the last few years, the need of preventing classification biases due to race, gender, social status, etc. has increased the interest in designing fair clustering algorithms. The main idea is to ensure that the output of a cluster algorithm is not biased towards or against specific subgroups of the population. There is a growing specialized literature on this topic, dealing with the problem of clustering numerical data bases. Nevertheless, to our knowledge, there are no previous papers devoted to the problem of fair clustering of pure categorical attributes. In this paper, we show that the Multicluster methodology proposed by Santos and Heras (2020) for clustering categorical data, can be modified in order to increase the fairness of the clusters. Of course, there is a trade-off between fairness and efficiency, so that an increase in the fairness objective usually leads to a loss of classification efficiency. Yet it is possible to reach a reasonable compromise between these goals, since the methodology proposed by Santos and Heras (2020) can be easily adapted in order to get homogeneous and fair clusters. Keywords: clustering, fairness, fair clustering, categorical data INTRODUCTION Cluster Analysis can be defined as a set of techniques for finding homogeneous subsets (clusters) in a given dataset. The clusters should be homogeneous, in the sense that the elements within each subset should be quite similar to each other. Also, elements belonging to different clusters should be quite different. In other words, elements in the same cluster should show a high similarity, and elements belonging to different subsets should show a low similarity. Different induction principles lead to a number of clustering techniques. According to Fraley and Raftery (1998), clustering techniques can be classified into hierarchical and partitioned methods. Han et al. (2012) classifies them into density-based, model-based and grid-based methods. There is an extensive literature on this subject. Among the most frequently used algorithms for cluster analysis, we can mention, the CURE and ROCK algorithms (Guha et al., 2000; 2001), the K-Modes algorithm (Huang, 1997a; 1997b; 1998; 2009), the K-Prototypes algorithm (Huang, 2005; Ji et al., 2020), the K-Means algorithm (MacQueen, 1967), the DBSCAN algorithm (Pietrzykowski, 2017; Zhu et al., 2013) or the IDCUP algorithm (Altaf et al., 2020). https://orcid.org/0000-0002-0506-2388 Anexos ~ 248 ~ A data set can be considered as a matrix where the rows are the observations, individuals or elements, and the columns are the features, attributes or traits associated to these elements. Many well-known clustering algorithms, such as the popular K-Means, only work with numerical datasets, where all the attributes are numerically measured. K-Means (Forgy, 1965; McQueen, 1967) associates the clusters to their average values (centers of gravity) and assigns the elements to their nearest clusters; the algorithm then calculates the new centers of gravity and reallocates the elements to the new clusters. These steps shall be repeated until no more changes are observed or a maximum number of iterations is reached. In some datasets, however, we find categorical data, with non-numerical attributes, and K-Means no longer works. The widely used K-Modes algorithm (Huang, 1997a; 1997b; 1998) is based on similar ideas and is adapted to work with categorical data. Instead of centers of gravity and Euclidean distances, K-Modes uses “centroids” defined from the modes of the categorical attributes, and measures of “dissimilarity” to quantify the distances between them. The final results given by both K-Means and K-Modes often depend on the selection of the initial “seeds”. Since this selection process usually involves some randomization scheme, the results can be instable, i.e. running an algorithm several times on the same dataset can lead to different final allocations. Some solutions for this problem have been suggested in the literature: see Ahmad and Dey (2007a, 2007b), Cao et al. (2009), Gan et al. (2005), Jiang et al. (2016), Khan and Ahmad (2012, 2013, 2015), Ng & Wong (2002), Sajidha et al. (2018), Santos & Heras (2020). It is also worth mentioning K-Means++ (Arthur and Vassilvitskii, 2007), an important variation of K-Means, that improves the running time of Lloyd’s algorithm and the quality of the final solution. Moreover, it is implemented in most numerical packages, e.g.: scikit-learn or Matlab. Besides the classification efficiency and the stability of the results, a new problem has received a lot of attention in the last years. Classification algorithms are increasingly applied to many important economic and social problems, such as prediction of criminal behaviour, screening of job applicants, mortgage approvals, marketing research or insurance rating, among many others. Human supervision of many decision making processes is progressively being replaced by automated data analysis, and there is a growing concern in our societies about the lack of human control of the outcomes. For instance, an important potential problem is that the output of the algorithms could unreasonably harm or benefit some groups of people that share sensitive attributes, related to gender, race, religion, social status, etc. These discrimination problems are often unintended, due to the complexity of the algorithmic processing of huge amounts of data. As a consequence, the need to prevent these classification biases related to sensitive attributes has increased the interest in designing fair clustering algorithms. The meaning of “fairness” in this case is to ensure that the outputs of the algorithms are not biased towards or against specific subgroups of the population. The literature on the issue of fair clustering is extensive: see, among others, Abraham et al. (2020), Chierichetti et al (2017), Chen et al. (2019), Esmaeili et al. (2020), Kleindessner et al. (2019), Ziko et al. (2019). However, all these papers have studied the numerical case. To our knowledge, there are no previous papers devoted to the problem of fair clustering of pure categorical datasets. In this paper, we put forward a modification of the Multicluster methodology proposed by Santos and Heras (2020) for clustering categorical data, in order to reach a compromise between fairness and classification efficiency. As we shall see, the output of the proposed algorithm combines a total stability with a high degree of fairness and efficiency. The outline of the paper is as follows: in the first section (Fair clustering of categorical data) we give a brief description of the main ideas of the paper. In the second section (Methods) we explain how the fair clustering algorithm operates. In the third section (Experimental Results), several well-known real databases are used to Anexos ~ 249 ~ illustrate the application of the methodology, showing good results in terms of clustering efficiency and fairness. Concluding remarks are presented in the last sections (Discussion and Conclusions). FAIR CLUSTERING OF CATEGORICAL DATA Santos and Heras (2020) have proposed a new methodology for clustering categorical data, based on the so-called “multiclusters”. Each multicluster is associated to a non-empty combination of the attributes of the data set, so that the objects belonging to it show a total coincidence in the values of their attributes. However, since the number of multiclusters may be excessive, it is often required to reduce it, in order to reach the desired (usually small) number of final clusters. For this purpose, the algorithm takes the biggest clusters as “seeds” and associates them to the smaller clusters, taking into account the similarities between their attributes. This way, those Multiclusters showing a great number of coincidences between their attributes will be eventually tied together, giving rise to greater clusters sharing many (not all) of their attributes. The process ends when the desired number of final clusters is reached. In this paper we show that this clustering algorithm for categorical data can easily be adapted to getting not only efficient but also fair clusters. Following previous works on fair clustering for numerical data (Chierichetti et al, 2017), we assume a protected attribute in the database, such as gender or ethnicity. Under the legal doctrine of Disparate Impact, a decision making process is considered discriminatory or unfair if it has a disproportionately adverse impact on the protected classes (Barocas & Selbst, 2016). Unlike the doctrine of Disparate Treatment, Disparate Impact is not concerned with intent or motivations, it only focuses on the outcomes. Under this doctrine, a clustering algorithm is fair if it leads to a set of fair clusters, and a cluster is fair if it has a proper representation of the values of the protected attribute: for instance, 50% males and 50% females, if the protected attribute is Gender. Notice, however, that the desired proportions of the values of that attribute are not necessarily identical in all cases: if the gender proportions in the dataset are highly unbalanced, forcing an equal representation of males and females in the final clusters may lead to unreasonable proportions of other attributes. For this reason, the desired proportions can also be defined as the proportions of the protected attribute in the dataset. If the gender ratio in the dataset is, for instance, 30%-70%, then it should be the same or quite similar in the final clusters. The Multicluster algorithm can be modified in order to increase the fairness of the obtained clusters. Of course, there is a trade-off between fairness and efficiency, so that, if we want to increase the fairness, we have to give up some classification efficiency. Yet it is possible to reach a reasonable compromise between these goals. The idea is to add a new step in the algorithm, in which we link two clusters when the distribution of the protected attribute after linking the clusters is closer to the desired distribution. This procedure is repeated until the desired number of clusters is reached. METHODS In this section we explain how the “Fair Multicluster” algorithm for categorical data works. We assume the existence of a protected attribute in the data set, and also of desired ratios between its values. The goal of the algorithm is to split the total data base into a set of homogeneous and fair clusters: homogeneous, because each of them must contain only similar observations; and fair, because the proportions of the values of the protected attribute must be close to the desired proportions. Anexos ~ 250 ~ The algorithm works as follows: Step 1: 1. We identify the clusters for each single attribute with its different categorical values. For example, if a given attribute only has two values A and B, these are also the clusters associated to that criterion. 2. We merge all the possible single-attribute clusters in order to get the initial set of “Multiclusters”. For example, if there are only two attributes with values A, B and C, D, E, respectively, then there will be six “Multiclusters”: AC, AD, AE, BC, BD and BE. Notice that all the elements belonging to a given Multicluster show a total coincidence of the values of their attributes. This initial set of Multiclusters gives us the maximum number of clusters, which may be large. However, in real examples many of them are usually empty, so that the number of non-empty Multiclusters is much more reduced. Step 2: 1. For every couple of clusters, we compute the number of coincidences between their attributes. For example, the number of coincidences between AC and AD is one (A), and the number of coincidences between AC and BD is zero. This information is shown in the so-called Coincidence Matrix. 2. For every row of the Coincidence Matrix obtained before, select the column with the highest number of coincidences and merge the respective Multiclusters. The elements belonging to these new and bigger clusters share many (but not all) attributes. When two or more columns can be selected, we can break the tie by means of the Fleiss’ Kappa coefficient (Fleiss et al., 1969, 2003; Fleiss, 1971), a widely used measure of the degree of similarity between objects with categorical attributes. Notice that, if we have already compared cluster “A” and cluster “B”, we don’t need to further compare cluster “B” and cluster “A”. For this reason, in this procedure we only need to work with the upper triangle of the matrix. Step 3: 1. We form a table with the optimal clusters obtained in the previous step, ranked in increasing order according to their size. For every row (cluster) of the table, we link it with other row (cluster) of the same table such that the resulting ratios of the values of the protected attribute are the closest to the desired ratios. This way, we obtain a new set of bigger clusters with a distribution of the protected attribute closer to the desired distribution. 2. We repeat the previous step until the predefined number of desired clusters is reached. The output of the algorithm is a set of clusters with a high degree of homogeneity and fairness. To illustrate the methodology, the "German Credit" database from UCI Machine Learning Repository (Dua & Graff, 2019) has been used as an unsupervised dataset; we work with a random sample of 20 observations and 9 categorical attributes, which we show in Table 1. Anexos ~ 251 ~ Table 1: A sample of 20 observations from the German Credit dataset The first step of the algorithm is the calculation of the clusters for every single attribute, which correspond to their different values. Table 2 shows the distribution of clusters for each attribute, obtained in step 1.1. We choose Gender as protected attribute, with two values, Male (M) and Female (F). To ensure the reproducibility of the analysis, we rank the values of the attributes in increasing order according to their size. Table 2: Cluster distribution of the attributes Observation Status account Credit history Purpose Savings Employment Installment Gender Debtors Residence Property Others Housing Credits Job Number people Telephone Foreign 775 A13 A34 A40 A63 A71 2 M A101 4 A124 A141 A153 3 A171 1 A191 A201 204 A11 A32 A48 A61 A74 4 M A101 4 A122 A143 A151 1 A173 1 A191 A201 699 A14 A34 A43 A61 A73 4 M A101 2 A123 A143 A152 2 A173 1 A191 A201 250 A14 A32 A43 A61 A71 3 F A102 4 A121 A143 A151 1 A173 1 A191 A201 593 A14 A32 A49 A64 A75 4 F A101 4 A121 A141 A152 1 A172 1 A191 A201 661 A13 A32 A43 A61 A73 3 M A101 4 A121 A143 A151 1 A173 1 A191 A201 463 A12 A32 A42 A61 A72 3 F A101 1 A121 A143 A151 1 A174 1 A191 A201 828 A14 A30 A49 A61 A73 2 M A101 2 A123 A142 A152 2 A173 2 A191 A201 845 A14 A32 A42 A61 A75 4 M A101 4 A122 A141 A152 3 A173 2 A192 A201 11 A12 A32 A40 A61 A72 3 F A101 1 A123 A143 A151 1 A173 1 A191 A201 896 A14 A33 A41 A65 A74 3 M A101 2 A123 A142 A152 1 A174 2 A192 A201 379 A12 A32 A40 A61 A75 4 M A101 2 A124 A143 A153 1 A174 1 A192 A201 989 A11 A32 A41 A61 A71 4 M A101 2 A124 A143 A153 1 A174 1 A192 A201 323 A11 A32 A41 A61 A74 2 M A101 1 A124 A143 A153 1 A174 1 A192 A201 716 A14 A34 A41 A65 A75 1 M A101 4 A123 A143 A152 2 A173 1 A191 A201 619 A12 A32 A42 A62 A73 2 F A102 4 A123 A143 A151 1 A173 1 A191 A201 908 A12 A32 A46 A65 A73 2 M A101 2 A123 A143 A152 1 A173 1 A191 A201 955 A11 A32 A40 A61 A73 4 F A103 4 A122 A143 A152 1 A173 1 A192 A201 209 A11 A32 A49 A61 A73 2 M A101 2 A123 A142 A152 1 A172 1 A191 A201 304 A11 A34 A40 A61 A74 4 M A102 3 A122 A143 A152 2 A173 1 A192 A201 Status account Frecuency Cluster Credit history Frecuency Cluster Purpose Frecuency Cluster A13 2 1 A30 1 1 A46 1 1 A12 10 2 A33 2 2 A48 2 2 A11 18 3 A34 12 3 A42 9 3 A14 28 4 A32 56 4 A43 12 4 A49 15 5 A41 24 6 A40 35 7 Savings Frecuency Cluster Employment Frecuency Cluster Installment Frecuency Cluster A62 1 1 A72 2 1 1 1 1 A63 2 2 A71 6 2 3 10 2 A64 3 3 A74 12 3 2 18 3 A65 12 4 A75 16 4 4 32 4 A61 70 5 A73 35 5 Gender Frecuency Cluster Debtors Frecuency Cluster Residence Frecuency Cluster F 6 1 A103 1 1 3 1 1 M 28 2 A102 6 2 1 6 2 A101 48 3 2 21 3 4 36 4 Property Frecuency Cluster Others Frecuency Cluster Housing Frecuency Cluster A121 4 1 A141 3 1 A153 4 1 A122 8 2 A142 6 2 A151 12 2 A124 12 3 A143 42 3 A152 30 3 A123 32 4 Credits Frecuency Cluster Job Frecuency Cluster Number people Frecuency Cluster 3 2 1 A171 1 1 2 3 1 2 8 2 A172 4 2 1 34 2 1 42 3 A174 15 3 A173 48 4 Telephone Frecuency Cluster A192 7 1 A191 26 2 Anexos ~ 252 ~ In the step 1.2, we combine all the possible single-attribute clusters in order to get the initial set of multiclusters. The maximum number of multiclusters obtained this way can be very high, since it is the product of the number of clusters for every attribute of the dataset. In our case, the maximum number of multiclusters will be 4 ∗ 4 ∗ 7 ∗ 5 ∗ 5 ∗ 4 ∗ 2 ∗ 3 ∗ 4 ∗ 4 ∗ 3 ∗ 3 ∗ 3 ∗ 4 ∗ 2 ∗ 2 ∗ 1 = 464.486.400. However, almost all of them are empty. Actually, there are only 20 nonempty multiclusters, which are shown in Table 3. In Table 3, each multicluster contains only one single observation. To identify the multiclusters, we use the numbers associated to the values of the attributes in Table 2. Notice that the variables in Table 1 have the original labeling given in the dataset German_Credit: for instance, the values of the attributes of the first observation (775) are labeled as A13 (for the attribute “Status Account”), A34 (“Credit History”), A40 (“Purpose”), etc. To simplify the notation, in Table 2 these labels are substituted by numbers: according to Table 2, A13 will be “1”, A34 will be “3”, A40 will be “7”, etc. In Table 3 we label the Multiclusters with the numeric values attached to the values of their attributes in Table 2. Following this rule, the Multicluster containing observation 775, for example, will be labeled as “1372232343111122”. Table 3: 20 nonempty Multiclusters Observation Status account Credit history Purpose Savings Employment Installment Gender Debtors Residence Property Others Housing Credits Job Number people Telephone Multicluster 775 1 3 7 2 2 3 2 3 4 3 1 1 1 1 2 2 1372232343111122 204 3 4 2 5 3 4 2 3 4 2 3 2 3 4 2 2 3425342342323422 699 4 3 4 5 5 4 2 3 3 4 3 3 2 4 2 2 4345542334332422 250 4 4 4 5 2 2 1 2 4 1 3 2 3 4 2 2 4445221241323422 593 4 4 5 3 4 4 1 3 4 1 1 3 3 2 2 2 4453441341133222 661 1 4 4 5 5 2 2 3 4 1 3 2 3 4 2 2 1445522341323422 463 2 4 3 5 1 2 1 3 2 1 3 2 3 3 2 2 2435121321323322 828 4 1 5 5 5 3 2 3 3 4 2 3 2 4 1 2 4155532334232412 845 4 4 3 5 4 4 2 3 4 2 1 3 1 4 1 1 4435442342131411 11 2 4 7 5 1 2 1 3 2 4 3 2 3 4 2 2 2475121324323422 896 4 2 6 4 3 2 2 3 3 4 2 3 3 3 1 1 4264322334233311 379 2 4 7 5 4 4 2 3 3 3 3 1 3 3 2 1 2475442333313321 989 3 4 6 5 2 4 2 3 3 3 3 1 3 3 2 1 3465242333313321 323 3 4 6 5 3 3 2 3 2 3 3 1 3 3 2 1 3465332323313321 716 4 3 6 4 4 1 2 3 4 4 3 3 2 4 2 2 4364412344332422 619 2 4 3 1 5 3 1 2 4 4 3 2 3 4 2 2 2431531244323422 908 2 4 1 4 5 3 2 3 3 4 3 3 3 4 2 2 2414532334333422 955 3 4 7 5 5 4 1 1 4 2 3 3 3 4 2 1 3475541142333421 209 3 4 5 5 5 3 2 3 3 4 2 3 3 2 2 2 3455532334233222 304 3 3 7 5 3 4 2 2 1 2 3 3 2 4 2 1 3375342212332421 Anexos ~ 253 ~ According to the information given in Table 3, we build the Coincidence Matrix (Table 4): Table 4: Coincidence Matrix between multiclusters In order to reduce the number of clusters, we merge those Multiclusters that share the highest number of values of attributes. For each row, when there is only one column showing the highest value of coincidences, we merge the corresponding clusters. That is, we merge the clusters associated to that row and to the column corresponding to the highest value. This is the situation shown in Table 5, built from the second row of the Coincidence Matrix: in this case, the Multiclusters 1445522341323422 and 4445221241323422 should be merged, because they share the values of 12 attributes. Table 5: an example of multicluster association with only one coincidence When there are several columns with the highest value, we break the tie by means of the Fleiss-Kappa coefficient (Fleiss et al., 1969, 2003; Fleiss, 1971). For example, in Table 6, built from the first row of the Coincidence Matrix, we find five columns with 6 coincidences. In this case, the Multiclusters 1372232343111122 and 3465332323313321 should be merged, because they get the highest value of the Kappa-Fleiss coefficient (0.957525773195876). If there are several Multiclusters having the same highest Kappa concordance value, the first of them should be selected following the top-down methodology. Table 6: An example of Multicluster association with more than one coincidence Multicluster Freq 13 72 23 23 43 11 11 22 14 45 52 23 41 32 34 22 24 14 53 23 34 33 34 22 24 31 53 12 44 32 34 22 24 35 12 13 21 32 33 22 24 75 12 13 24 32 34 22 24 75 44 23 33 31 33 21 33 75 34 22 12 33 24 21 34 25 34 23 42 32 34 22 34 55 53 23 34 23 32 22 34 65 24 23 33 31 33 21 34 65 33 23 23 31 33 21 34 75 54 11 42 33 34 21 41 55 53 23 34 23 24 12 42 64 32 23 34 23 33 11 43 45 54 23 34 33 24 22 43 64 41 23 44 33 24 22 44 35 44 23 42 13 14 11 44 45 22 12 41 32 34 22 44 53 44 13 41 13 32 22 1372232343111122 1 6 5 4 3 4 6 4 5 5 6 6 3 4 2 5 6 5 4 5 1445522341323422 1 9 9 10 10 7 5 11 8 7 7 8 6 4 9 7 6 12 7 2414532334333422 1 10 7 9 8 5 8 11 7 7 7 9 7 10 9 5 6 6 2431531244323422 1 9 10 5 4 8 7 4 5 8 5 2 6 6 4 10 6 2435121321323322 1 13 8 3 8 6 7 8 6 3 4 5 4 4 10 7 2475121324323422 1 8 5 9 7 6 7 8 5 4 7 6 4 10 6 2475442333313321 1 7 8 7 13 11 8 4 6 7 5 7 5 6 3375342212332421 1 9 5 7 7 10 5 4 9 7 7 5 3 3425342342323422 1 8 9 9 10 5 4 8 7 8 9 7 3455532334233222 1 8 8 7 11 7 9 6 5 5 8 3465242333313321 1 13 8 4 7 7 5 6 6 5 3465332323313321 1 7 4 7 5 5 5 5 4 3475541142333421 1 4 3 7 5 8 8 7 4155532334232412 1 8 11 8 7 4 5 4264322334233311 1 6 7 6 3 4 4345542334332422 1 11 7 7 6 4364412344332422 1 7 6 7 4435442342131411 1 5 8 4445221241323422 1 8 4453441341133222 1 17 Multicluster Freq 13 72 23 23 43 11 11 22 14 45 52 23 41 32 34 22 24 14 53 23 34 33 34 22 24 31 53 12 44 32 34 22 24 35 12 13 21 32 33 22 24 75 12 13 24 32 34 22 24 75 44 23 33 31 33 21 33 75 34 22 12 33 24 21 34 25 34 23 42 32 34 22 34 55 53 23 34 23 32 22 34 65 24 23 33 31 33 21 34 65 33 23 23 31 33 21 34 75 54 11 42 33 34 21 41 55 53 23 34 23 24 12 42 64 32 23 34 23 33 11 43 45 54 23 34 33 24 22 43 64 41 23 44 33 24 22 44 35 44 23 42 13 14 11 44 45 22 12 41 32 34 22 44 53 44 13 41 13 32 22 1445522341323422 1 9 9 10 10 7 5 11 8 7 7 8 6 4 9 7 6 12 7 Multicluster Freq 13 72 23 23 43 11 11 22 14 45 52 23 41 32 34 22 24 14 53 23 34 33 34 22 24 31 53 12 44 32 34 22 24 35 12 13 21 32 33 22 24 75 12 13 24 32 34 22 24 75 44 23 33 31 33 21 33 75 34 22 12 33 24 21 34 25 34 23 42 32 34 22 34 55 53 23 34 23 32 22 34 65 24 23 33 31 33 21 34 65 33 23 23 31 33 21 34 75 54 11 42 33 34 21 41 55 53 23 34 23 24 12 42 64 32 23 34 23 33 11 43 45 54 23 34 33 24 22 43 64 41 23 44 33 24 22 44 35 44 23 42 13 14 11 44 45 22 12 41 32 34 22 44 53 44 13 41 13 32 22 1372232343111122 1 6 5 4 3 4 6 4 5 5 6 6 3 4 2 5 6 5 4 5 Anexos ~ 254 ~ Once the process explained before has been executed for all rows included in the Coincidence Matrix (Table 4), we obtain the Optimal Multiclusters Table (Table 7), with 11 nonempty optimal Multiclusters. Of course, the final number of clusters could be less than 11, if desired. Further details about Step 2 of the algorithm can be found in Santos and Heras (2020). Notice that the clusters with equal frequency in Table 7 are lexicographically sorted. Table 7: Optimal Multiclusters Table In the last step of the algorithm (Step 3), we focus in the fairness objective. We have chosen as the desired ratio of the attribute Gender the relative initial proportions of its values in the dataset, 30% (for Female) and 70% (for Male). Then, for every row (multicluster) of Table 7 and beginning from the first one, we calculate the (Euclidean) distance between the observed ratios of the protected attribute and the desired ratios, after joining it to any of the other following rows (multiclusters). That is, for every row (the “Transmitter” multicluster), we select each one of the following rows (the “Receiver” multicluster), join the elements of both “Transmitter” and “Receiver” multiclusters to form a bigger cluster and calculate the (Euclidean) distance between the ratios of the protected attribute in the new bigger cluster and the desired ratios (30%, 70%). The process is repeated with all the following rows, and we finally join those rows (multiclusters) such that the ratios of the new cluster are closest to the desired ratios. For example, taking the second row in Table 7 (3465242333313320) as Transmitter, the minimum distance to the desired ratios (0.0471) is reached by joining it to the Receiver multicluster located in the eighth row (4435442342131410): see Table 8 for the details. Joining both rows in a new Table, the procedure is repeated until a predetermined number of clusters (k) is reached. Optimal Multiclusters Frecuency 3455532334233220 1 3465242333313320 1 4155532334232410 1 4345542334332420 1 2475121324323420 2 3465332323313320 2 4364412344332420 2 4435442342131410 2 4445221241323420 2 3475541142333420 3 4453441341133220 3 Anexos ~ 255 ~ Table 8: an example of calculation of the distances between a multicluster Transmitter (2nd row of Table 7) and the Receivers Table 9 shows the distribution of the protected attribute with two final clusters (k=2), with a total fairness ratio of 96% Table 9: Observed and Desired Cluster Distributions EXPERIMENTAL RESULTS Datasets Used For Evaluation Table 10 shows the categorical databases that are used for the evaluation of the clustering efficiency of the algorithm. In all cases there is a response variable, defined as the real cluster in which every observation is placed, which is known in advance but not used as an input of the algorithm. This omitted information can be used to evaluate the clustering efficiency, by contrasting the real classification of the observations to that given by the algorithm (see, among others, Yu et al. (2018), and Zhu and Ma (2018)). As for the evaluation of the fairness of the classification, we measure the distance between the desired distribution of the protected attribute and its final distribution in the clusters given by the algorithm. In all the examples we choose the initial proportions of the values of the protected attribute in the data set as desired proportions to be approached in the final clusters. In other terms, the proportions of the values of the protected attribute in the final clusters (the output of the algorithm) should be close to their initial observed proportions in the whole data set. Of course, any alternative desired distribution could be selected. 3465242333313320 na 4155532334232410 0,4243 4345542334332420 0,4243 2475121324323420 0,5185 3465332323313320 0,4243 4364412344332420 0,4243 3465242333313320 4435442342131410 0,0471 4445221241323420 0,4243 3475541142333420 0,0707 4453441341133220 0,2828 Optimal Multiclusters (Receiver) Distance Optimal Multicluster (Transmitter) 1 2 Total achieved per Cluster 98% 93% Female 30% Overall total achieved Male 70%96% Observed Distribution "GENDER" (Proposed Algorithm) Final Clusters Desired Distribution "GENDER" (in Dataset) % Anexos ~ 256 ~ Table 10: The datasets used in the experimental analysis 1. Kaggle Data Repository 2. UCI Machine Learning Repository (Dua and Graff, 2019) 3. Machine Learning Data Repository 4. Macquarie Australia University Data Repository 5. This column shows the desired number (k) of final clusters selected by the decision-maker Evaluation Metrics Many measures of the degree of similarity between different partitions of the same data set have been proposed in the literature: see, among others, Dom (2002), Headden et al. (2008), Meilâ (2007), Reichart and Rappoport (2009), Rosenberg and Hirschberg (2007), Vinh et al. (2010), Wagner and Wagner (2007), Walker and Ringger (2008). We have selected four well-known measures of the similarity between two partitions P and R of a given data set. In our applications, P will be the output of the clustering algorithm, and R the “real” partition observed in the data set. I) “Fowlkes-Mallows index” (Fowlkes and Mallows, 1983). High values of the Fowlkes–Mallows index indicate a great similarity between the clusters. It is defined as: 𝑭𝑭𝑭𝑭𝑭𝑭 = � 𝑇𝑇𝑃𝑃 𝑇𝑇𝑃𝑃 + 𝐹𝐹𝑃𝑃 ∙ 𝑇𝑇𝑃𝑃 𝑇𝑇𝑃𝑃 + 𝐹𝐹𝐹𝐹 where: • TP as the number of pairs of points that are in the same cluster in both P and R. • FP as the number of pairs of points that are in the same cluster in P but not in R • FN as the number of pairs of points that are in the same cluster in R but not in P • TN as the number of pairs of points that are in different clusters in both P and R II) “Maximum-Match Measure” (Meilâ and Heckerman, 2001) is defined as 𝑭𝑭𝑭𝑭𝑭𝑭 = 1 𝑛𝑛 �𝑚𝑚𝑚𝑚𝑥𝑥𝑖𝑖 𝑘𝑘 𝑖𝑖=1 𝑚𝑚𝑖𝑖𝑖𝑖 where 𝑚𝑚𝑖𝑖𝑖𝑖 is the number of observations belonging to both clusters 𝑃𝑃𝑖𝑖 and 𝑅𝑅𝑖𝑖 and n is the total number of observations in the data set. III) “Normalized Variation of Information Measure” (Reichart and Rappoport, 2009) is a normalized version of the VI- Variation of Information measure (Meila, 2007); it is defined as: Anexos ~ 257 ~ 𝑵𝑵𝑵𝑵𝑭𝑭 = � 𝐻𝐻(𝑃𝑃|𝑅𝑅) +𝐻𝐻(𝑅𝑅|𝑃𝑃) 𝐻𝐻(𝑃𝑃) 𝐻𝐻(𝑃𝑃) ≠ 0 𝐻𝐻(𝑅𝑅) 𝐻𝐻 (𝑃𝑃) = 0 where H(P) and H(R) are the entropies of the partitions P and R, and H(P|R) and H(R|P) are their conditional entropies. IV) “Overlap coefficient” (Vijaymeena and Kavitha, 2016) also known as Szymkiewicz-Simpson coefficient, is a similarity measure based on the concept of the overlap between sets. Given two finite sets P and R, the overlap between them is defined as the size of the intersection divided by the smallest size of the two sets: 𝑶𝑶𝑭𝑭 = 𝑃𝑃 ∩ 𝑅𝑅 min (|𝑃𝑃|, |𝑅𝑅|) For the evaluation of fairness, we use the Euclidean distance between the desired distribution of the protected attribute and its final distribution in the clusters given by the algorithm: 𝐹𝐹𝑚𝑚𝑖𝑖𝑖𝑖𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 𝑖𝑖𝑚𝑚𝑟𝑟𝑖𝑖𝑟𝑟 = ∑ (1− 𝑖𝑖𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑑𝑑𝑖𝑖𝑚𝑚𝑛𝑛 𝑑𝑑𝑖𝑖𝑖𝑖𝑟𝑟𝑚𝑚𝑛𝑛𝑒𝑒𝑖𝑖(𝑂𝑂𝑂𝑂𝑖𝑖𝑖𝑖𝑖𝑖𝑂𝑂𝑖𝑖𝑑𝑑𝑖𝑖;𝐷𝐷𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑑𝑑)𝑖𝑖=𝑘𝑘 𝑖𝑖=1 𝑛𝑛𝑒𝑒𝑚𝑚𝑂𝑂𝑖𝑖𝑖𝑖 𝑟𝑟𝑜𝑜 𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑟𝑟𝑖𝑖𝑖𝑖𝑖𝑖 (𝑘𝑘) Performance Results Table 11 shows the clustering efficiency of three algorithms (Multicluster, Fair-Multicluster and K-Modes) for the data sets in Table 10, measured by means of the Fowlkes-Mallows measure, the Maximum-Match measure, the Normalized Variation of Information measure and the Overlap measure. The highest performances are shown by bold-faced numbers. We conclude that Multicluster and Fair-Multicluster outperform K-Modes in most cases. Table 11: Comparison of classification efficiencies To better understand the proposed fairness measure, we give a detailed calculation of its value for the “Human Resources FC2” data set. The elements of this dataset have 3 different values of the Fairness or protected attribute (Marital Status): Divorced (14%), Married (41%) and Single (45%). Therefore, the “desired” distribution of this attribute will be (0.14, 0.41, 0.45). Table 12 shows the final distributions of this attribute in each of the four clusters given by the Fair-Multicluster algorithm: FMI MMM NVI OI FMI MMM NVI OI FMI MMM NVI OI Absenteeism 0,657 0,655 0,960 0,943 0,432 0,288 0,972 0,957 0,501 0,352 0,964 0,947 Bank Marketing 0,657 0,643 1,000 0,796 0,636 0,562 1,000 0,796 0,679 0,711 0,998 0,789 CARS_Insurance 0,859 0,966 1,000 0,933 0,732 0,801 1,000 0,789 0,643 0,617 0,999 0,787 German Credit FC1 0,546 0,601 0,997 0,576 0,690 0,906 0,999 0,826 0,643 0,804 0,994 0,699 German Credit FC2 0,753 0,988 1,000 0,977 0,715 0,936 1,000 0,881 0,543 0,582 0,997 0,577 Human Resources FC1 0,473 0,490 0,971 0,620 0,438 0,435 0,988 0,643 0,405 0,353 0,979 0,623 Human Resources FC2 0,473 0,490 0,971 0,620 0,421 0,404 0,977 0,637 0,412 0,360 0,993 0,624 HR IBM 0,618 0,851 0,996 0,740 0,542 0,716 0,999 0,559 0,437 0,430 0,983 0,532 Census Income FC1 0,672 0,774 0,973 0,685 0,672 0,812 0,996 0,707 0,578 0,630 0,911 0,626 Census Income FC2 0,692 0,809 0,976 0,724 0,567 0,569 0,999 0,629 0,582 0,674 0,933 0,618 DATASET K-MULTICLUSTER (Santos and Heras, 2020) PROPOSED ALGORITHM FAIR-MULTICLUSTER K-MODES Anexos ~ 258 ~ Table 12: Final clustering distribution of Fair-Multicluster algorithm Then, we can calculate the Fairness measure as the average of the distances between the observed vectors and desired vectors for each final cluster: 𝐹𝐹𝑚𝑚𝑖𝑖𝑖𝑖𝑛𝑛𝑖𝑖𝑖𝑖𝑖𝑖 𝑖𝑖𝑚𝑚𝑟𝑟𝑖𝑖𝑟𝑟 = ∑ (1 − 𝑖𝑖𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑑𝑑𝑖𝑖𝑚𝑚𝑛𝑛 𝑑𝑑𝑖𝑖𝑖𝑖𝑟𝑟𝑚𝑚𝑛𝑛𝑒𝑒𝑖𝑖(𝑂𝑂𝑂𝑂𝑖𝑖𝑖𝑖𝑖𝑖𝑂𝑂𝑖𝑖𝑑𝑑𝑖𝑖;𝐷𝐷𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑑𝑑)𝑖𝑖=𝑘𝑘 𝑖𝑖=1 𝑛𝑛𝑒𝑒𝑚𝑚𝑂𝑂𝑖𝑖𝑖𝑖 𝑟𝑟𝑜𝑜 𝑒𝑒𝑒𝑒𝑒𝑒𝑖𝑖𝑟𝑟𝑖𝑖𝑖𝑖𝑖𝑖 (𝑘𝑘) = 0,981 ~ 98% Table 13 shows the Fairness measures of the final clusters given by the three algorithms. We conclude that, concerning the Fairness measure, Fair-Multicluster largely outperforms Multicluster and K-Modes in all cases. Table 13: Comparative of Fairness classification On the basis of the results obtained before and shown in Tables 11 and 13, we conclude that the proposed Fair- Multicluster algorithm has an excellent performance in terms of the fairness measure (as expected), while at the same time it outperforms the well-known K-Modes algorithm in terms of classification efficiency. We also conclude that the K-Multicluster algorithm often gets better results in terms of this last objective. Actually, the figures in both Tables allow comparing the performances of the K-Multicluster and Fair-Multicluster algorithms, thus giving a numerical evaluation of the trade-off between efficiency and fairness: considering, for instance, the CARS_Insurance dataset, the efficiency ratios are (FMI = 0.859, MMM = 0.966, NVI = 1.000, OI = 0.933) for the K-Multicluster algorithm and (three of them) decrease to (FMI = 0.732, MMM = 0.801, NVI = 1.000, OI = 0.789) for the Fair-Multicluster algorithm, while at the same time the fairness ratio increases from 0.667 to 0.99. DISCUSSION The key ideas behind the Fair-Multicluster algorithm are easy to understand in intuitive terms. Perhaps the main contribution is the way it combines the initial multiclusters in order to reach a compromise between the opposite goals of clustering efficiency and fairness: on the one side, Step 2 merges similar clusters, trying to get highly homogeneous clusters in the final classification; on the other side, merging clusters in Step 3 is looking for a fair distribution of the values of the protected attribute. In other terms, repeating Step 2 increases the efficiency of the final cluster classification, while repeating Step 3 increases the fairness. Since efficiency and fairness often go in opposite directions (improving one of them usually has the consequence of worsening the other), we have to Divorced Married Single Ovserved Cluster 1 16,3% 39,5% 44,2% (0.163 , 0.395 , 0.442) Cluster 2 16,4% 40,3% 43,3% (0.164 , 0.403 , 0.433) Cluster 3 13,9% 43,1% 43,1% (0.139 , 0.431 , 0.431) Cluster 4 11,8% 41,8% 46,4% (0.118 , 0.418 , 0.464) DATASET K-MULTICLUSTER (Santos and Heras, 2020) PROPOSED ALGORITHM FAIR-MULTICLUSTER K-MODES Absenteeism 0,678 0,98 0,680 Bank Marketing 0,905 0,99 0,958 CARS_Insurance 0,667 0,99 0,551 German Credit FC1 0,933 0,99 0,958 German Credit FC2 0,764 1,00 0,917 Human Resources FC1 0,737 1,00 0,792 Human Resources FC2 0,689 0,97 0,524 HR IBM 0,754 0,97 0,989 Census Income FC1 0,946 0,93 0,497 Census Income FC2 0,960 0,99 0,968 Anexos ~ 259 ~ predefine some compromise between them. In practise, this compromise can be achieved by selecting the number of iterations of Step 2 before starting Step 3. Actually, working with small and medium size databases, we have seen that it is usually enough one single repetition of Step 2 in order to reach a reasonable value of the efficiency. For example, working with the German Credit file, we have got a significant improvement of the efficiency only after 5 iterations of Step 2, with the unfortunate consequence of a great loss of fairness. For this reason, in this paper we have worked with only one iteration of Step 2 in the German Credit example, obtaining good values of both efficiency and fairness. Nevertheless, when working with bigger files, it may be necessary to perform several experiments to find the optimal number of Step 2 iterations. Of course, this procedure can be very time-consuming, and the high computing time is perhaps the main drawback of the proposed Fair-Multicluster algorithm. CONCLUSIONS AND FUTURE WORK Assuming the existence of a protected attribute such as race, gender or social status, in this paper we propose a clustering algorithm for finding homogeneous and fair clusters. The clusters should be homogeneous, that is, formed by similar elements, and should also be fair, not biased towards or against specific subgroups of the population. Of course, there is a trade-off between fairness and efficiency, so that an increase in the fairness objective usually leads to a loss of classification efficiency. Yet the so-called Fair-Multicluster algorithm reaches a reasonable compromise between these goals. This algorithm can be considered as an adaptation of the K-Multicluster algorithm proposed by Santos and Heras (2020) for clustering categorical data bases, an algorithm which can be easily modified in order to get homogeneous and fair clusters. The high performance of the Fair-Multicluster algorithm has been checked by comparing it with the Multicluster and the well-known K-Modes algorithms. Their classification efficiencies and fairness have been calculated in ten categorical data bases, using four well-known measures of efficiency and a measure of fairness based on the distance between the final distribution of the protected attribute and its desired distribution. As for the classification efficiency, Table 11 shows that both K-Multicluster and Fair-Multicluster algorithms outperform K-Modes in most cases. With respect to the fairness objective, Table 13 shows the highest performance in all cases of the Fair- Multicluster algorithm, reaching scores close to 100% in many cases. Besides, the output of the algorithm is stable, it is not affected by randomness like the K-Modes algorithm. Stability, classification efficiency and fairness are the major benefits of the proposed Fair-Multicluster algorithm. Among the future developments of this methodology, we highlight its application to mixed data sets with both quantitative and qualitative attributes, and/or to data sets with several (more than one) protected attributes. REFERENCES Abraham, S. S., P, D., & Sundaram, S. S. (2020). Fairness in Clustering with Multiple Sensitive Attributes. Advances in Database Technology - EDBT, 287–298. arXiv:1910.05113 [Online]. Available: http://arxiv.org/abs/1910.05113 Ahmad, A., & Dey, L. (2007a). A method to compute distance between two categorical values of same attribute in unsupervised learning for categorical data set. Pattern Recognition Letters, 28(1), 110–118. https://doi.org/10.1016/j.patrec.2006.06.006 Ahmad, A., & Dey, L. (2007b). A k-mean clustering algorithm for mixed numeric and categorical data. Data & Knowledge Engineering, 63(2), 503–527. https://doi.org/10.1016/j.datak.2007.03.016 Altaf, S., Waseem Waseem, M., & Kazmi, L. (2020). IDCUP Algorithm to Classifying Arbitrary Shapes and Densities for Center- based Clustering Performance Analysis. Interdisciplinary Journal of Information, Knowledge, and Management, 15, 091–108. https://doi.org/10.28945/4541 Barocas, S. & Selbst, A.D. (2016). Big Data’s Disparate Impact. California Law Review 104 (3), 671-732. http://dx.doi.org/10.2139/ssrn.2477899 Cao, F., Liang, J., & Bai, L. (2009). A new initialization method for categorical data clustering. Expert Systems with Applications, 36(7), 10223–10228. https://doi.org/10.1016/j.eswa.2009.01.060 Chen, X., Fain, B., Lyu, L., & Munagala, K. (2019). Proportionally Fair Clustering. 36th International Conference on Machine Learning, ICML 1782–1791. arXiv:1905.03674 [Online]. Available: http://arxiv.org/abs/1905.03674 Chierichetti, F., Kumar, R., Lattanzi, S., & Vassilvitskii, S. (2017). Fair Clustering Through Fairlets. Advances in Neural Information Processing Systems, 5030–5038. arXiv: 1802.05733 [Online]. Available: http://arxiv.org/abs/1802.05733 http://arxiv.org/abs/1910.05113 https://doi.org/10.1016/j.patrec.2006.06.006 https://doi.org/10.1016/j.datak.2007.03.016 https://doi.org/10.28945/4541 http://dx.doi.org/10.2139/ssrn.2477899 https://doi.org/10.1016/j.eswa.2009.01.060 http://arxiv.org/abs/1905.03674 http://arxiv.org/abs/1802.05733 Anexos ~ 260 ~ Dom, B. E. (2012). An Information-Theoretic External Cluster-Validity Measure. arXiv: 1301.0565 [Online]. Available: http://arxiv.org/abs/1301.0565 Dua, D. and Graff, C. (2019). UCI Machine Learning Repository. Available: http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science. Esmaeili, S. A., Brubach, B., Tsepenekas, L., & Dickerson, J. P. (2020). Probabilistic Fair Clustering. arXiv: 2006.10916 [Online]. Available: http://arxiv.org/abs/2006.10916 Fleiss, J. L., Cohen, J., & Everitt, B. S. (1969). Large sample standard errors of kappa and weighted kappa. Psychological Bulletin, 72(5), 323–327. https://doi.org/10.1037/h0028106 Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin, 76(5), 378–382. https://doi.org/10.1037/h0031619 Fleiss, J. L., Levin, B., & Paik, M. C. (2003). Statistical Methods for Rates and Proportions. In Statistical Methods for Rates and Proportions. https://doi.org/10.1002/0471445428 Forgy, E. W. (1965). Cluster Analysis of Multivariate Data: Efficiency versus Interpretability of Classification. Biometrics, 21, 768–780. Fowlkes, E. B., & Mallows, C. L. (1983). A Method for Comparing Two Hierarchical Clusterings. Journal of the American Statistical Association, 78(383), 553. https://doi.org/10.2307/2288117 Fraley, C., & Raftery, A. E. (1998). How Many Clusters? Which Clustering Method? Answers Via Model-Based Cluster Analysis. The Computer Journal, 41(8), 578–588. https://doi.org/10.1093/comjnl/41.8.578 Gan, G., Yang, Z., & Wu, J. (2005). A Genetic k-Modes Algorithm for Clustering Categorical Data. In Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics): Vol. 3584 LNAI (pp. 195–202). https://doi.org/10.1007/11527503_23 Guha, S., Rastogi, R., & Shim, K. (2000). Rock: A robust clustering algorithm for categorical attributes. Information Systems, 25(5), 345–366. https://doi.org/10.1016/S0306-4379(00)00022-3 Guha, S., Rastogi, R., & Shim, K. (2001). Cure: an efficient clustering algorithm for large databases. Information Systems, 26(1), 35–58. https://doi.org/10.1016/S0306-4379(01)00008-4 Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. In Morgan Kaufmann Series in Data Management Systems (Third Edition). Elsevier. Headden, W. P., McClosky, D., & Charniak, E. (2008). Evaluating unsupervised part-of-speech tagging for grammar induction. Coling 2008 - 22nd International Conference on Computational Linguistics, Proceedings of the Conference, 1, 329–336. https://doi.org/10.3115/1599081.1599123 Huang, Z. (1997a). A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining. In Research Issues on Data Mining and Knowledge Discovery, 1--8. https://doi.org/10.1.1.6.4718 Huang, Z. (1997b). Clustering Large Data Sets with Mixed Numeric and Categorical Values. Proceedings of the First Pacific-Asia Knowledge Discovery and Data Mining Conference, Singapore, World Scientific, 21--34. Huang, Z. (1998). Extensions to the k-means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 2(3), 283–304. https://doi.org/https://doi.org/10.1023/A:1009769707641 Huang, Z., Ng, M. K., Rong, H., & Li, Z. (2005). Automated variable weighting in k-means type clustering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(5), 657–668. https://doi.org/10.1109/TPAMI.2005.95 Huang, J. Z. (2009). Clustering Categorical Data with k-Modes. In Encyclopedia of Data Warehousing and Mining, Second Edition (pp. 246–250). https://doi.org/10.4018/978-1-60566-010-3.ch040 Ji, J., Pang, W., Li, Z., He, F., Feng, G., & Zhao, X. (2020). Clustering Mixed Numeric and Categorical Data With Cuckoo Search. IEEE Access, 8, 30988–31003. https://doi.org/10.1109/ACCESS.2020.2973216 Jiang, F., Liu, G., Du, J., & Sui, Y. (2016). Initialization of K-modes clustering using outlier detection techniques. Information Sciences, 332, 167–183. https://doi.org/10.1016/j.ins.2015.11.005 Khan, S. S., & Ahmad, A. (2012). Cluster Center Initialization for Categorical Data Using Multiple Attribute Clustering. MultiClust@ SDM, 3–10. Khan, S. S., & Ahmad, A. (2013). Cluster center initialization algorithm for K-modes clustering. Expert Systems with Applications, 40(18), 7444–7456. https://doi.org/10.1016/j.eswa.2013.07.002 Khan, S. S., & Ahmad, A. (2015). Computing Initial points using density based multiscale data condensation for clustering categorical data. International Conference on Applied Artificial Intelligence, ICAAI Kim, B. (2017). A Fast K-prototypes Algorithm Using Partial Distance Computation. Symmetry, 9(4), 58. https://doi.org/10.3390/sym9040058 Kleindessner, M., Awasthi, P., & Morgenstern, J. (2019). Fair k-Center Clustering for Data Summarization. 36th International Conference on Machine Learning, ICML 2019, 5984–6003. arXiv: 1901.08628 [Online]. Available: http://arxiv.org/abs/1901.08628 McQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, 1, 281–297. Meilâ, M., & Heckerman, D. (2001). An Experimental Comparison of Model-Based Clustering Methods. Machine Learning, pp. 9–29. https://doi.org/https://doi.org/10.1023/A:1007648401407 Meilă, M. (2007). Comparing clusterings—an information based distance. Journal of Multivariate Analysis, 98(5), 873–895. https://doi.org/10.1016/j.jmva.2006.11.013 Ng, M. K., & Wong, J. C. (2002). Clustering categorical data sets using tabu search techniques. Pattern Recognition, 35(12), 2783– 2790. https://doi.org/10.1016/S0031-3203(02)00021-3 http://arxiv.org/abs/1301.0565 http://archive.ics.uci.edu/ml http://arxiv.org/abs/2006.10916 https://doi.org/10.1037/h0028106 https://doi.org/10.1037/h0031619 https://doi.org/10.1002/0471445428 https://doi.org/10.2307/2288117 https://doi.org/10.1093/comjnl/41.8.578 https://doi.org/10.1007/11527503_23 https://doi.org/10.1016/S0306-4379(00)00022-3 https://doi.org/10.1016/S0306-4379(01)00008-4 https://doi.org/10.3115/1599081.1599123 https://doi.org/10.1.1.6.4718 https://doi.org/https:/doi.org/10.1023/A:1009769707641 https://doi.org/10.1109/TPAMI.2005.95 https://doi.org/10.4018/978-1-60566-010-3.ch040 https://doi.org/10.1109/ACCESS.2020.2973216 https://doi.org/10.1016/j.ins.2015.11.005 https://doi.org/10.1016/j.eswa.2013.07.002 https://doi.org/10.3390/sym9040058 http://arxiv.org/abs/1901.08628 https://doi.org/https:/doi.org/10.1023/A:1007648401407 https://doi.org/10.1016/j.jmva.2006.11.013 https://doi.org/10.1016/S0031-3203(02)00021-3 Anexos ~ 261 ~ Pietrzykowski, M. (2017). Local regression algorithms based on centroid clustering methods. Procedia Computer Science, 112, 2363–2371. https://doi.org/10.1016/j.procs.2017.08.210 Reichart, R., & Rappoport, A. (2009). The NVI Clustering Evaluation Measure. https://doi.org/10.5555/1596374.1596401 Rosenberg, A., & Hirschberg, J. (2007). V-Measure: A Conditional Entropy-Based External Cluster Evaluation Measure.. 410-420. Sajidha, S. A., Chodnekar, S. P., & Desikan, K. (2018). Initial seed selection for K-modes clustering – A distance and density based approach. Journal of King Saud University - Computer and Information Sciences. https://doi.org/10.1016/j.jksuci.2018.04.013 Santos M., C., & J. Heras, A. (2020). A Multicluster Approach to Selecting Initial Sets for Clustering of Categorical Data. Interdisciplinary Journal of Information, Knowledge, and Management, 15, 227–246. https://doi.org/10.28945/4643 Vijaymeena, M. K., & Kavitha, K. (2016). A Survey on Similarity Measures in Text Mining. Machine Learning and Applications: An International Journal, 3(1), 19–28. https://doi.org/10.5121/mlaij.2016.3103 Vinh, N.X., Epps, J., & Bailey, J. (2010). Information Theoretic Measures for Clusterings Comparison: Variants, Properties, Normalization and Correction for Chance. In Journal of Machine Learning Research (Vol. 11). https://doi.org/10.5555/1756006.1953024 Wagner, S., & Wagner, D. (2007). Comparing Clusterings - An Overview. Technical Report 2006-04. Walker, D. D., & Ringger, E. K. (2008). Model-based document clustering with a collapsed gibbs sampler. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 704–712. https://doi.org/10.1145/1401890.1401975 Yu, S. S., Chu, S. W., Wang, C. M., Chan, Y. K., & Chang, T. C. (2018). Two improved k-means algorithms. Applied Soft Computing Journal, 68, 747–755. https://doi.org/10.1016/j.asoc.2017.08.032 Zhu, E., & Ma, R. (2018). An effective partitional clustering algorithm based on new clustering validity index. Applied Soft Computing Journal, 71, 608–621. https://doi.org/10.1016/j.asoc.2018.07.026 Zhu, L., Lei, J. S., Bi, Z. Q., & Yang, J. (2013). Soft subspace clustering algorithm for streaming data. Ruan Jian Xue Bao/Journal of Software, 24(11), 2610–2627. https://doi.org/10.3724/SP.J.1001.2013.04469 Ziko, I. M., Granger, E., Yuan, J., & Ayed, I. B., (2019). Variational Fair Clustering, arXiv: 1906.08207. [Online]. Available: http://arxiv.org/abs/1906.08207 https://doi.org/10.1016/j.procs.2017.08.210 https://doi.org/10.5555/1596374.1596401 https://doi.org/10.1016/j.jksuci.2018.04.013 https://doi.org/10.28945/4643 https://doi.org/10.5121/mlaij.2016.3103 https://doi.org/10.5555/1756006.1953024 https://doi.org/10.1145/1401890.1401975 https://doi.org/10.1016/j.asoc.2017.08.032 https://doi.org/10.1016/j.asoc.2018.07.026 https://doi.org/10.3724/SP.J.1001.2013.04469 http://arxiv.org/abs/1906.08207 Anexos ~ 262 ~ Tesis Carlos Santos Mangudo PORTADA ÍNDICE GENERAL ÍNDICE DE TABLAS ÍNDICE DE FIGURAS RESUMEN ABSTRACT 1 – INTRODUCCIÓN 1.1. ANTECEDENTES 1.2. JUSTIFICACIÓN 1.3. OBJETIVOS 1.4. ESQUEMA DE CONTENIDOS 2 – EQUIDAD Y JUSTICIA EN ALGORITMOS DE CLASIFICACIÓN DE DATOS 2.1. INTRODUCCIÓN 2.2. PROBLEMAS ACTUALES EN LA DISCRIMINACIÓN ALGORÍTMICA 2.3. ÉTICA Y EQUIDAD DE LOS DATOS 3 – ANÁLISIS DE CLUSTERING 3.1. INTRODUCCIÓN 3.2. ETAPAS DEL ANÁLISIS DE CLUSTER 3.3. SELECCIÓN DE MEDIDAS DE DISTANCIA 3.3.1. Medidas de distancia de datos de tipo cuantitativo 3.3.2. Medidas de distancia de datos de tipo cualitativo 3.3.3. Medidas de distancia de datos de tipo mixto 3.4. MÉTODOS DE CLASIFICACIÓN 3.4.1. Método Jerárquico 3.4.2. Método No Jerárquico o Particionado 3.4.3. Métodos basados en Densidad 3.4.4. Métodos basados en rejilla o cuadricula 3.4.5. Métodos basados en Modelos 3.4.6. Métodos basados en Distancia o Similaridad 3.5. ALGORITMOS DE CLUSTERS POPULARES 4 – METODOLOGÍA DEL ALGORITMO PROPUESTO 4.1. INTRODUCCIÓN 4.2. LIMITACIONES DE LOS ALGORITMOS ACTUALES 4.2.1. Respecto del Agrupamiento 4.2.2. Respecto de la Equidad 4.3. METODOLOGÍA DEL ALGORITMO PROPUESTO 4.3.1. Estabilidad (Fase 1) 4.3.2. Eficiencia (Fase 2) 4.3.3. Equidad (Fase 3) 4.4. PROCESO DEL ALGORITMO PROPUESTO 4.4.1. Proceso de la fase de Estabilidad 4.2.2. Proceso de la fase de Eficiencia 4.4.3. Proceso de la fase de Equidad 4.5. RESULTADOS DEL PROCESO 5 – RESULTADOS 5.1. INTRODUCCIÓN 5.2. BASES DE DATOS 5.2.1. Bases de Datos de tipo Mixto 5.2.2. Bases de Datos de tipo Categórico 5.3. MÉTRICAS DE EVALUACIÓN DE RESULTADOS 5.4. RESULTADOS 5.4.1. Respecto de la Estabilidad 5.4.2. Respecto de la Eficiencia 5.4.3. Respecto de la Equidad 5.5. APLICACIONES EMPRESARIALES 6 – SOFTWARE R CONCLUSIONES BIBLIOGRAFÍA ANEXOS ANEXO 1 ANEXO 2