1 FACULTAD DE ESTUDIOS ESTADÍSTICOS MÁSTER EN MINERÍA DE DATOS E INTELIGENCIA DE NEGOCIOS Curso 2022/2023 Trabajo de Fin de Máster TITULO: Caracterización y predicción de variables de calidad de vida y prestación de servicios en municipios de la Comunidad de Madrid mediante algoritmos de aprendizaje automático. Alumno: Eva Barrio Reyes Tutor: Javier Álvarez Liébana Junio de 2023 2 Resumen: Este estudio tiene como objetivo aplicar algoritmos de aprendizaje automático para la caracterización de municipios en la Comunidad de Madrid, analizando variables relacionadas con la prestación de servicios y la calidad de vida. También se busca predecir algunas de estas variables y encontrar factores que expliquen las diferencias entre los municipios. Para lograr estos objetivos, se construyó una base de datos que recopila información relevante sobre los municipios de la Comunidad de Madrid. Se emplearon diversas aproximaciones en el análisis de datos, centrándose en la predicción de la esperanza de vida al nacer utilizando algoritmos de aprendizaje supervisado y la clasificación correspondiente a dicha variable. Además, se exploró la clusterización del territorio basada en variables de calidad de vida y prestación de servicios. Los resultados obtenidos revelaron patrones interesantes y proporcionaron información valiosa sobre las diferencias entre los municipios en términos de variables socioeconómicas y para estudios posteriores y tienen implicaciones significativas para la toma de decisiones en políticas públicas encaminadas a mejorar de la calidad de vida de las personas. Palabras clave: aprendizaje automático, calidad de vida, servicios públicos, predicción, clusterización, Comunidad de Madrid. Abstract: This study aims to apply machine learning algorithms for the characterization of municipalities in the Community of Madrid, analyzing variables related to service provision and quality of life. It also aims to predict some of these variables and identify factors that explain the differences between municipalities. To achieve these objectives, a database was constructed to gather relevant information about the municipalities in the Community of Madrid. Various data analysis approaches were employed, focusing on predicting life expectancy at birth using supervised learning algorithms and the corresponding classification. Additionally, territory clustering was explored based on variables related to quality of life and service provision. The obtained results revealed interesting patterns and provided valuable information about the differences between municipalities in terms of socioeconomic variables. The machine learning algorithms demonstrated promising capabilities in predicting life expectancy at birth and classifying municipalities according to their characteristics. These findings have significant implications for decision-making in public policies aimed at improving the quality of life of individuals. Keywords: machine learning, municipality characterization, quality of life, service provision, prediction, clustering, regression, territories, Community of Madrid. 3 4 TABLA DE CONTENIDOS 1. Introducción. ................................................................................................................... 7 2. Objetivos, metodología y software empleado. ................................................................. 9 2.1. Objetivos ................................................................................................................. 9 2.1.1. Objetivo principal. ............................................................................................. 9 2.1.2. Objetivos específicos ........................................................................................ 9 2.1.3. La variable objetivo: La esperanza de vida al nacer. ......................................... 9 2.2. Metodología ........................................................................................................... 11 2.2.1. Construcción del dataset ................................................................................ 12 2.2.2. Metodología SEMMA ...................................................................................... 14 2.3. Software empleado ................................................................................................ 23 3. Construcción del dataset. ............................................................................................. 24 3.1. Análisis de variables y dimensiones. Disponibilidad del dato. ................................ 24 3.2. Extracción de datos: calidad de vida, servicios y territoriales. ................................ 25 3.3. Combinación de tablas. ......................................................................................... 28 4. Metodología SEMMA .................................................................................................... 29 4.1. Sample. Muestreo y particiones ............................................................................. 29 4.2. Explore & Modify.................................................................................................... 29 4.2.1. Resumen de estadísticos. ............................................................................... 29 4.2.2. Estudio de relaciones entre variables. ............................................................ 30 4.2.3. Ausentes ........................................................................................................ 34 4.2.4. Outliers. .......................................................................................................... 35 4.2.5. Agrupación y creación de variables ................................................................ 35 4.2.6. Visualización: gráficos y mapas ...................................................................... 36 4.3. Model. Aprendizaje supervisado. Regresión. ......................................................... 44 4.3.1. Regresión lineal .............................................................................................. 44 4.3.1. Selección de Variables. .................................................................................. 49 4.3.2. Árbol simple .................................................................................................... 52 4.3.3. Random forest y bagging ................................................................................ 53 4.3.4. GBM. Gradient Boosting Machine. .................................................................. 54 4.3.5. Redes neuronales .......................................................................................... 57 4.3.6. XGBoost. Extreme Gradient Boosting ............................................................. 60 4.3.7. SVM. Support Vector Machine. ....................................................................... 65 4.4. Model. Aprendizaje Supervisado. Clasificación. ..................................................... 69 4.4.1. Comparación de modelos en SAS .................................................................. 69 4.5. Model. Aprendizaje no Supervisado. ..................................................................... 72 4.5.1. Clusterización de territorios: K-means ............................................................ 72 4.5.2. Clusterización de territorios: Jerárquico .......................................................... 74 4.5.3. Cluster con SAS ............................................................................................. 75 4.6. Assess. Evaluación de los modelos. ...................................................................... 75 5. Conclusiones. ............................................................................................................... 80 6. Líneas de trabajo futuras. ............................................................................................. 84 7. Anexo I ......................................................................................................................... 91 5 Ilustración 1. Esperanza de vida al nacer. INE. 2021 ........................................................... 10 Ilustración 2. Esquema del TFM ............................................. ¡Error! Marcador no definido. Ilustración 3. Ilustración 3. Minería de datos ........................................................................ 15 Ilustración 4. Validación cruzada con repetición. .................................................................. 22 Ilustración 5. Sesgo, varianza y error del modelo ................................................................. 23 Ilustración 6. Descripción datasets empleados .................................................................... 25 Ilustración 7. Ilustración 9. Usos del suelo en Madrid. elaboración propia a partir de MapSpain y CaTastro R........................................................................................................................ 28 Ilustración 8. Selección Correlación dependiente ................................................................. 30 Ilustración 9. Correlación de variables ................................................................................. 31 Ilustración 10. Correlación completa .................................................................................... 32 Ilustración 11. Contraste de independencia ......................................................................... 32 Ilustración 12. Tablas de contingencia ................................................................................. 33 Ilustración 13. Modelo ANOVA ............................................................................................ 33 Ilustración 14. Variables con valores ausentes .................................................................... 34 Ilustración 15. Esperanza de vida al nacer 2014-2020. Comunidad de Madrid .................... 37 Ilustración 16. Esperanza de vida al nacer por grupo de población. 2020 ............................ 37 Ilustración 17. EV por NUTS4 .............................................................................................. 38 Ilustración 18. EV por grupo de población Mapa 2. Municipios por grupo de población .... 39 Ilustración 19. EV por municipios. Oeste y Sur metropolitano .............................................. 39 Ilustración 20. Heatmap correlación ..................................................................................... 40 Ilustración 21. EV y variables medioambientales ................................................................. 40 Ilustración y mapa 22. EV y capacidad o necesidad de financiación .................................... 41 Ilustración y mapa 23. Mayor o menor distancia al hospital ................................................. 42 Ilustración 24. EV y población con discapacidad .................................................................. 42 Ilustración 25. Diagnóstico Regresión Lineal 1..................................................................... 45 Ilustración 26. Predicción RL1 ............................................................................................. 46 Ilustración 27. Líneas de regresión var. independientes 2 Ilustración 28. Coeficientes rRL 2 ............................................................................................................................................ 46 Ilustración 29. Coeficientes de RL 2 ..................................................................................... 47 Ilustración 30. Estimadores RL 2 ......................................................................................... 47 Ilustración 31. Diagnóstico y evaluación RL 3 ...................................................................... 48 Ilustración 32. Diagnóstico RL5 ........................................................................................... 48 Ilustración 33. Estimadores RL 5 ......................................................................................... 49 Ilustración 34. Box Plot errores Selección de variables 1 ..................................................... 51 Ilustración 35. Errores árbol 1 .............................................................................................. 52 Ilustración 36. Errores árbol 2 .............................................................................................. 52 Ilustración 37. Importancia variables en árbol simple ........................................................... 53 Ilustración 38. GBM. Shrinkage- iterations ........................................................................... 55 Ilustración 39. GBM. Boosting iterations .............................................................................. 55 Ilustración 40. Importancia variables GBM ........................................................................... 56 Ilustración 41. Box Plot errores GBM y RF ........................................................................... 57 Ilustración 42. Red. Selección hiperparámetros 1 ................................................................ 58 Ilustración 43. Red. Selección hiperparámetros 2 ................................................................ 59 Ilustración 44. Box Plot errores Red ..................................................................................... 59 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532137 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532153 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532155 6 Ilustración 45. XGBoost. Selección hiperparámetros 1 ........................................................ 61 Ilustración 46. XGBoost. Selección hiperparámetros 2 ........................................................ 62 Ilustración 47. XGBoost. Selección hiperparámetros 3 ........................................................ 62 Ilustración 48. Importancia variables XGB ........................................................................... 63 Ilustración 49. XGBoost. Box Plot errores ............................................................................ 63 Ilustración 50. Box Plot Red y XGBM ................................................................................... 64 Ilustración 51. SVM Selección hiperparámetros 1 ................................................................ 65 Ilustración 52. SVM Selección hiperparámetros 2 ................................................................ 66 Ilustración 53.SVM Selección hiperparámetros 3 ................................................................. 67 Ilustración 54. SVM Selección hiperparámetros 4 ................................................................ 67 Ilustración 55. SVM Selección hiperparámetros 5 ................................................................ 68 Ilustración 56. Box Plot errores final ..................................................................................... 69 Ilustración 57. Esquema SAS Clasificación .......................................................................... 70 Ilustración 58. Estadísticos de la regresión logística. SAS. Clasificación. ............................ 70 Ilustración 59. Esquema comparación de modelos clasificación. SAS. ................................ 70 Ilustración 60. Árbol de decisión. Clasificación SAS ............................................................ 71 Ilustración 61. Curvas ROC modelos clasificación train y test. SAS ..................................... 72 Ilustración 62. Cluster SAS Ward Ilustración 63. Resultados Cluster SAS Euclidea ............................................................................................................................................ 75 Mapa 1. EV 2020 ................................................................................................................. 38 Ilustración 18. EV por grupo de población Mapa 2. Municipios por grupo de población .... 39 Mapa 3. Superficie protegida mayor o menor a la media ..................................................... 41 Mapa 6. Grado de envejecimiento Mapa 7. Grado de juventud ................ 43 Mapa 8. Afiliados a la Seguridad Social Mapa 9. Paro por 100 habitantes ............. 43 Mapa 10. Gastos liquidados Mapa 11. Clasificación DEGURBA .. 43 Mapa 13. Mapa clúster k-means ......................................................................................... 73 Mapa 14. Clúster2 k-means con etiquetas ........................................................................... 74 Tabla 1. Selección de variables 1 ........................................................................................ 49 Tabla 2. Importancia variables RF y GBM ............................................................................ 56 Tabla 3. Importancia variables clústers k-means ................................................................. 73 Tabla 6. Resultados de la evaluación de los modelos .......................................................... 76 Tabla 7. Resumen importancia variables ............................................................................. 82 Tabla 8. Variables iniciales, dimesión, nombre, descripción y fuentes ................................. 91 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532174 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532179 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532181 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532182 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532183 file:///C:/Users/evaba/Documents/TFM/DOC%20TFM/TFM_EBR_2023.docx%23_Toc138532193 7 1. Introducción. La Organización Mundial de la Salud definió la calidad de vida como "la percepción del individuo de su lugar en la vida, en el contexto de la cultura y sistema de valores en los que vive, y en relación con sus objetivos, expectativas, estándares y preocupaciones. Es un concepto amplio que abarca de manera compleja la salud física del individuo, su estado psicológico, su nivel de independencia, sus relaciones sociales, así como su relación con los elementos esenciales del entorno" (Hubanks, Kuyken, & World Health Organization, 1994) En este contexto, los servicios públicos prestados por las administraciones públicas y el fomento de las actividades que precisan los ciudadanos y la calidad de vida van de la mano, en tanto que como definen (Martín-Salas & Jiménez, ) con carácter general puede entenderse el servicio público como la actividad por la que, mediante una organización ad hoc, la Administración Pública realiza de forma regular y continua la prestación de una utilidad singular a los ciudadanos, que satisface también una necesidad general que se considera esencial para el funcionamiento de la sociedad. Estos servicios se prestan en el territorio objeto de gestión con un destinario final, el ciudadano y un objetivo su calidad de vida. La caracterización de territorios ha jugado un papel relevante y ha sido estudiada para responder a las necesidades que tienen en común, se ha tratado desde diversos puntos de vista: en aspectos relacionados con la salud, como desarrolla (Perafita & Saez, 2022)en su paper al tratar la clusterización de pequeños territorios en Girona basados en ejes de desigualdad; como forma de establecer un sistema común de zonificación, como hicieron en el Instituto de Estadística de la Comunidad de Madrid (Fernando del Castillo Cuervo-Arango, Teresa Fernández Huete, Carlos Pedrazuela Frías y Rosario Sacristán Moreno, 2006) al desarrollar a través del análisis de componentes principales una zonificación que sirvió de base para las actuales NUTS41 o la norma UNE 178601 de junio de 2022 Territorios Inteligentes Definición, atributos y requisitos del comité técnico CTN 178 Ciudades inteligentes realiza una aproximación a la definición de Territorio Inteligente partiendo de la caracterización de aquellos Municipios que presentan características similares en cuanto a criterios demográficos, menores o iguales a 5000 habitantes, y de prestación de servicios básicos de carácter público, diferentes a los observados en unidades administrativas de mayor población. Vincular ambos aspectos, calidad de vida y prestación de servicios públicos de forma cuantificada y objetiva se plantea como un reto de la administración pública moderna. Las técnicas estadísticas, de minería de datos, machine learning e inteligencia de negocio son una oportunidad para afrontarlo con solvencia. Lo señala la OCDE en (Berryhill, Heang, Clogher, & McBride, 2019) aportando soluciones para que las políticas públicas y los funcionarios puedan explorar en la ciencia de datos como una herramienta para incrementar la 1 NUT4: nivel de unidad territorial 4. Referido al nivel municipal 8 productividad del servicio público, servir mejor a sus ciudadanos y potenciar la innovación en sus empresas. La calidad de vida se mide principalmente a través de diferentes metodologías en las que se unen datos de encuestas y datos estadísticos. Cabe mencionar la reciente estadística experimental del INE que construye un Indicador Multidimensional de Calidad de Vida (IMCV) basado en una adaptación de la Encuesta de condiciones de vida (ECV) y son muchos más los enfoques a nivel mundial. Los enfoques para determinar la calidad de vida se construyeron con una base económica y un perfil de competitividad, la Comisión Europea en su informe sobre la medición del desarrollo económico y del progreso social (Stiglitz, Sen, & Fitoussi, 2008) se centró en la necesidad de encontrar nuevas formas de medir el bienestar de las personas y concluyó que el PIB no es suficiente para medir el bienestar y la calidad de vida de la población, ya que no tiene en cuenta aspectos como la distribución del ingreso, la calidad de vida, la salud, la educación, la igualdad de género, la seguridad ciudadana, el medio ambiente, entre otros y propone la creación de nuevos indicadores más allá del PIB para medir el progreso social. Algunas carencias de este desarrollo se ponen de manifiesto en (Sáez, Heras-Saizarbitoria, & Rodríguez-Núñez, 2020), sus hallazgos indican que se tiende a descuidar las causas complejas y falta transparencia en la recopilación de los datos, y la metodología por lo que tienden a estar sesgadas con clasificaciones que tienen a reforzar estereotipos existentes. Y de la misma forma se pone de manifiesto que los factores medioambientales son descuidados cuando se posicionan a algunas ciudades en el top ten mundial (Wang, X. & Chi, 2016) En este trabajo se plantea la predicción de la esperanza de vida al nacimiento como un potencial indicador relacionado con la calidad de vida, y se realiza a través de variables de componente social, medioambiental, de prestación de servicios y gestión pública disponibles a nivel municipal en la Comunidad de Madrid y se buscarán las posibles relaciones subyacentes en los datos. Se emplearán modelos de aprendizaje supervisado: regresión lineal, redes, árboles en modo regresión, Random Forest y bagging, XGBoost y Support Vector Machine y modelos de aprendizaje no supervisado para clusterización del territorio con algoritmos k-means y jerárquico. Si bien vivir más años no significa per se a una buena calidad de la misma, sí es un indicador de los años disponibles para mantenerla o alcanzarla y vincular una buena administración con buena calidad de vida puede ayudar a los gestores públicos a mejorar sus actuaciones. Veremos a lo largo del trabajo las dificultades de su medición y la oportunidad de estudios particulares, a la vez que se construye el dataset, SCMadrid para que otros estudiantes, investigadores gestores o comunicadores puedan explorar y profundizar en el futuro. Establecido el contexto del estudio a continuación se establecen los objetivos, se desarrolla la metodología empleada para la extracción, transformación y carga de datos (ETL), el preprocesado con filosofía tidy, las fases de SEMMA, muestreo, exploración, modificación, modelado y evaluación. Todo ello se llevará a cabo principalmente con RStudio, 9 implementando soluciones de webscrapping con Python, visualización de gráficos y mapas y clasificación con SAS. Finalmente se mostrarán los resultados, se analizarán las conclusiones y se mostrarán líneas de estudio e investigación futuras. 2. Objetivos, metodología y software empleado. 2.1. Objetivos 2.1.1. Objetivo principal. En el contexto territorial de la Comunidad de Madrid el objetivo principal de este trabajo es plantear diferentes metodologías con el fin de predecir la esperanza de vida y conocer las variables más influyentes con el fin de poder orientar actuaciones en aquellos ámbitos con mayor incidencia en la misma. La motivación de este trabajo se desglosa en los siguientes objetivos específicos: 2.1.2. Objetivos específicos - Crear un dataset que permita realizar investigaciones a nivel municipal relacionadas con la calidad de vida de los ciudadanos. - Conocer la importancia de variables socioeconómicas en la esperanza de vida. - Aplicación práctica de los modelos de aprendizaje supervisado y no supervisado en un entorno de gestión pública. - Establecer un punto de partida el diseño de políticas públicas basado en datos, estableciendo una relación entre servicios públicos prestados y la calidad de vida. - Clusterización de territorios para conocer las características comunes que mantienen y así optimizar el uso de fondos públicos. 2.1.3. La variable objetivo: La esperanza de vida al nacer. La esperanza de vida es un indicador que representa el número promedio de años que se espera que viva una persona en una determinada población. El cálculo de la esperanza de vida se basa en datos sobre la mortalidad en la población, es decir, en la cantidad de personas que mueren en un determinado período de tiempo. Para calcular la esperanza de vida al nacer, se utiliza la tabla de mortalidad, que es una tabla que muestra la probabilidad de que una persona de una determinada edad muera en un determinado período de tiempo. Esta tabla se construye a partir de los datos de mortalidad recopilados de una población determinada, generalmente durante un período de varios años. 10 Ilustración 1. Esperanza de vida al nacer. INE. 2021 Para calcular la esperanza de vida al nacer: - Se utiliza la tabla de mortalidad correspondiente al año en que nació la persona. - Se suma la probabilidad de morir en cada edad, multiplicada por la cantidad de años restantes que le quedan a la persona para llegar a la siguiente edad. - Se obtiene un valor promedio que representa la cantidad de años que se espera que viva una persona en esa población. Es importante destacar que la esperanza de vida al nacer es un indicador estadístico que representa el promedio de vida de la población y no una predicción exacta del tiempo que vivirá una persona en particular. La esperanza de vida puede variar según factores como la edad, el género, las condiciones de vida, el acceso a servicios de salud, entre otros.2 Límites del indicador: - Los datos de presentan a nivel nacional, de comunidades autónomas, provincial y para municipios con más de 50.000 habitantes. - De los 8131 municipios que hay en España contamos con valores de Esperanza de vida para 152 municipios para cada año incluida la media de la provincia. - A nivel de la Comunidad de Madrid se reproduce la proporción y para 179 municipios disponemos de 23 valores, 22 municipales y 1 provincial y autonómico para cada año. - Disponemos de datos desde el año 2014 y a fecha de cierre de este trabajo hasta 2020, siendo los datos de 2021 a nivel municipal no disponibles a nivel municipal. 2 Metodología Indicadores Demográficos Básicos. INE https://www.ine.es/metodologia/t20/metodologia_idb.pdf 11 La esperanza de vida es el indicador principal de la dimensión de Salud en las encuestas de condiciones de vida del INE y de Eurostat.3 La metodología empleada se basa en las tablas de mortalidad, año a año, que a su vez tienen sus propios límites a la hora de poder mostrar la información sin vulnerar el secreto estadístico. Es de interés para esta materia tener en cuenta otras metodologías4 que contemplan por ejemplo el cálculo por agrupaciones de 3 años. Igualmente se observan cambios metodológicos relacionados con los censos y los cambios en la recopilación de datos que obligan a ajustar las series. La relación con las variables socioeconómicas se ha planteado en varios estudios como en (Faisal, Alomari, Alasmari, Alghamdi, & Saeedi, 2021) 2.2. Metodología Al plantear la predicción de la esperanza de vida como una forma de poner en relación calidad de vida y prestación de servicios públicos se plantea la necesidad de enfocar un dataset desde ambas perspectivas para posteriormente disponer del catálogo de variables que nos permitirán abordar la parte de minería de datos y modelado. La metodología se divide en 2 partes: - La investigación y creación del dataset, que se denominará SCMadrid y que se centra en los servicios prestados y las variables de calidad de vida en la Comunidad de Madrid - SEMMA. Metodología de minería de datos cuyo objetivo es descubrir patrones de forma automática o semiautomática, cuando a simple vista o con estadística básica no se pueden observar de forma correcta o ni siquiera intuir. Comprende el muestreo, la transformación, la exploración y el modelado. 3 Metodología Indicador Calidad de Vida 2022. INE. 4 OECD Health Satatistics 2022. Definitios, Sources and Methods. Life Expectancy at birth https://www.ine.es/ss/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=attachment%3B+filename%3DMetodologia_ICV_2022.pdf&blobkey=urldata&blobtable=MungoBlobs&blobwhere=230%2F665%2FMetodologia_ICV_2022.pdf&ssbinary=true http://stats.oecd.org/wbos/fileview2.aspx?IDFile=67212df7-883f-42ca-b389-9cb6500545f3 12 Ilustración 2. Esquema TFM 2.2.1. Construcción del dataset Análisis de variables y dimensiones En primer lugar, se investigan las variables y dimensiones empleadas para el estudio de la calidad de vida y la prestación de servicios públicos se observa que tienen un componente muy importante de encuesta para poder extraer la percepción individual de la persona sobre su calidad de vida y por otra parte de inventario. Para medir la calidad de vida se tienen en cuenta diferentes dimensiones según el contexto. El Indicador Multidimensional de Calidad de Vida (IMCV) del INE que se basa en la Encuesta de condiciones de vida, considera 9: Condiciones materiales de vida, trabajo, salud, educación, ocio y relaciones sociales, seguridad física y personal, gobernanza y derechos básicos, entorno y medioambiente y experiencia general de la vida. Por su parte la OCDE en su iniciativa Better Life explora en detalle 15 dimensiones. O el Índice de Desarrollo Humano (IDH) un indicador compuesto que se utiliza para medir el nivel de desarrollo humano de un país. Creado por el Programa de las Naciones Unidas para el Desarrollo (PNUD) y se basa en tres dimensiones principales: La esperanza de vida al nacer, el nivel de educación y el ingreso per cápita, que refleja el nivel de vida de la población. En cuanto a la medición de la prestación de servicios públicos el Índice de vulnerabilidad territorial agregado del Ayuntamiento de Madrid a través de su plataforma Iguala, contempla el Bienestar Social e Igualdad/Economía y Empleo/Educación y Cultura/Medio Ambiente Urbano y Movilidad/ Salud y la Encuesta de calidad de vida y satisfacción con los servicios 13 públicos de la Ciudad de Madrid que presenta un panel de indicadores por distritos y barrios que pretende conocer la valoración que la ciudadanía hace de: ▪ La situación económica ▪ La gestión municipal ▪ La actividad del equipo de gobierno ▪ Las Administración local, de la Comunidad y General del Estado ▪ La candidatura para las olimpiadas de 2036 ▪ Determinar la satisfacción con distintos proyectos municipales. Otros indicadores utilizan dimensiones de corte más económico como el Global Power City Index (GPCI) es un índice que mide la capacidad de las principales ciudades del mundo para atraer y retener talento, negocios y capital a nivel global. Este índice fue desarrollado por el Instituto Mori Memorial de la Universidad de Tokio o el Network Readiness Index (NRI) es un índice que mide la capacidad de los países para aprovechar las oportunidades y beneficios que ofrecen las tecnologías de la información y la comunicación (TIC) para el crecimiento económico y el desarrollo social. En el ámbito normativo destacan la ISO 37120 sobre servicios públicos y gestión de ciudad y la norma AENOR UNE 178. La norma UNE 178 de ciudades inteligentes concreta los servicios de calidad y cercanía para los municipios de menos de 5000 habitantes: procede de la ISO serie 37, 37120 y siguientes que tratan sobre los servicios que prestan las ciudades y se trata a nivel local. Por su parte las dimensiones relacionadas con la sostenibilidad acudimos a los estándares GRI propuestos en la asignatura de Inteligencia de Negocio como referencia a utilizar y contempla las dimensiones de Economía, medioambiente y Social. Una buena referencia es el Sistema Integrado de Datos Municipales, SIDAMUN, de la Secretaría General para el Reto Demográfico del Ministerio para la Transición ecológica y el reto demográfico que pone a disposición de expertos, administraciones y ciudadanía información detallada sobre el estado de situación del territorio y permite al usuario acceder a información municipal y a su visualización provincial, autonómica y nacional, así como realizar consultas personalizadas mediante filtros de búsqueda. Se estructura a través de seis bloques temáticos: demográfico, geográfico, económico, relativo a servicios disponibles, de vivienda y hogar y medioambiental. Su límite es la disponibilidad temporal, ya que actualmente solo integra información recopilada en el 2021.5 En nuestro dataset SCMadrid se han agrupado las variables en 10 dimensiones: 5 SIDAMUN. Sistema Integrado de Datos Municipales: Metodología, abril de 2022 https://www.miteco.gob.es/es/prensa/220630ndpsistemaintegradodedatosmunicipales_tcm30-542278.pdf 14 Análisis de la disponibilidad del dato. Resulta atractiva la idea de generar un dataset a nivel nacional como el disponible para el Ayuntamiento de Madrid o incluso a nivel municipal para todos los datos dados disponibles en SIDAMUN. El primero no se puede reproducir con minería de datos y exploración de variables disponibles por tratarse principalmente de una encuesta. El segundo sí se podría reproducir, si bien la complejidad de extracción y depuración a nivel nacional corresponde a un trabajo más amplio que el que nos ocupa. Así las cosas, como nos interesa profundizar en el nivel municipal por su relación con la gestión administrativa y capacidad de intervención hay que valorar el proceso de ETL y tomar la decisión del ámbito territorial de estudio que será la Comunidad de Madrid, principalmente por 3 motivos: - Disponibilidad de los datos de SIDAMUN para la Comunidad de Madrid. - Disponibilidad de la Base de Datos Municipal y Zonal ALMUDENA. Decisión del nivel territorial en el que se aborda el estudio, Comunidad de Madrid. 2.2.2. Metodología SEMMA La metodología SEMMA es un enfoque de minería de datos utilizado por expertos para desarrollar modelos predictivos. SEMMA es un acrónimo que representa cinco etapas clave: Sample, Explore, Modify, Model y Assess. - Sample (Muestreo): Implica recopilar y seleccionar datos representativos de la población objetivo. Se debe tener cuidado al elegir las muestras para garantizar que sean suficientes y estén equilibradas. Población Territorio Salud Educación Trabajo Economía Servicios Presupuestos Servicios Movilidad 15 - Explore (Explorar): Aquí se realiza un análisis exploratorio de los datos, utilizando técnicas estadísticas y de visualización para comprender mejor las características, las relaciones y las tendencias presentes en los datos. Esto ayuda a identificar patrones y posibles variables predictoras. - Modify (Modificar): En esta etapa, se realizan transformaciones en los datos, como limpieza, filtrado, normalización o discretización, según sea necesario. El objetivo es preparar los datos para el modelado posterior. - Model (Modelar): Aquí se construyen modelos predictivos utilizando técnicas adecuadas, como regresión, clasificación o clustering. Se exploran diferentes enfoques y se selecciona el modelo más apropiado para los datos y el problema en cuestión. - Assess (Evaluar): En la última etapa, se evalúan los modelos construidos utilizando métricas relevantes y técnicas de validación cruzada. Esto permite determinar la precisión y eficacia del modelo, y si es necesario, realizar ajustes o mejoras adicionales. Ilustración 3. Ilustración 3. Minería de datos Extraída de Teaching Data Minining. Javier Álvarez Liébana. Explicación teórica de los modelos El Aprendizaje Supervisado y No Supervisado En el aprendizaje supervisado se utilizan conjuntos de datos de entrenamiento que contienen ejemplos de entradas y las correspondientes salidas deseadas. El objetivo es encontrar un modelo matemático o una función que pueda mapear de manera eficiente las características de entrada a los valores de salida. https://javieralvarezliebana.es/teaching/data_mining/slides/?panelset26=ejercicios22&panelset27=ejercicios-extra4&panelset28=ejercicios23&panelset29=ejercicios24&panelset30=ejercicios-extra5&panelset31=ejercicios25&panelset32=ejercicios26&panelset33=ejercicios27&panelset34=ejercicios28&panelset35=ejercicios-extra6&panelset36=usarrests2&panelset37=ejercicios29&panelset38=ejercicios30&panelset39=ejercicios-extras2&panelset40=ejercicios31&panelset41=ejercicios32&panelset42=ejercicios33&panelset43=ejercicios34&panelset44=ejercicios35&panelset45=ejercicios36&panelset46=ejercicios37&panelset47=ejercicios38&panelset48=ejercicios39&panelset49=ejercicios40&panelset50=ejercicios41&panelset51=ejercicios42#403 16 El aprendizaje supervisado de regresión se aplicará al caso que nos ocupa. La esperanza de vida es una variable continua y su predicción se puede abordar desde la perspectiva de la estadística y la inteligencia artificial utilizando esta técnica de aprendizaje automático. Por su parte el aprendizaje supervisado de clasificación es una técnica de inteligencia artificial que se utiliza para poner etiquetas a las diferentes clases. Con una variable binaria se podrá clasificar por ejemplo en las clases sí o no, en el caso que nos ocupa se puede plantear una clasificación de la esperanza de vida en función de si está por encima de una medida central o no, por ejemplo, la mediana. El aprendizaje no supervisado es una técnica de aprendizaje automático que se utiliza para analizar datos sin etiquetas predefinidas. En el contexto de la caracterización de territorios con variables socioeconómicas, el objetivo es descubrir patrones, estructuras o grupos ocultos en los datos que puedan ayudar a comprender las características socioeconómicas de diferentes áreas geográficas. Regresión lineal: La regresión lineal es un método estadístico utilizado para modelar la relación entre una variable dependiente y una o más variables independientes. Se utiliza para predecir o estimar un valor numérico continuo basado en la relación lineal entre las variables involucradas. El modelo de regresión lineal asume una relación lineal entre la variable dependiente y las variables independientes. La ecuación general de regresión lineal es: y = b0 + b1x1 + b2x2 + ... + bnxn Donde: - y representa la variable dependiente que se quiere predecir. - x1, x2, ..., xn son las variables independientes que se utilizan para predecir la variable dependiente. - b0, b1, b2, ..., bn son los coeficientes de regresión que representan la influencia de cada variable independiente en la variable dependiente. La ecuación puede tener más de una variable independiente (n). El objetivo de la regresión lineal es encontrar los valores óptimos para los coeficientes de regresión (b0, b1, b2, ..., bn) que minimicen la diferencia entre los valores reales y los valores predichos por el modelo. Esto se logra utilizando métodos de estimación como el método de mínimos cuadrados. Una vez que se han estimado los coeficientes, el modelo de regresión lineal se puede utilizar para realizar predicciones sobre nuevos valores de las variables independientes. El modelo calcula una línea recta (o un hiperplano en dimensiones superiores) que mejor se ajusta a los datos y permite estimar el valor de la variable dependiente para cualquier conjunto dado de valores de las variables independientes. 17 Además de la predicción, la regresión lineal también permite analizar la relación entre las variables y evaluar la importancia relativa de cada variable independiente en la predicción de la variable dependiente. Los coeficientes de regresión (b1, b2, ..., bn) proporcionan información sobre la dirección y magnitud del impacto de cada variable independiente en la variable dependiente. Se deben cumplir una serie de premisas: la linealidad de la relación, la independencia de los errores, la homogeneidad de las varianzas y la a suposición de homoscedasticidad, que es la igualdad de las varianzas de los errores en todas las combinaciones de valores de las variables independientes Redes neuronales Una Red Neuronal es en realidad un modelo de la forma y=f(x1,x2,x3,…) donde la función f es por lo general no lineal. Puede abordar problemas de Regresión, regresión no lineal, regresión logística, análisis discriminante, series temporales, análisis Clúster o problemas de Optimización Tiene en cuenta nodos Input =Variables independientes del modelo; Nodos Output=Variables dependientes del modelo (puede haber más de una); Capa oculta =Capa con nodos ocultos (variables artificiales, no existen como tal en los datos) que puede ser una o varias, hasta el Deep learning. Las redes neuronales son de utilidad en muchos casos y en particular serán necesarias cuando no haya linealidad en los datos, funciones desconocidas entre variables input y output, con complejidad de los datos (efecto temporal, muchas variables categóricas, datos censurados) o complejidad del output (varias variables output simultáneas, de diferente tipo). En un modelo de red en regresión la capa input se conecta a la capa oculta mediante la función de combinación, normalmente lineal, representada por Σ, donde los pesos wij hacen el papel de parámetros a estimar. Tras aplicar la función de combinación, aplicamos a cada nodo oculto la función de activación , representada por f . Una función de activación muy utilizada es la tangente hiperbólica. Finalmente aplicamos combinación y después activación de la capa oculta a la capa output. Selección de Variables - Selección de variables utilizando el algoritmo Sequential Backward Selection (SBF) Los métodos de selección de variables SBF son enfoques basados en características o propiedades intrínsecas de las variables. Estos métodos analizan las características estadísticas de las variables y su relación con la variable objetivo, sin involucrar directamente el algoritmo de aprendizaje. Algunos ejemplos comunes de métodos SBF son: 18 Correlación: Se evalúa la relación lineal entre cada variable y la variable objetivo utilizando medidas como el coeficiente de correlación de Pearson. Pruebas estadísticas: Se utilizan pruebas estadísticas, como la prueba t o la prueba chi- cuadrado, para determinar la importancia de cada variable en función de su relación con la variable objetivo. Importancia de características: Algoritmos como el Árbol de Decisión o el Random Forest proporcionan medidas de importancia de características, como la ganancia de información o la importancia de Gini, que se utilizan para clasificar las variables según su relevancia. - Métodos de selección de variables Wrappers: Los métodos de selección de variables Wrappers son enfoques más intensivos en computación, ya que utilizan el algoritmo de aprendizaje en sí para evaluar la relevancia de las variables. Estos métodos envuelven el algoritmo de aprendizaje en un bucle iterativo, donde se prueban diferentes subconjuntos de variables para determinar cuáles son las más adecuadas. Árboles de decisión Un árbol de decisión es una estructura de modelo predictivo que se basa en una representación gráfica similar a un árbol, compuesto por nodos y ramas, donde cada nodo representa una característica o atributo, y cada rama representa una regla de decisión o resultado. El árbol de decisión se utiliza tanto para problemas de clasificación como de regresión. En un árbol de decisión para regresión: La raíz del árbol representa el atributo más relevante o importante para la predicción de valores continuos. Los nodos internos contienen preguntas o reglas de decisión basadas en los valores de atributos específicos. Las ramas representan las respuestas o resultados posibles de acuerdo con las reglas de decisión. Las hojas del árbol contienen los valores de predicción para los ejemplos después de seguir el camino desde la raíz hasta la hoja. Bagging y Random Forest El bagging (Bootstrap aggregating) es una técnica de ensamble utilizada en el aprendizaje automático para mejorar la precisión y la estabilidad de los modelos predictivos. Consiste en construir múltiples modelos de manera independiente y luego combinar sus predicciones para obtener un resultado final. Random forest: Random Forest construye un conjunto de árboles de decisión independientes utilizando técnicas de muestreo bootstrap. Se generan varios conjuntos de datos de entrenamiento mediante muestreo con reemplazo del conjunto de datos de entrenamiento original. 19 La principal diferencia entre Random Forest y el bagging tradicional es cómo se construyen los modelos base. En el caso del bagging, se construyen múltiples modelos de aprendizaje independientes utilizando conjuntos de datos de entrenamiento generados mediante muestreo bootstrap. Cada modelo se entrena de manera individual y produce predicciones independientes. En cambio, Random Forest utiliza una modificación adicional al construir los modelos base, introduciendo aleatoriedad en la construcción de cada árbol de decisión. En lugar de considerar todos los atributos para cada división, Random Forest selecciona aleatoriamente un subconjunto de atributos para cada división. Esto introduce diversidad en los árboles y evita la formación de un modelo base dominante. Después de construir los árboles de decisión mediante Random Forest, las predicciones se combinan mediante promedio (en el caso de regresión) o votación (en el caso de clasificación) para obtener la predicción final. Gradient boosting El Gradient Boosting es una técnica de ensamble que combina múltiples modelos para mejorar la precisión y el rendimiento del modelo predictivo. La idea central del Gradient Boosting es entrenar una secuencia de modelos débiles, como árboles de decisión, de manera secuencial, donde cada modelo se ajusta para corregir los errores cometidos por los modelos anteriores. La principal ventaja del Gradient Boosting es su capacidad para construir un modelo final muy potente a partir de la combinación de múltiples modelos débiles. A medida que se agregan más modelos, el algoritmo aprende a corregir errores y a mejorar la precisión del modelo final. Sin embargo, es importante tener cuidado con el sobreajuste, ya que el algoritmo puede aprender demasiado de los datos de entrenamiento y tener dificultades para generalizar con nuevos datos. Existen varias implementaciones populares de Gradient Boosting, como Gradient Boosting Machine (GBM), XGBoost. GBM GBM construye una secuencia de árboles de decisión de manera secuencial. Cada árbol se ajusta para corregir los errores cometidos por los árboles anteriores. GBM puede ser más propenso al sobreajuste y requiere una cuidadosa selección y ajuste de los parámetros. XGBoost. Extreme Gradient Boosting XGBoost mejora el algoritmo de Gradient Boosting al utilizar técnicas avanzadas de optimización y regularización. incorpora términos de regularización para controlar el sobreajuste y mejorar la generalización del modelo. Estos términos incluyen la penalización 20 de los pesos de los árboles (L1 y L2) y la reducción de la complejidad de los árboles mediante el ajuste de la tasa de aprendizaje. Proporciona una medida de importancia de las características, lo que permite identificar cuáles son las características más relevantes en el proceso de aprendizaje. Requiere un ajuste cuidadoso de sus hiperparámetros para obtener un rendimiento óptimo. Los hiperparámetros incluyen el número de árboles (n_estimators), la profundidad máxima de los árboles (max_depth), la tasa de aprendizaje (learning rate) y otros parámetros relacionados con la regularización y la optimización como reg_alpha y reg_lambda. Entre sus características principales se encuentran: - ofrece regularización avanzada para controlar el sobreajuste y mejorar la generalización del modelo. Proporciona parámetros como max_depth para controlar la profundidad de los árboles, gamma para la reducción mínima requerida en la función de pérdida para realizar una división adicional, y lambda y alpha para controlar la penalización de las hojas y las ramas, respectivamente. - construye el modelo de forma aditiva, donde cada nuevo árbol se ajusta a los residuos del modelo anterior. Puede ser beneficioso cuando hay poca variabilidad en la variable objetivo. - permite utilizar funciones de pérdida personalizadas, lo que te brinda flexibilidad para adaptar el modelo a problemas específicos y métricas de evaluación personalizadas. - está diseñado para ser altamente eficiente y escalable, tiene una optimización eficiente. Utiliza técnicas de optimización y aprovecha el paralelismo para acelerar el entrenamiento del modelo y mejorar el rendimiento en grandes conjuntos de datos. - Puede lidiar con valores faltantes en las variables predictoras durante la construcción del árbol, evitando la necesidad de imputación previa o eliminación de registros. Support Vector Machine SVM se basa en la idea de encontrar un hiperplano óptimo que separe los datos en diferentes clases o se ajuste a los datos de regresión de la mejor manera posible. En regresión se busca una función que minimice la diferencia entre las predicciones y los valores reales, mientras se controle el error máximo permitido. Utiliza parámetros como C que controla la penalización de los errores de clasificación, y el gamma que define el alcance de influencia de cada ejemplo de entrenamiento en la construcción del modelo. Se emplearán las variantes: Lineal, Polinómico y Radial - El SVM lineal utiliza una función de kernel lineal, que es la más simple y directa. No realiza ninguna transformación no lineal de los datos de entrada y se basa en una separación lineal para clasificar o regresar los datos. Es adecuado cuando los datos se pueden separar eficazmente mediante una línea o un hiperplano en el espacio de características original. - El SVM polinómico utiliza una función de kernel polinómica para mapear los datos de entrada a un espacio de características de mayor dimensión. La función de kernel 21 polinómica eleva los datos de entrada a una potencia determinada, lo que permite capturar relaciones no lineales entre las características. La elección de la potencia del polinomio es un hiperparámetro que influye en la flexibilidad y la complejidad del modelo. - El SVM radial utiliza una función de kernel radial, también conocida como RBF (Radial Basis Function). Este kernel mapea los datos de entrada a un espacio de características infinitamente dimensional. El kernel RBF utiliza una función de base radial para medir la similitud o la distancia entre un punto de datos y un centroide o punto de referencia en el espacio de características. El SVM radial es muy flexible y puede capturar relaciones no lineales complejas entre las características. Sin embargo, su uso puede requerir más ajuste de hiperparámetros y puede ser computacionalmente más costoso debido a la mayor dimensionalidad. K-means y clustering jerárquico K-means y clustering jerárquico tienen diferencias significativas en términos de enfoque y resultados. K-means requiere que el número de clústeres K se especifique de antemano, mientras que el clustering jerárquico no tiene esa limitación. Además, K-means es más rápido y eficiente en conjuntos de datos grandes, mientras que el clustering jerárquico puede proporcionar una visión más detallada de la estructura jerárquica de los clústeres. Bondad de ajuste La bondad de ajuste es una medida utilizada para evaluar qué tan bien se ajusta un modelo estadístico a los datos observados. Proporciona información sobre la calidad y la precisión del ajuste del modelo a los datos de muestra. Cuanto mejor se ajuste el modelo, mayor será la bondad de ajuste. Las principales métricas de evaluación de los modelos de regresión son entre otros: - Error cuadrático medio (MSE): Es una medida del promedio de los errores al cuadrado entre los valores predichos y los valores reales. Cuanto menor sea el valor del MSE, mejor será el modelo en términos de precisión. - Raíz del error cuadrático medio (RMSE): Es la raíz cuadrada del MSE y proporciona una medida del error promedio en la misma escala que la variable objetivo. Al igual que el MSE, un valor más bajo indica un mejor rendimiento del modelo. - Error absoluto medio (MAE): Es una medida del promedio de los errores absolutos entre los valores predichos y los valores reales. El MAE es menos sensible a valores atípicos en los datos que el MSE y el RMSE. - Coeficiente de determinación (R^2): Es una medida que indica la proporción de la variabilidad de la variable objetivo que se explica por el modelo. Un valor de R^2 cercano a 1 indica un buen ajuste del modelo, mientras que un valor cercano a 0 indica que el modelo no puede explicar bien la variabilidad de los datos. Validación cruzada repetida 22 La validación cruzada repetida consiste en dividir el conjunto de datos en subconjuntos de entrenamiento y prueba de manera repetida, y luego promediar los resultados para obtener una evaluación más robusta del rendimiento del modelo: permite evaluar el rendimiento del modelo; proporciona una estimación más precisa del error de generalización al evaluar el rendimiento del modelo en múltiples subconjuntos de prueba. Esto ayuda a evaluar cómo se comportará el modelo con datos nuevos y no vistos; permite comparar y seleccionar entre diferentes modelos o configuraciones de modelos al evaluar su rendimiento en múltiples divisiones de los datos; ayuda a detectar y evitar el sobreajuste. Ilustración 4. Validación cruzada con repetición. Análisis de sesgo-varianza Tenemos un modelo y un output real con sus estimaciones y su ruido y por otro lado un output estimado y un error determinado como la media de las equivocaciones al cuadrado Tras descomponer el error tenemos que estará determinado por el cuadrado del sesgo (diferencia media entre la predicción medida del modelo y el valor correcto al predecir), la varianza (a dispersión/variación entre las predicciones individuales y la predicción media) y el ruido (error aleatorio irreducible ε (la componente aleatoria del modelo no determinístico) de media nula. El sesgo será por tanto lo que nos equivocamos/desviamos de forma sistemática y la varianza del modelo será la dispersión entre las predicciones de un mismo valor, como si repitiéramos el modelo con distintas muestras aleatorias obtenidas de la misma población. El problema del sobreajuste responde a un equilibrio entre sesgo y la varianza: - Bajo ajuste (underfitting): modelos muy simples proporcionan un sesgo muy grande, y poca varianza ya que la predicción siempre será muy parecida (errores altos en train). 23 - Sobreajuste (overfitting): modelos muy complicados proporcionan un sesgo bajo, pero al ser tan complejas proporcionarán una mayor varianza para cada intento (errores altos en test). Lo deseable será encontrar ese punto óptimo de equilibrio en el que el error será mínimo. Ilustración 5. Sesgo, varianza y error del modelo Extraída de https://mlu-explain.github.io/bias- variance/ Un modelo muy simple no captura los patrones subyacentes en los datos mientras que un modelo muy complejo solo memoriza, no aprende. 2.3. Software empleado RStudio: RStudio es un entorno de desarrollo integrado para el lenguaje R de programación, un tipo de lenguaje con software libre. R es un lenguaje que comenzó como un experimento tratando de usar los métodos de los implementadores de Lisp, o listas encadenadas, para construir un pequeño banco de pruebas de uso para probar ideas de un entorno estadístico construido. (Ihaka, 1998) Sus inicios se remontan a los laboratorios Bell, que necesitaban una alternativa a los lenguajes más «rudos» y antiguos como C++ o Fortran, lenguajes rápidos en la ejecución, pero complejos en su uso, con una gran curva de aprendizaje y con muy poca capacidad en la visualización de datos que se empezaba a necesitar. (Javier Álvarez Liébana, 2023) A parte de la base de programación del lenguaje R, RStudio completa su solvencia con CRAN (The Comprehensive R Archive Network), una red en la que se archivan todas las versiones de R base, así como todos los paquetes para R que han pasado por un proceso de revisión riguroso, realizado por el CRAN Team, que se encarga de asegurar su correcto funcionamiento. Se ha empleado principalmente para la computación y análisis estadístico y de los modelos, así como para la visualización y creación de gráficos y mapas Python: Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código, se utiliza para desarrollar aplicaciones de todo tipo. https://mlu-explain.github.io/bias-variance/ https://mlu-explain.github.io/bias-variance/ 24 Ante un problema, la programación propone una solución mediante un proceso que toma un algoritmo y lo codifica en un lenguaje de programación, el cual podrá ser ejecutado por un ordenador. Se trata de un software libre cuya licencia es “Python Software Foundation License”, que se distribuye gratuitamente. Su creador es Guido van Rossum y su filosofía: Código limpio y legible. Simple sin ser limitado. Se ha empleado para realizar una extracción de datos a través de técnicas de WebScrapping con Selenium de la Base de datos nacional de subvenciones. Enterprise Miner. SAS SAS (Statistical Analysis System ) es un lenguaje de programación desarrollado por SAS Institute a finales de los años sesenta. El paquete estadístico SAS es utilizado habitualmente por gran cantidad de profesionales de sectores variados como pueden ser el análisis econométrico y financiero, la medicina, estudios de mercados, biología y en general todas las disciplinas donde el tratamiento estadístico de datos sea de cierta importancia. (Portela García-Miguel, 2007) La Suite de SAS tiene más de 200 componentes entre los que se encuentra Enterprise Miner, destinado principalmente a la minería de datos. No se trata de un software libre. Microsoft PBI Power BI es una plataforma unificada y escalable de inteligencia empresarial (BI) con funciones de autoservicio apta para grandes empresas. 3. Construcción del dataset. 3.1. Análisis de variables y dimensiones. Disponibilidad del dato. Partimos de los datos agregados disponibles en SIDAMUN para toda España. - Contempla todos los identificadores únicos de las distintas fuentes y su catálogo muestra el año de extracción y fuente lo que permite decidir su uso posterior, así como su ampliación. - Mantiene la nomenclatura de Entidad y de Municipio que son diferentes, por ejemplo: La Acebeda diferente de Acebeda (La), así como los códigos del INE y los códigos del IGN. - Por nuestra parte veremos que a pesar de estos identificadores será necesario usar el CIF para unir con datos presupuestarios y decidir la forma de geolocalizar las observaciones para explorar sobre mapas los datos. - Se depura el Excel para su incorporación a RStudio como DATOS_TFM_4. 25 - Se incorporan los datos de Almudena el INE y los diferentes ministerios como se detalla en el punto siguiente. SCMADRID SIDAMUN DATOS_TFM_4 DATOS_ TFM_TO TAL3 SCM_FINAL SCM_FINAL _outliers SCM_CLUS TER Territorio España Comunidad de Madrid Municipios 8131 179 Nº de años 1 1 23 10 10 1 Años 2021* 2022* Entre el 2001 y el 2023 2013-2022 2013-2022 2022 Observacione s 8131 180 4378 1790 1780 179 Variables 194 97 84 43 43 46 Dimensiones 5 10 Ilustración 6. Descripción datasets empleados *Se trata del año de referencia de extracción de los datos. Hay variación según la variable desde el año 2013 hasta el año 2022. En Anexo I se muestran los nombres de las variables, su dimensión, descripción y fuentes. La organización de nuestros datos es fundamental para que su preparación y explotación sea lo más eficiente posible por lo que se sigue la filosofía Tidy en todo el proceso. 3.2. Extracción de datos: calidad de vida, servicios y territoriales. ALMUDENA ALMUDENA es el Banco de Datos Municipal del Instituto de Estadística, tiene por objetivo fundamental recoger y facilitar agrupada la información estadística de carácter municipal de la Comunidad de Madrid, con un amplio número de series organizadas por temas. Está integrado dentro del Banco de Datos Estructurales. Permite al usuario la realización de consultas dinámicas, así como la descarga de ficheros y mapas. - Se exportan los csv y se incorporan en RStudio para su tratamiento - Se filtra en un primer momento desde el año 2000 hasta el año disponible más reciente. - Es necesario eliminar filas con celdas combinadas y de zonificaciones y atender a la puntuación decimal. - Se renombra la columna de Entidad, se eliminan las columnas sobrantes y se marca dónde comienza la fila con observaciones de interés, así como la última. - Con pivot_longer se convierte la fuente en formato tidy y se ajusta el tipo de valor a numérico. 26 - Algunos años contendrán una letra que indica el carácter provisional, P o de avance, A. Este proceso se realiza para 12 variables económicas, 10 de población, 24 sociales (9 de educación, 4 de movilidad, 11 de salud y servicios sociales, 1 vivienda), 4 de ocio, 3 presupuestarios de los municipios. INE El atlas de indicadores territoriales del INE permite extraer en un solo lugar varios indicadores de interés a nivel municipal. - Se estudia la API para la extracción mediante la misma, pero la desagregación municipal no está disponible en Esperanza de Vida, se extraen los archivos y se tratan en RStudio. - Se realiza la extracción de microdatos de la ECV para observar cómo se distribuyen los datos de la encuesta por municipios, se descarta, el secreto estadístico hace que se agrupen por 3 categorías que no podemos unir a nuestro dataset. - Es necesario usar técnicas tidy: pivot longer con los años, y extraer el código municipal como identificador único para combinar. Este proceso se realiza para 3 indicadores económicos, y 6 de esperanza de vida Ministerio para la transición ecológica y el reto demográfico Sidamun se emplea como base por la selección de variables. Una vez estudiadas las fuentes de las 200 variables y depurados los datos para nuestro propósito se mantienen 94 que luego serán ampliadas para los años disponibles. Ministerio de Hacienda y Función Pública: Datos de estabilidad presupuestaria por ejercicio liquidado. Se define la situación de estabilidad presupuestaria como el equilibrio o superávit de una Entidad local, medido como la capacidad de financiación en términos de Contabilidad Nacional. Es decir, que sus ingresos sean iguales o mayores a sus gastos en todos los conceptos, salvo en las operaciones financieras (deudas e inversiones en activos financieros). Se explora la base de datos Access para ver su posibilidad de explotación, se descarta por el detalle presupuestario y discrepancias entre los datos de la base y los aportados en las agregaciones de otros formatos. Se opta por la fuente más directa. De todos ellos se eliminan las filas sobrantes, se renombran las columnas y se filtran los datos para la comunidad de Madrid Este proceso se realiza para 2 indicadores presupuestarios para todos los años disponibles en formato Excel, del 2013 al 2021 27 Ministerio de Sanidad: Mantiene el registro de Hospitales a nivel nacional con el número de camas disponibles, solo está disponible para un año, se trata la información, pero finalmente se descarta. BDNS. Base de datos nacional de Subvenciones La base de datos nacional de subvenciones de la Intervención General de la Administración del Estado contiene la información actualizada de los últimos 4 años en el caso de entidades de las subvenciones concedidas entre otra información. La extracción se realiza mediante técnicas de Web Scraping con Python, que finalmente dan lugar a 3 indicadores de concesiones de subvenciones agrupados en 3 categorías, administración pública, educación y servicios y salud En particular se extraen las subvenciones concedidas por la Comunidad de Madrid a los municipios y a las actividades de servicios públicos. • Se utiliza Python y Selenium para la extracción que será en forma de csv para cada servicio público. • Se filtran los municipios y el CIF • Se eliminan las columnas que no interesan se renombran las variables y se combinan todas las extracciones en un único archivo que se integra en RStudio. IGN: El Instituto Geográfico Nacional (IGN) es una institución configurada como una dirección general del Ministerio de Transportes, Movilidad y Agenda Urbana, adscrita a la Subsecretaría, y a cargo de la cual está un director general que es, al mismo tiempo, presidente del Centro Nacional de Información Geográfica (CNIG). En los datos territoriales estamos incorporando la identificación de los municipios, su localización y sus zonificaciones. El territorio de la Comunidad de Madrid se compone de 179 municipios, cuya denominación y código identificativo se encuentra fácilmente en el INE. El IGN ofrece recursos de georreferenciación y formatos espaciales adecuados para el tratamiento posterior de los datos espaciales, representados en mapas. Hay que ser cuidadosos con la nomenclatura tanto de los municipios en ambas fuentes, y otras, como con los códigos, ya que pueden diferir o estar agrupados los dígitos de referencia, además en el IGN para el campo de municipios aparecen 181 polígonos en lugar de 179 en el mapa de límites administrativos debido a 2 espacios de características administrativas particulares. 28 MapSpain6 El paquete MapSpain trata los datos del IGN y su relación con los datos del INE, unifica nomenclatura y aporta los polígonos municipales, será de gran utilidad para combinar los dataset espaciales y de datos. Se emplearán datos del Plan Nacional de Ortofotografía Aérea, el PNOA, que tiene un periodo de actualización de las ortofotos digitales de 3 años, incorpora además la tecnología LIDAR por lo que, aunque no se haga un uso avanzado en este TFM sí conviene tenerlo presente a efectos de tratamiento de datos espaciales. CaTastro Otra fuente de datos territoriales importante es Catastro, del que hay un paquete en R del mismo nombre que extrae los datos de su API, aporta los usos del suelo. Se analiza su estructura y utilidad a través de visualización. No se incorporan los usos del suelo por el tratamiento GIS implicado. Ilustración 7. Ilustración 9. Usos del suelo en Madrid. elaboración propia a partir de Dominic Royé, MapSpain y CaTastro R. 3.3. Combinación de tablas. Se definen una serie de listas de dataframes a combinar por dimensiones a las que pertenecen las variables. Se unirán por los elementos comunes disponibles: Entidad y año, CIF y año. Municipio y Entidad. Se ajusta el código para que no elimine los años con valores ausentes. A su vez, estos DF se unen en una tabla común y los identificadores de código se pueden eliminar. Se guarda el primer dataframe total. Se incorporan datos medioambientales y el CIF: Resultado: 4378 observaciones y 84 variables, de las cuales 11 de tipo cualitativa, 1 de tipo factor y 72 cuantitativas. Cruce de tablas para los datos georreferenciados, desde el dataset de mapSpain y nuestra base. 6 @Manual{R-mapspain, title = {{mapSpain}: Administrative Boundaries of Spain}, year = {2023}, 29 4. Metodología SEMMA 4.1. Sample. Muestreo y particiones Se realiza una partición estratificada del dataset en train y test 80-20 y de test una parte para validación 90-10. El muestreo estratificado en este caso es fundamental dadas las características de la variable objetivo. Permite obtener una muestra representativa de la población. La divide en subgrupos homogéneos llamados estratos y luego selecciona una muestra de cada estrato. Cuando se trata de una variable continua, el muestreo estratificado se realiza dividiendo la población en rangos o intervalos de la variable en cuestión. Estos rangos deben ser mutuamente excluyentes y abarcar toda la gama de valores posibles de la variable continua. A continuación, se selecciona una muestra de cada estrato proporcional al tamaño o peso relativo del estrato en la población total. Esto significa que los estratos con mayor tamaño o importancia en la población tendrán una mayor representación en la muestra. 4.2. Explore & Modify. Las fases de exploración y modificación se van realizando de forma paralela en tanto que la visualización ayuda a ver el comportamiento de los datos, así como la exploración. Se inicia el proceso observando los estadísticos principales, se pasa después a estudiar las correlaciones existentes entre las variables para depurar los datos y las tablas de contingencia y se observan las variables principales y las que no aportan nada al problema. Se estudian los valores ausentes y outliers y los datos de varianza cero que serán eliminados en el proceso de modelado. 4.2.1. Resumen de estadísticos. A continuación, se muestra una tabla con el resumen de los estadísticos principales extraídos son la función summary. Algunas variables tienen una gran diferencia entre la media y la mediana, signo de presencia de outliers, en general sucede con las variables económicas, como los ingresos y gastos liquidados, el PBI o la deuda. Sucede también con la población empadronada. Se debe a la diferencia existente entre los municipios, los municipios de menor tamaño con menor población presentan datos muy diferentes. Los índices serán de utilidad para resolver estas diferencias. 30 4.2.2. Estudio de relaciones entre variables. 4.2.2.1. Correlación Con el análisis de correlación vamos a poder identificar si existe una relación lineal entre dos variables y la dirección de dicha relación. Ayudará a comprender cómo se comportan conjuntamente las variables y si se pueden predecir o explicar una a partir de la otra. Se usará principalmente para la selección de variables: si hay variables que están muy relacionadas entre sí aportarán ruido al modelo y convendrá elegir alguna del par. Esto es especialmente útil en análisis de regresión y modelado estadístico, donde se busca determinar qué variables independientes son relevantes para predecir o explicar una variable dependiente. Disminuirán los problemas de colinealidad como los efectos sobre los coeficientes de regresión ya que puede resultar difícil determinar la contribución individual de cada variable al modelo, hace que los coeficientes de regresión sean altamente sensibles a cambios pequeños en los datos de entrada, puede aumentar la varianza de los coeficientes de regresión y que los intervalos de confianza sean más amplios. Y las variables altamente correlacionadas pueden proporcionar información redundante, lo que dificulta la capacidad del modelo para capturar la variabilidad única de cada variable predictora. Las medidas a tomar son: - Eliminar una o más variables altamente correlacionadas del modelo. - Realizar una transformación de las variables para reducir la correlación. De 17 variables económicas iniciales, elimino 5 De 7 variables medioambientales iniciales, elimino 2. Se recategoriza asignándole 2 niveles, Criterio: mayor o menor a la medida central más favorable. De 14 variables de población iniciales, elimino 6. Se eliminan todas las de EV excepto la variable objetivo por estar altamente relacionadas con la variable dependiente. No aportarían información al estudio. De 12 variables iniciales de servicios incluidas las agrupaciones anteriores no se eliminan ninguna. En los datos territoriales se corrigen los nombres de las variables eliminando espacios y caracteres especiales. Recategorizo por percentiles las variables con mayor diferencia entre la media y la mediana Ilustración 8. Selección Correlación dependiente 31 Ilustración 9. Correlación de variables Estudio completo de la correlación de variables y filtro por importancia: Se observa la Matriz de correlación completa 17 variables de diferentes dimensiones altamente correladas. Las variables independientes tienen una correlación baja o débil con la dependiente. Una modificación en las variables independientes tendrá poca o nula influencia en los cambios de la variable objetivo, pero correlación no implica causalidad y como tal una baja correlación no implica ausencia de causalidad y por lo tanto que no exista una relación entre las variables. Pueden existir relaciones no lineales o dependencias más complejas que no se van a ver en una regresión lineal. 32 Ilustración 10. Correlación completa 4.2.2.2. Contraste de independencia Un contraste de independencia se utiliza para determinar si existe una relación significativa entre dos variables categóricas. El objetivo principal es evaluar si la ocurrencia de los diferentes niveles o categorías de una variable está asociada de manera sistemática con los diferentes niveles o categorías de otra variable. Con el contraste de independencia veo la relación entre las variables categóricas: Ilustración 11. Contraste de independencia El contraste de chi-cuadrado, también conocido como prueba de chi-cuadrado, es una prueba estadística utilizada para determinar si existe una asociación significativa entre dos variables categóricas. Se basa en comparar la frecuencia observada de los datos con la frecuencia esperada bajo una hipótesis nula de independencia. 33 4.2.2.3. Tabla de contingencia Es una forma de organizar los datos cuando se tienen dos variables categóricas. Consiste en una matriz que muestra la distribución conjunta de las categorías de ambas variables y la frecuencia o conteo de casos en cada combinación de categorías. La tabla de contingencia es una herramienta fundamental en el análisis exploratorio de datos y en el estudio de la relación entre variables categóricas. Proporciona una visión general de la distribución conjunta de las variables y permite identificar patrones y asociaciones entre ellas. Se muestra el ejemplo aplicado a las variables medioambientales. Ilustración 12. Tablas de contingencia Indican que a mayor superficie forestal mayor peligro de incendio cuando la superficie quemada y la protegida es mayor, cuando la superficie quemada es menor la relación ya no es tan clara y se iguala el peligro de incendio para mayor superficie forestal. 4.2.2.4. Modelo ANOVA El modelo ANOVA (Análisis de Varianza) es una técnica estadística utilizada para analizar la diferencia entre las medias de dos o más grupos. Es particularmente útil cuando se desea comparar los efectos de diferentes variables categóricas en una variable numérica. Se muestra un ejemplo con la variable agrupada para los equipamientos de educación EDU: Ilustración 13. Modelo ANOVA En este análisis de ANOVA, no se encontró evidencia suficiente para concluir que la variable EDU tiene un efecto significativo en la variable dependiente Pob_EV_Total. 34 4.2.3. Ausentes Tenemos muchas variables ausentes ya que los datos están más o menos disponibles según el año y el tamaño del municipio, los ausentes debidos a errores de codificación también se dan y serán detectados Para Esperanza de vida hay 152 valores, 119 valores únicos, con valores desde 82.05 hasta 86.43 debido a que solo se estima para municipios con más de 50.000 habitantes. Por ello, tradicionalmente la esperanza de vida se representa a nivel de provincia o de Comunidad Autónoma como una media de los valores disponibles y así es como se procede en este trabajo. Partimos de 4.378 observaciones, correspondientes a los valores de las variables de estudio de 10 años [2013-2021] y para 179 municipios. Estos son los datos ausentes iniciales. Ilustración 14. Variables con valores ausentes 35 El tratamiento dado es el siguiente: Se filtran observaciones desde el año 2012, datos disponibles presupuestarios y de esperanza de vida y de 4378 se pasa a 2229 observaciones 2023 gran cantidad de ausentes. Se elimina el año: Quedan 2080 observaciones. Se imputan ausentes en DEGURBA por municipio y Eco_Cap_Nec_Financ por la moda 4.2.4. Outliers. Se calculan por su z-scores. Se considera un valor atípico si su puntuación z (obtenida mediante la función scale()) es mayor que 3.5 o menor que -3.5. Una cifra por encima de lo habitual, 2 o 3 debido a la singularidad del dataset. La puntuación z, también conocida como valor z o estándar, es una medida estadística que indica la distancia de un valor con respecto a la media de una distribución en términos de desviaciones estándar. Se utiliza para evaluar la posición relativa de un valor dentro de una distribución y determinar si el valor es atípico o no. La puntuación z se calcula restando la media de la distribución al valor observado y dividiendo el resultado por la desviación estándar. La fórmula para calcular la puntuación z de un valor x en una distribución con media μ y desviación estándar σ es: z = (x - μ) / σ Un valor z positivo indica que el valor observado está por encima de la media, mientras que un valor z negativo indica que está por debajo de la media. Cuanto mayor es el valor absoluto de la puntuación z, más lejos está el valor observado de la media de la distribución. - Se identifican outliers en 23 variables - Se identifican un total de 362 observaciones con valores ausentes en alguna o varias de estas variables sumando un total de 4448 valores outliers. - Se imputan los valores de la mediana agrupando por zona estadística a los datos ausentes. 4.2.5. Agrupación y creación de variables Se crea la variable de grupos de población para clasificar los municipios por su número de habitantes. - Se crean 11 grupos, cada intervalo tiene un interés particular y son comúnmente empleados en estudios municipales en la Comunidad de Madrid 36 Agrupación de variables de servicios en: - EDU: equipamientos de educación, bibliotecas, institutos, colegios de diferentes ciclos - MOV: transporte público (cercanías, autobuses y vehículos) y gasolineras. - SAL: ambulatorios, consultorios, centros de salud, centros servicios sociales, farmacia - OCI: Bienes culturales, cines que proyectan películas, teatros, bancos, hoteles. - Se crean las variables que agrupan servicios: EDU, SAL, OCI, MOV SCM_FINAL2: 1790 observaciones, 76970 datos, 43 variables, 20 tipo factor y 23 cuantitativas, 0 ausentes. Códigos: EBR_Madrid_6 y Creación_DataSet_2.R Dataset resultado, todos sin datos ausentes. - SCM_FINAL2. Con Madrid capital. Outliers sin tratar. - SCM_FINAL_outliers. Sin Madrid capital y con outliers tratados En los modelos se crearán las dummies correspondientes a las variables cualitativas 4.2.6. Visualización: gráficos y mapas Cada vez es más importante la visualización de los datos en gráficos y mapas, se dice muy a menudo que es la herramienta que tiene el cerebro para ayudarle a pensar y cada vez es más necesaria y está cobrando mayor importancia. En estadística es una práctica habitual, los gráficos y mapas permiten una comprensión más intuitiva y rápida de los datos. Al visualizar los datos de manera visual, se pueden identificar patrones, tendencias, relaciones y anomalías que podrían pasar desapercibidos en una tabla de números. Cada gráfico ayuda a interpretar la información de una forma y según el tipo de variables podremos usar uno u otro. La representación de mapas se realiza con el paquete mapSpain: Administrative Boundaries of Spain, que proporciona información geográfica de España a diferentes niveles. Facilita los shapefiles de municipios, provincias y comunidades autónomas a todos los niveles NUTS. Sirve para georreferenciar los municipios y como diccionario para distintas fuentes. Se descargan los datos básicos de mapSpain para hacer la unión con nuestro dataset de forma que podamos representar todos los valores. Se une por Municipio ajustando algunos nombres. Los mapas representan los datos sobre el año 2020 ya que interesa ver la distribución en el territorio. Se usa la base de mapa del PNOA Variable continua objetivo. Gráfico de dispersión de la distribución a lo largo de los años de la esperanza de vida al nacer. 37 Se observa un progresivo aumento y posterior disminución en el año 2019 afianzándose en 2020 por la pandemia por COVID-19. Ilustración 15. Esperanza de vida al nacer 2014-2020. Comunidad de Madrid Si observamos por grupo de población los valores más altos están en los municipios entre 75001 y 100.000 habitantes, que son 6 municipios. Se compara con la visualización en box- plot. Ilustración 16. Esperanza de vida al nacer por grupo de población. 2020 La esperanza de vida al nacer: la imputación de los ausentes iguala la esperanza de vida en la media quedando las zonas metropolitanas prácticamente como únicas zonas de estudio 38 Mapa 1. EV 2020 El análisis de los estadísticos principales a través de los gráficos box-plot. Observando la distribución en función de a qué grupo pertenecen los municipios según su población. Realizando un gráfico de barras acumuladas por porcentaje se observa la proporción de esperanza de vida por zona geográfica. Lo que suceda en estas zonas será una pista de lo que puede estar influyendo en la esperanza de vida. Ilustración 17. EV por NUTS4 El Oeste metropolitano tiene la esperanza de vida más alta mientras que el sur metropolitano y el este metropolitano con Madrid capital muestran valores más bajos, el resto como ya se avanzaba 39 muestra valores medios condicionados por las imputaciones. Por grupos de población conseguimos variación en el tramo 20.000-50.000 y en el tramo 5000-20000. Ilustración 18. EV por grupo de población Mapa 2. Municipios por grupo de población Una comparativa en las dos zonas más extremas aportan el detalle a nivel de municipio. Siendo significativos los valores de Parla y de Pozuelo de Alarcón. Ilustración 19. EV por municipios. Oeste y Sur metropolitano Visualización de variables continuas: Se usan mapas de calor que si bien son similares a los vistos de correlación aportan otra modalidad a tener en cuenta. 40 Ilustración 20. Heatmap correlación Visualización de variables cualitativas: En la comparación con las variables medioambientales se observa la relación entre una menor masa forestal y mayor variación en la esperanza de vida igual que con la mayor superficie quemada, son vinculados a una mayor población. Ilustración 21. EV y variables medioambientales 41 La representación de los municipios con mayor o menor superficie protegida que la media por zona estadística también permite ver la diferencia entre zonas sin que se observe a priori una relación con el mapa de esperanza de vida. Ilustración y mapa 22. EV y capacidad o necesidad de financiación En el gráfico de barras se observa poca variación en cuanto a la capacidad o necesidad de financión y su relación con la EV. En el mapa se puede ver la distribución de la variable. Mapa 3. Superficie protegida mayor o menor a la media 42 Ilustración y mapa 23. Mayor o menor distancia al hospital El tiempo que se tarda en llegar al hospital influye en la variación en los datos de EV presentando mejor esperanza a menor distancia, también vinculado a la población. En mapa podemos ver los municipios por distancia al hospital general más cercano según los datos de SIDAMUN. En el suroeste con una carga demográfica relativamente importante presenta muchos municipios con alta distancia a un hospital. Otro ejemplo con el número de personas con discapacidad que se verá que es una variable de interés en el estudio, a mayor número de personas con discapacidad reconocida los valores inferiores aumentan. El mayor gasto se concentra en las zonas metropolitanas y es con la necesidad o capacidad de financiación como se observa la “salud” de la economía municipal al estar vinculada con la deuda y los importes no financieros. La necesidad de financiación implica números negativos y no poder responder a los gastos previstos. Se observa una distribución más desigual en cuanto a población o distribución territorial. El grado de envejecimiento aumenta conforme nos alejamos de la capital, situándose la población más joven en el sur metropolitano y alrededores de la capital. Ilustración 24. EV y población con discapacidad 43 Mapa 4. Grado de envejecimiento Mapa 5. Grado de juventud El número de afiliados a la seguridad social se concentra alrededor de la capital. Son las ratios los que nos permiten observar mejor los comportamientos, per cápita o cada 100 o 1000 habitantes. Mapa 6. Afiliados a la Seguridad Social Mapa 7. Paro por 100 habitantes Y a continuación una representación de los gastos liquidados y el grado de ruralidad Mapa 8. Gastos liquidados Mapa 9. Clasificación DEGURBA 44 4.3. Model. Aprendizaje supervisado. Regresión. Se va a tratar de predecir la esperanza de vida al nacer como una combinación lineal de las variables socioeconómicas y de prestación de servicios seleccionadas. Al tratarse de una variable continua estaremos en modo regresión por lo que la predicción y los errores se plantean apuntando al valor exacto. Se realizan varias aproximaciones: la regresión lineal, los árboles de decisión, bagging y Random Forest, redes neuronales, Gradient Bossting Machine, Extreme Gradient Boosting y Support Vector Machine. 4.3.1. Regresión lineal Con el paquete tidymodels se realiza una regresión lineal con el dataset que contiene todos los municipios sin tratamiento de outliers y posteriormente con tratamiento de outliers, se podrá observar así la diferencia en el modelado y los resultados. Se realiza una partición 80-20% estratificada para conseguir un conjunto de entrenamiento y un conjunto de test, sin extracción previa de muestra. Se comprueba. En train hay valores desde 82.050 hasta 86.430 años y en test hay valores desde 82.490 hasta 86.170 años, todos los valores con representación en ambas particiones. Se prepara el esquema de validación cruzada estratificada repetida para la variable dependiente Pob_EV_Total en el conjunto de train para entrenar y afinar el modelo sin interferencias en test. Se genera un objeto que contiene los diferentes conjuntos de entrenamiento y validación. Los datos del conjunto train se dividen en 4 grupos o 'folds' y cada partición se repetirá 8 veces, es decir, habrá 4*8=32 particiones diferentes de los datos para entrenar. Se prepara la receta siguiendo el esquema de tidymodels: - Se prepara la receta con filtro de correlación en 0.3 y filtro de cero varianza, - Se cocina, - Se especifica el modelo de regresión lineal - Se juntan las instrucciones en el flujo de trabajo, - Se entrena: En la fase de ajuste el modelo aprende y estima sus parámetros a partir de los datos de entrenamiento. Aprende de los coeficientes o parámetros de la línea de regresión que minimizan la suma de los errores cuadrados (la diferencia entre los valores predichos por el modelo y los valores reales en los datos de entrenamiento). Se calculan los intervalos de confianza para los coeficientes del modelo con un nivel de 0.95, es decir significaría que podemos estar un 95% seguro de que el verdadero valor del parámetro se encuentra dentro del intervalo de confianza. 45 En el intervalo de confianza de 0.95 tenemos el CIF, el peligro de incendio menor, la superficie forestal menor y la superficie quemada menor. Variables asociadas a la población. - El resultado de r-squared: 0.939 es la proporción de la variación total en la variable dependiente es cercana a 1. El modelo explica una mayor proporción de la variabilidad. - La estadística F muestra que al menos una variable es significativa. Se aplica el diagnóstico: Ilustración 25. Diagnóstico Regresión Lineal 1 Suposición de linealidad: la línea de suavizado muestra que la relación entre las variables no es completamente lineal. Suposición de homocedasticidad: el error no es constante a lo largo de la línea de regresión. Se da heterocedasticidad, hay un patrón según el valor de la variable dependiente. La Multicolinealidad sugiere que hay variables altamente correlacionadas con la predictora. Suposición de normalidad de los residuos en el gráfico Q-Q: no se da en los extremos. Y puede haber un exceso de residuos para un valor particular. 46 Se realiza la evaluación y las métricas del modelo son: - MAE: 0.03895905 - RMSE: 0.1080443 A continuación, se estudian las líneas de regresión de las variables independientes y se observan como los outliers son predominantes incluso se observan grandes diferencias en la población empadronada o los ingresos y gastos liquidados y el número total de afiliados. Aunque forman parte de la realidad del problema y no se pueden obviar, hay que observar la regresión con los outliers tratados, en ningún caso eliminados. Se va a eliminar del modelo el CIF que apunta directamente al municipio y aunque mejora la predicción no aporta soluciones fruto de la predicción. Se estudian las líneas de regresión y las imputaciones de ausentes se hacen evidentes en las líneas horizontales. La edad media de la población y la juventud juegan a favor de la esperanza de vida, mientras que el envejecimiento juega en contra. Tampoco aporta nada al problema. Por su parte aparecen el índice de Gini un indicador de desigualdad y el paro de nuevo con mayor peso que las variables de mortalidad. Ilustración 27. Líneas de regresión var. independientes 2 Ilustración 28. Coeficientes rRL 2 Ilustración 26. Predicción RL1 47 Los coeficientes positivos muy discretos muestran una relación a favor de la esperanza de vida, si sube uno sube el otro y los coeficientes negativos, al contrario. Destacan el PBI municipal y los Gastos liquidados. Ilustración 29. Coeficientes de RL 2 Aplicando una receta con umbral de correlación al 0.7 los predictores se ajustan ya que hay muchos menos casos. Ilustración 30. Estimadores RL 2 Aparece la variable de consumo de energía eléctrica y el número de establecimientos de hotel, el resto siguen siendo variables económicas. El año no aporta valor y se retirará de los modelos. Técnicas como la regularización (por ejemplo, Ridge o Lasso) pueden ayudar a manejar la multicolinealidad. Estas técnicas añaden un término de penalización al modelo de regresión que puede ayudar a reducir los coeficientes de las variables predictoras correlacionadas Regresión con las zonas estadísticas y umbral de regresión 0.5 Se observa una discreta relación inversa entre la esperanza de vida y las variables de temporalidad, consumo de energía eléctrica el paro o el PBI municipal, muy poco peso como para poder ser valorado. El diagnóstico es similar: falta linealidad, no se cumple la heterocedasticidad, hay cierta normalidad en los residuos y aparecen más variables contribuyendo a la multicolinealidad. 48 Ilustración 31. Diagnóstico y evaluación RL 3 Mejora el modelo por la incorporación de las zonas estadísticas, en la evaluación se observa la representación gráfica Con outliers y sin Madrid estamos con resultados similares. Ilustración 32. Diagnóstico RL5 49 A continuación, los estimadores principales. El valor p se utiliza para evaluar la significancia estadística de los coeficientes de regresión, es decir, si los coeficientes son diferentes de cero y en general, se utiliza un umbral comúnmente aceptado de 0.05 (o 5%) para determinar la significancia estadística. Si el valor p es menor que 0.05, se considera que el coeficiente es estadísticamente significativo. Ilustración 33. Estimadores RL 5 Tienen un valor p significativo las variables de paro, superficie forestal menor la distancia a la autovía o pertenecer a un municipio con menos de 100 habitantes o entre 251 y 500, esto es por la imputación de la media por zona al carecer de datos. 4.3.1. Selección de Variables. Tras el estudio realizado en la regresión lineal para la selección de variables partimos del dataset sin Madrid y sin outliers. Se trabaja sobre SCM_FINAL_SELML en el código SEL_ML Se va a eliminar del modelo la variable de zonas estadísticas y se mantienen los municipios agrupados por número de población. Va a dificultar la predicción, pero permitirá ver los pesos de otras variables. Se crean listas con las variables de interés. Se estandariza la variable dependiente y se observa con la frecuencia de las variables categóricas que están bien representadas. Se crean las dummies y se guarda el archivo SCM_FINAL_SELML2.csv Tras realizar la selección de variables con los métodos anteriores se obtienen los resultados mostrados en la tabla que incluye los resultados de la fase train. A continuación, se observan en box-plot la representación de los errores. Tabla 1. Selección de variables 1 Método Nº Nombre de las variables SBF 25 "Eco_Afiliados_Tem_Porc_Resid", "Eco_Afiliados_Total", "Eco_Contratos_Temp", " Eco_Establec_Hotel", "Eco_Ind_RDBM_PC", "Eco_Indice_Gini", "Eco_Paro_100", " Eco_PBI_municipal_pc", "Eco_Pre_Deuda_Viva", "Eco_Pre_Gastos_Liquidados", " Eco_Pre_Ingresos_Liquidados", "Pob_Edad_Media", "Pob_Empadronada", "Pob_E nvejecimiento", "Pob_Juventud", "DEGURBA.1", "MA_Sup_Protegida.Mayor", "MA_ Sup_Protegida.Menor", "MA_Sup_quemada.Mayor", "MA_Sup_quemada.Menor", " Pob_Grupo.100001_500000_hab", "Pob_Grupo.20001_50000_hab", "Pob_Grupo.7 5001_100000_hab", "Soc_Mov_Auto_T.menor_de_3", "SAL.de_6_a_10" RFE 68 Casi todas, se va a descartar 50 STEPWISE, BACKWARD, FORWARD AIC 28 "Eco_Ind_RDBM_PC", "Pob_Grupo.100001_500000_hab", "Pob_Envejecimiento", " Eco_Afiliados_Tem_Porc_Resid", "DEGURBA.2", "Eco_Indice_Gini", "Soc_Mov_Au to_T.menor_de_3", "Eco_Energ_Elect_PC", "Eco_Establec_Hotel", "Eco_Pre_Gast os_Liquidados", "Eco_PBI_municipal_pc", "Soc_Mov_Hosp_T.Mayor", "SAL.de_6_a _10", "MOV.13_o_más", "Pob_Grupo.251_500_hab", "Superficie", "Eco_Paro_100", "SAL.11_o_más", "EDU.25_o_más", "Pob_Grupo.20001_50000_hab", "Pob_Empad ronada", "MA_Sup_Forestal_Total.Mayor", "Pob_Grupo.501_1000_hab", "`MOV.de 6_a_12`", "Pob_Grupo.101_250_hab", "Eco_Pre_Deuda_Viva", "Soc_Mov_Auto_T. de_4_a_7", "MA_Sup_Protegida.Mayor" BIC 16 "Eco_Ind_RDBM_PC", "Pob_Grupo.100001_500000_hab", "Pob_Envejecimiento", " Eco_Afiliados_Tem_Porc_Resid", "DEGURBA.2", "Eco_Indice_Gini", "Soc_Mov_Au to_T.menor_de_3", "Eco_Energ_Elect_PC","Eco_Establec_Hotel", "Eco_Pre_Gasto s_Liquidados", "Eco_PBI_municipal_pc","Soc_Mov_Hosp_T.Mayor", "SAL.de_6_a_ 10", "MOV.13_o_más", "Pob_Grupo.251_500_hab" BORUTA 54 Casi todas, se va a descartar 54 attributes confirmed important: DEGURBA.1, DEGURBA.2, DEGURBA.3,Eco_Afi liados_Tem_Porc_Resid, Eco_Afiliados_Total and 49 more 10 attributes confirmed unimportant: Eco_Cap_Nec_Financ, EDU.menor_de_3, MO V.de_4_a_5, MOV.menor_de_3, Pob_Grupo.101_250_hab and 5 more MMPC 7 "Eco_Afiliados_Tem_Porc_Resid", "Eco_Energ_Elect_PC", "Eco_Ind_RDBM_PC", " Eco_Indice_Gini", "Eco_Paro_100", "Pob_Grupo.100001_500000_hab", "Pob_Grup o.75001_100000_hab" SES 7 "Eco_Afiliados_Tem_Porc_Resid", "Eco_Energ_Elect_PC", "Eco_Ind_RDBM_PC", " Eco_Indice_Gini", "Eco_Paro_100", "Pob_Grupo.100001_500000_hab", "Pob_Grup o.75001_100000_hab" STEPrep1-AIC 11 "Eco_Ind_RDBM_PC", "Pob_Grupo.100001_500000_hab", "Pob_Envejecimiento", " Eco_Indice_Gini", "Eco_Afiliados_Tem_Porc_Resid", "DEGURBA.2", "Soc_Mov_Au to_T.menor_de_3", "Eco_Energ_Elect_PC", "Eco_Pre_Gastos_Liquidados", "Eco_P BI_municipal_pc", "Eco_Establec_Hotel" STEPrep2-BIC 12 "Eco_Ind_RDBM_PC", "Pob_Grupo.100001_500000_hab", "Pob_Envejecimiento", " DEGURBA.2", "Eco_Afiliados_Tem_Porc_Resid", "Soc_Mov_Auto_T.menor_de_3", "Eco_Energ_Elect_PC", "Eco_Indice_Gini", "Eco_Establec_Hotel", "Eco_Pre_Gasto s_Liquidados", "Eco_PBI_municipal_pc", "Soc_Mov_Hosp_T.Mayor 51 Ilustración 34. Box Plot errores Selección de variables 1 Se descartan los modelos con la selección de variables SBF y SES. Un sesgo alto indica que los modelos tienden a tener un error sistemático significativo, lo que implica un sesgo en la estimación. Los box plots con una mediana alejada del valor esperado y las asimetría en la distribución de los MSE hacia un lado, pueden indicar un sesgo en los modelos. Una varianza alta indica que los diferentes modelos tienen una variabilidad significativa en términos de su rendimiento y precisión de predicción. Una caja más amplia o bigotes más extendidos en los box plots, pueden indicar una mayor varianza entre los modelos evaluados. Elección del mejor modelo: ningún modelo es bueno, pero STEPrep2 con 12 variables puede funcionar bien. Importancia de variables con Random Forest La columna %IncMSE es una medida de la importancia de las variables basada en el aumento del error cuadrático medio (Mean Squared Error, MSE) cuando se permuta la variable en cuestión. Por otro lado, IncNodePurity es una medida basada en el 52 total de las disminuciones de impureza de los nodos que resultan de las divisiones sobre esa variable, acumuladas sobre todos los árboles en el bosque. 4.3.2. Árbol simple Se realiza un modelo de árbol simple con una profundidad 10 y un número mínimo de observaciones requeridas en cada hoja del árbol de 3 por el número de filas en el conjunto de datos SCM_FINAL_RF_test. Esta configuración garantiza que cada hoja del árbol tenga al menos un número mínimo de observaciones. El umbral de correlación se marca en 0.5 y se va variando para observar los resultados, en este caso sin cambios Se realiza con tidymodels Es un conjunto de datos con un número limitado de observaciones y poca variabilidad por ello no hay más ramas. Las métricas de evaluación se muestran a continuación, son errores muy altos. Las ramas son dos determinadas por el paro. Ilustración 35. Errores árbol 1 Sin outliers la situación es igual, insuficiente número de observaciones para obtener más ramas, sin embargo, se pone de manifiesto la importancia de las variables de trabajo y económicas. Ilustración 36. Errores árbol 2 53 La importancia de las variables es Terr_Zonas_Estad_ 67 Eco_Establec_Hotel 17 MA_Sup_Protegida 5 Pob_Juventud 4 Pob_Grupo 3 Eco_Afiliados_Tem_Porc_Resid 3 Ilustración 37. Importancia variables en árbol simple En el nodo 1 las estadísticas son las siguientes: - Observaciones: 1431. - Parámetro de complejidad: 0.1284741. - Media: La media de la variable objetivo en este nodo es 84.2026. - Error cuadrático medio (MSE): 0.1429886. - Hijo izquierdo: El hijo izquierdo del nodo 1 es el nodo 2, con 886 observaciones. - Hijo derecho: El hijo derecho del nodo 1 es el nodo 3, con 545 observaciones. - Divisiones primarias: las características y puntos de corte utilizados para dividir el nodo, junto con la mejora obtenida por esa división. - Divisiones sustitutas: Estas son divisiones alternativas utilizadas cuando los valores de las divisiones primarias están ausentes. Muestran la característica y el acuerdo y ajuste asociados. En los nodos 2 y 3 solo se muestran las observaciones, 886 y 545 respectivamente, las medias: 84.09 y 84.37 y el error MSE: 0.09 y 0.17 En la construcción del árbol solo se ha usado las zonas estadísticas. El hecho de que solo se haya utilizado una variable en el árbol no significa necesariamente que las otras variables no sean importantes o relevantes para el problema de regresión. El algoritmo haya encontrado que la variable Terr_Zonas_Estad_CM tiene un impacto más significativo en la predicción del resultado deseado en comparación con las otras variables en el conjunto de datos. El árbol de regresión se construye de manera iterativa y puede haber otros nodos en el árbol que utilizan diferentes variables para realizar divisiones adicionales. 4.3.3. Random forest y bagging Random Forest crea un conjunto de árboles de decisión independientes, donde cada árbol se construye utilizando una muestra aleatoria con reemplazo del conjunto de datos de entrenamiento (bootstrap sample) y solo considera un subconjunto aleatorio de características en cada división del árbol (subconjuntos aleatorios de características). Random Forest busca reducir el error al promediar las predicciones de varios árboles independientes. Cada árbol tiene igual peso en la predicción final. Luego, las predicciones se promedian o se combinan de alguna manera para obtener la predicción final. 54 El modelo de random forest con tidymodel se ajusta a un ntree de 500 y se utiliza todo el dataset de train. Se utiliza para observar la importancia de las variables y su selección. Los resultados de la evaluación son los siguientes que sugieren un mejor ajuste al mostrado anteriormente. A la hora de observar el comportamiento de las predicciones el gráfico no muestra una tendencia clara. 4.3.4. GBM. Gradient Boosting Machine. GBM construye los árboles de decisión de manera secuencial, donde cada árbol se construye para mejorar los errores cometidos por los árboles anteriores. GBM se basa en el concepto de refuerzo (boosting) y utiliza gradientes para ajustar los pesos de los ejemplos y guiar la construcción de los árboles. GBM puede ser más propenso al sobreajuste que Random Forest si no se ajusta correctamente, ya que puede llegar a ajustarse demasiado a los datos de entrenamiento Se crea un cuadro de búsqueda de hiperparámetros para el algoritmo de Gradient Boosting Machine (GBM). Las entradas dentro de expand.grid() son las diferentes opciones para los hiperparámetros que te gustaría probar en el modelo GBM. Cada uno de estos hiperparámetros tiene un impacto específico en cómo se ajusta el modelo GBM: • shrinkage: Este es el parámetro de tasa de aprendizaje y ayuda a reducir la complejidad del modelo al disminuir la contribución de cada árbol a la suma final en el GBM. • Valor pequeño más robusto y también más árboles • n.minobsinnode: Es el número mínimo de observaciones que deben existir en un nodo para que se pueda dividir. Aquí estás probando con un valor, 10. • n.trees: Este es el número de árboles de decisión que se utilizarán en el modelo GBM. Estás considerando varios valores: 50, 100, 300, 500, 800, 1000, 1200. • interaction.depth: Este es el número máximo de divisiones en cada árbol, es decir, la profundidad del árbol. En tu caso, estás probando con una profundidad de 2. 55 Primera prueba de grid con n.trees: 50,100,300,500,800,1000,1200 y shrinkage 0.1, 0.2,0.4,1 RMSE se utilizó para seleccionar el modelo óptimo utilizando el valor más bajo. Los valores finales utilizados para el modelo fueron: n.trees = 1200, interaction.depth = 2, shrinkage = 0.2 and n.minobsinnode = 10. Ilustración 38. GBM. Shrinkage- iterations Segunda prueba de grid: Viendo la gráfic a se ajusta el modelo para ver cómo funcio na con intervalos más amplios de árboles s e prueba con un grid n.trees=c(800,1000,1 200,1250,1300,1400) y el shrinkage se deja en 0.2 Los valores finales utilizados para el modelo fueron: n.trees = 1400, interaction.depth = 2, shrinkage = 0.2 and n.minobsinnode = 10. Se muestran los errores en función de las iteraciones como se observa una leve subida entr e 1000 y 1200 seguida de una fuerte bajada que sugiere sobreajuste se repite en un tercer g rid las iteraciones que son las del segundo cuadro a la derecha. El número de árboles óptimo se sitúa en 950 a partir de ahí se sugiere sobreajuste en el modelo. Ilustración 39. GBM. Boosting iterations 56 El gráfico de importancia de las variables muestra la dimensión económica en primera posici ón, también envejecimiento y mayor distancia a la autovía, vuelven a aparecer el paro, el nú mero de hoteles o el consumo eléctrico. La selección final es de 23 variables, 950 árboles, shrinkage=0.2, n.minobsinnode = 10 y interaction.depth = 2 La importancia de las variables con GBM Ilustración 40. Importancia variables GBM Se carga en los gráficos para comparar resultados con los anteriores modelos. Tabla 2. Importancia variables RF y GBM RF 16 "Eco_Ind_RDBM_PC", "Eco_Paro_100","Eco_Afiliados_Tem_P orc_Resid", "Eco_Pre_Ingresos_Liquidados","Pob_Empadrona da"Eco_Pre_Gastos_Liquidados","Eco_PBI_municipal_pc" , " Eco_Afiliados_Total" "Eco_Energ_Elect_PC""Eco_Indice_Gini" " Superficie" , "Pob_Envejecimiento", "Eco_Establec_Hotel" , "E co_Pre_Deuda_Viva"Eco_Contratos_Temp" , "Pob_Juventud" "Pob_Edad_Media" , "MOV.13_o_más" "Soc_Salud_Def_Otr as" method="rf",trControl=control,tuneGrid=rfgrid,linout = T,ntree=300,nodesize=10,replace=TRUE,imp ortance=TRUE GBM 23 "Eco_Ind_RDBM_PC", "Pob_Empadronada", "Eco_Pre_Ingreso s_Liquidados", "Superficie", "Eco_Paro_100", "Eco_PBI_municip al_pc", "Eco_Establec_Hotel","Eco_Afiliados_Total", "Eco_Ener g_Elect_PC", "Pob_Envejecimiento", "Eco_Indice_Gini", "MOV.1 3_o_más", "Eco_Afiliados_Tem_Porc_Resid","Pob_Grupo.1000 57 01_500000_hab", "Eco_Pre_Gastos_Liquidados", "Pob_Grupo. 20001_50000_hab","Pob_Juventud", "Eco_Pre_Deuda_Viva", " Eco_Contratos_Temp", "Pob_Edad_Media", "Soc_Salud_Def_Si stResp", "Soc_Salud_Def_SistCirc", "Soc_Salud_Def_Otras" 23 variables y 950 árboles, shrinkage=0.2 n.minobsinnode=c(10) interaction.depth=c(2) Se incorpora la selección de variables en los modelos con validación cruzada y se observan los errores en los box-plot: Ilustración 41. Box Plot errores GBM y RF Un sesgo alto indica que los modelos tienden a tener un error sistemático significativo, lo que implica un sesgo en la estimación. Los box plots con una mediana alejada del valor esperado y las asimetría en la distribución de los MSE hacia un lado, pueden indicar un sesgo en los modelos. Una varianza alta indica que los diferentes modelos tienen una variabilidad significativa en términos de su rendimiento y precisión de predicción. Una caja más amplia o bigotes más extendidos en los box plots, pueden indicar una mayor varianza entre los modelos evaluados. Ninguno de los modelos presenta un equilibrio sesgo – varianza óptimo y los errores son elevados, teniendo en cuenta que estar más alejado de la media me indica alto sesgo y una extensión de la caja una varianza alta el modelo stepAIC, aunque presenta el menor error no sería el mejor, quizás STEPrep2 que tiene un sesgo y varianza más ajustada, aunque hay algún error importante, mostrado por el atípico. 4.3.5. Redes neuronales Selección de hiperparámetros. Se prepara la validación cruzada y el grid de selección de hiperparámetros: - size: se refiere al tamaño de la capa oculta de la red neuronal. o Un tamaño más grande de la capa oculta implica una red neuronal más compleja y con mayor capacidad de aprendizaje, pero también puede llevar a un mayor costo computacional y un mayor riesgo de sobreajuste si no se controla adecuadamente. 58 - decay: es el hiperparámetro de decaimiento, es la tasa de penalización aplicada a los pesos de la red neuronal durante el proceso de entrenamiento. Esta penalización se utiliza para controlar el sobreajuste al agregar un término de regularización a la función de pérdida utilizada en el entrenamiento. o Un valor más alto de decay aumenta la penalización y puede ayudar a reducir el sobreajuste, aunque también puede afectar el rendimiento general del modelo si se establece en un valor demasiado alto. El grid se prueba con en una primera selección se prueba con size 10, decay c(0.01,0.1,0.001,0.0001) y las siguientes iteraciones (10,20,50,100,200,300,500,1000,2000,3000) Con las variables del modelo AIC Ilustración 42. Red. Selección hiperparámetros 1 A partir de 100 iteraciones la dispersión aumenta para cada uno de los índices de decaimiento, el 0.1 continua un descenso progresivo. La iteración es de los valores más bajos del grid , limitará el sobreajuste, el segundo lo contrario, tiene uno de los valores más altos del grid también controlará el sobreajuste. Es un modelo muy rígido que quizás dificulte la predicción. RED1: Se entrena la red con las variables del modelo AIC y los siguientes hiperparámetros grupos=4,sinicio=1234,repe=25,repeticiones=5,itera=100, decay 0.1, size 5 Los resultados en train son los siguientes y se compararán en gráfico con los demás. 59 RED 2 Se realiza el grid con las variables de steprep2 que tiene menor número de variables y se prueba un intervalo de decay=c(0.001,0.0001,0.01,0.02,0.05,0.1),y listaiter<- c(10,15,20,25,30,35,40,50,75,100,200) Ilustración 43. Red. Selección hiperparámetros 2 Se observa un mayor agrupamiento con menos iteraciones, un ascenso del error en el decay más bajo y una disminución progresiva en el resto, probamos con un decay más flexible. grupos=4,sinicio=1234,repe=25,repeticiones=5,itera=100,size=c(5),decay=c(0.001) Los resultados en train son los siguientes, ligeramente más elevados que en RED1 Se muestran en gráficos los errores de los modelos realizados hasta ahora y se confirma que en train Red1 tiene el mejor resultado, sin que este sea muy bueno, recordemos que estamos en un intervalo de 4 unidades, los decimales en este caso implican altos porcentajes de error. Ilustración 44. Box Plot errores Red 60 Selección en base al error y el equilibrio sesgo – varianza. Un sesgo alto indica que los modelos tienden a tener un error sistemático significativo, lo que implica un sesgo en la estimación. Los box plots con una mediana alejada del valor esperado y las asimetría en la distribución de los MSE hacia un lado, pueden indicar un sesgo en los modelos. Una varianza alta indica que los diferentes modelos tienen una variabilidad significativa en términos de su rendimiento y precisión de predicción. Una caja más amplia o bigotes más extendidos en los box plots, pueden indicar una mayor varianza entre los modelos evaluados. Teniendo en cuenta lo anterior el mejor modelo sería el de Red1 4.3.6. XGBoost. Extreme Gradient Boosting XGBoost (Extreme Gradient Boosting) se basa en gradient boosting. Utiliza una estrategia similar al bagging al agregar regularización y controlar la complejidad del modelo a través de la selección aleatoria de características y la creación de submuestras. Sin embargo, esta técnica se basa en un enfoque más complejo que combina características del bagging y del Gradient Boosting. Configuración de hiperparámetros - min_child_weight: Define la suma mínima de peso de todas las observaciones requeridas en un niño (nodo hijo). Este parámetro se utiliza para controlar el sobreajuste. o Cuanto mayor es el valor, más conservador es el modelo. - eta: Es la tasa de aprendizaje, también conocida como 'shrinkage'. Este parámetro reduce la contribución de cada árbol a la predicción final, lo que puede prevenir el sobreajuste. - nrounds: Este es el número total de iteraciones, es decir, el número total de árboles que se construyen en el modelo. - max_depth: Es la profundidad máxima de un árbol. o Cuanto más profundo es el árbol, más complejo es el modelo y más probable es que se produzca el sobreajuste. - gamma: Un parámetro de regularización que hace que el algoritmo sea más conservador. o Cuanto más alto es el valor, más conservador será el algoritmo. - colsample_bytree: Es la fracción de columnas a utilizar por cada árbol. - subsample: Es la fracción de observaciones a utilizar por cada árbol. o Si es menor a 1, el algoritmo seleccionará aleatoriamente una muestra del conjunto de datos para cada árbol, lo que puede ayudar a prevenir el sobreajuste. 61 XGBoost1: GRID1: Se establece un grid inicial de hiperparámetros con min_child_weight = c(5, 10, 20), eta = c(0.1, 0.05, 0.03, 0.01, 0.001) y nrounds = c(100, 500, 1000, 5000) con los siguientes fijos: max_depth = 6, gamma = 0, colsample_bytree = 1, subsample = 1 Se está probando con todo el dataset. El parámetro de ajuste 'subsample' se mantuvo constante en un valor de 1. Se utilizó el error cuadrático medio (RMSE) para seleccionar el modelo óptimo utilizando el valor más pequeño. Los valores finales utilizados para el modelo fueron: nrounds = 5000, max_depth = 6, eta = 0.02, gamma = 0, colsample_bytree = 1, min_child_weight = 10 y subsample = 1. Ilustración 45. XGBoost. Selección hiperparámetros 1 A la vista de los resultados se entrenará el modelo con los siguientes hiperparámetros min_child_weight=10,eta=0.02,nrounds=100,max_depth=5,gamma=0,colsample_bytree=1,s ubsample=1 XGBM2 – EARLY STOPPING 62 GRID2. Se prueban los hiperparámetros eta = c(0.01,0.02,0.03,0.05), min_child_weight=c(10),nrounds=c(1000,2000),max_depth=6,gamma=0,colsample_bytree= 1,subsample=1 Está representando una parte muy concreta y aumentada de este intervalo que en gráfico con mayor distancia en el eje X se muestra con un aumento muy sutil. Es una muestra del momento en el que aumenta el error y por lo tanto con interesará un shrinkage más alto. En el siguiente gráfico se observa mejor cómo responden los hiperparámetros. Ilustración 47. XGBoost. Selección hiperparámetros 3 A la vista de los resultados se prueba con los hiperparámetros: min_child_weight=10, eta=0.02,nrounds=500,max_depth=5, gamma=0,colsample_bytree=1,subsample=1 Importancia de las variables en XGBM Ilustración 46. XGBoost. Selección hiperparámetros 2 63 Ilustración 48. Importancia variables XGB Se muestran los gráficos agrupados con la selección de los 4 mejores directamente. Ilustración 49. XGBoost. Box Plot errores Selección en base al error y el equilibrio sesgo – varianza. Un sesgo alto indica que los modelos tienden a tener un error sistemático significativo, lo que implica un sesgo en la estimación. Los box plots con una mediana alejada del valor esperado y las asimetría en la distribución de los MSE hacia un lado, pueden indicar un sesgo en los modelos. Una varianza alta indica que los diferentes modelos tienen una variabilidad significativa en términos de su rendimiento y precisión de predicción. Una caja más amplia o bigotes más extendidos en los box plots, pueden indicar una mayor varianza entre los modelos evaluados. Teniendo en cuenta lo anterior el mejor modelo sería el de XGBM1 Los resultados de train de XGBoost 1 Los resultados de train de XGBoost 2 64 XGBM3 y XGBM4 Se cambian las semillas y el parámetro Alpha de regularización. XGBM3. Hiperparámetros: min_child_weight=10,eta=0.02,nrounds=500,max_depth=8, gamma=0,colsample_bytree=1,subsample=0.8, alpha=0.3 XGBM4. Hiperparámetros: min_child_weight=10,eta=0.03,nrounds=500,max_depth=6, gamma=0,colsample_bytree=1,subsample=1,alpha=0.5 Resultados gráficos combinados con los anteriores: Ilustración 50. Box Plot Red y XGBM Aunque estos modelos mejoran el error desequilibran el sesgo- varianza siendo mejor en este sentido el 1 por encima de las redes. Entre XGBM3 y XGBM4 considero mejor el 3, media más equilibrada y menor variación en la caja. La variación en el error es importante, por lo que habría que evaluarlos para tener más objetividad. Los resultados en train de XGBoost3 Los resultados en train de XGBoost4 65 4.3.7. SVM. Support Vector Machine. en la regresión con SVM, C se utiliza para controlar el trade-off entre el ajuste de los puntos de datos de entrenamiento y la complejidad del modelo. En la regresión con SVM, el objetivo es encontrar una función de regresión que se ajuste bien a los puntos de datos de entrenamiento mientras se busca un buen equilibrio entre el ajuste y la suavidad de la función. Aquí es donde el parámetro C juega un papel importante: - Un valor bajo de C: Implica una regularización suave, lo que permite que la función de regresión se ajuste mejor a los puntos de datos de entrenamiento, incluso si esto resulta en un ajuste deficiente en algunos puntos o si hay más violaciones del margen. o Resultará un modelo más flexible con una mayor capacidad para adaptarse a los puntos de datos de entrenamiento, pero también puede llevar a un mayor riesgo de sobreajuste. - Un valor alto de C: Implica una regularización más fuerte, lo que penaliza las desviaciones y violaciones del margen (los puntos de datos que no se encuentran dentro del margen óptimo definido por el hiperplano de separación entre las clases) con más severidad. o Resultará un modelo más simple con una menor capacidad para adaptarse a variaciones en los datos de entrenamiento, pero también puede mejorar la capacidad de generalización del modelo. Selección hiperparámetro C Se establece un primer grid de C=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10) Como se espera que los datos de regresión sean ruidosos o si se permite cierto grado de error en el ajuste, se puede seleccionar un valor más bajo de C para obtener un modelo más flexible. Por otro lado, si se requiere un ajuste suave y generalizado o si se sospecha que los datos son más limpios, se puede elegir un valor más alto de C para obtener un modelo más simple. SVM Lineal El rendimiento del modelo con diferentes valores de C en términos de RMSE, R, squared y MAE, se busca un equilibrio entre un buen ajuste a los datos de entrenamiento y la capacidad de generalización a nuevos datos. Se observa en los resultados que los valores de C alrededor de 0.1 a 1.0 pueden tener un buen equilibrio entre las métricas de evaluación y la desviación estándar. Ilustración 51. SVM Selección hiperparámetros 1 66 Estos valores muestran un rendimiento consistente en términos de RMSE, R-squared y MAE, con desviaciones estándar relativamente bajas. Selección hiperparámetros C, degree, scale, degree SVC polinomial Se establece un grid de C=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10) degree=c(2,3): Un valor de "degree" más alto permite interacciones polinómicas más complejas entre las características, lo que puede capturar relaciones no lineales más complicadas. Por ejemplo, con "degree=2", el kernel polinómico utilizará términos cuadráticos para capturar interacciones de segundo orden entre las características, mientras que con "degree=3", se incluirán términos cúbicos y así sucesivamente. La elección del valor de "degree" depende de la complejidad del problema y la relación entre las características. scale=c(0.1,0.5,1,2,5): Un valor de "scale" más alto amplifica los efectos del kernel polinómico en los datos, lo que puede resultar en una mayor flexibilidad y capacidad de ajuste del modelo. Por otro lado, un valor de "scale" más bajo reduce los efectos del kernel polinómico, lo que puede llevar a un modelo más suave y menos propenso al sobreajuste. Se usa el valor más bajo de RMSE para seleccionar el modelo óptimo. Ilustración 52. SVM Selección hiperparámetros 2 67 La selección se observa en el gráfico. Para C=0.5 la escala 0.1 es más baja junto con degree 3 aunque muy similar al 2, puntos redondos, a scale 0.5 el error empieza a aumentar a partir de C 0.5 Se ajusta asignando scale mayor a 0.1 y menor a 5 para agrupar los valores y ver mejor las tendencias en el error, se mantiene degree 3. Es el mismo gráfico que antes pero aumentado. Los valores finales utilizados para el modelo son: degree = 3, scale = 0.1 and C = 0.5. Los errores en train son: Selección hiperparámetros C y sigma Ilustración 53.SVM Selección hiperparámetros 3 Ilustración 54. SVM Selección hiperparámetros 4 68 SVM RBF El hiperparámetro "sigma" controla el tamaño del vecindario de influencia alrededor de cada punto de datos de entrenamiento en el proceso de estimación de la función de regresión. Un valor más pequeño de "sigma" el modelo dará más peso a los puntos de datos más cercanos al punto de predicción y tendrá una respuesta más rápida a las variaciones locales en los datos. Apropiado cuando se esperan relaciones no lineales y patrones locales en los datos de regresión. Un valor más grande de "sigma" resultará en una función de regresión más suavizada y menos sensible a las variaciones locales en los datos. Se prueba C=c(0.1,0.2, 0.5, 1, 2, 1.5,2.5,5,4) y sigma=c(0.01,0.05,0.1,0.2,0.5,1,2,5,10,30) SVM Radial SVM RBF: PARÁMETROS C, sigma SVMgrid<-expand.grid(C=c(0.1,0.2, 0.5, 1, 2, 1.5,2.5,5,4), sigma=c(0.01,0.05,0.1,0.2,0.5,1,2, 5,10,30)) . Utilizando el RMSE como criterio de selección óptimo los valores finales usados para el modelo son sigma 0.2 y C 5. En el gráfico se puede ver cómo va descendiendo el factor sigma de forma progresiva. Se entrenan los modelos elegidos y se unen con los anteriores para observar sus parámetros en gráficos de box-plot Ilustración 55. SVM Selección hiperparámetros 5 69 Ilustración 56. Box Plot errores final Una vez seleccionados los mejores modelos el XGBM3 presenta un buen equilibrio entre el error, sesgo y varianza. Los modelos de SVM presentan alto sesgo y error, incluso más varianza que los XGB. Por último, con las redes que están más equilibradas, pero presentan más error son buenas candidatas a priori. En conclusión, se seleccionan los modelos de la red1 y del xgbm3. 4.4. Model. Aprendizaje Supervisado. Clasificación. 4.4.1. Comparación de modelos en SAS En Enterprise Miner de SAS se va a realizar una comparación de modelos supervisados en modo clasificación. Para ello con el dataset empleado en la modelización que ya tiene tratados los ausentes y outliers, se generaron las dummies, está estandarizada y no tiene Madrid Capital. Antes de cargar el dataset en Miner se convierte en binaria la variable objetivo de forma que tendrá valor 1 cuando tenga un valor igual o mayor que la mediana y valor 0 cuando tenga un valor menor. El objetivo es clasificar la clase 1, tener una esperanza de vida al nacer mayor de 83.94 años. 70 Ilustración 57. Esquema SAS Clasificación Estamos ante una clasificación con una variable desbalanceada. La partición de los datos train – test 80-20 será estratificada: Tras preseleccionar las variables más elegidas por los anteriores modelos, una primera selección de Miner mantiene las siguientes Ilustración 58. Estadísticos de la regresión logística. SAS. Clasificación. Y se realiza una comparación de modelos global Ilustración 59. Esquema comparación de modelos clasificación. SAS. 71 El mejor TRASE lo tiene el modelo de Random Forest con 0.1569 seguido de la red con 15 nodos. Los resultados del árbol de decisión: Ilustración 60. Árbol de decisión. Clasificación SAS Las ramas principales tienen en cuenta la población empadronada, el consumo de energía eléctrica y la superficie. Además, considera la renta el paro los ingresos liquidados, los afiliados temporales y los establecimientos de hostelería. A continuación, las curvas ROC de los modelos en train y test con buenas métricas. 72 Ilustración 61. Curvas ROC modelos clasificación train y test. SAS Y por último los estadísticos del SVM donde se ve la exactitud, la sensibilidad y la especificidad entre otros. 4.5. Model. Aprendizaje no Supervisado. 4.5.1. Clusterización de territorios: K-means CLUSTER Se usa el dataset que une el empleado en para la selección de variables y el generado con la extracción de las subvenciones de la BDNS a partir de 2019. 712 observaciones y 68 variables ya que se dumifican las cualitativas. Se realiza un clustering utilizando el algoritmo k-means con un k <- 6 de forma que el algoritmo k-means intentará agrupar los datos en 6 grupos diferentes. Se almacenan los resultados y sus etiquetas en el dataset de forma que se puede explorar el resultado. Se visualizan los clúster en mapa uniendo el dataset de datos con el dataset de datos territoriales que contiene los polígonos de los municipios y su identificación. Para determinar el número óptimo de clústeres en un análisis de clustering, existen varias técnicas que puedes utilizar: Método del codo (Elbow Method), análisis de consistencia y otros como el Coeficiente de Silueta o el Índice de Dunn (Dunn Index): Validación externa. 73 Tabla 3. Importancia variables clústers k-means Mapa 10. Mapa clúster k-means Se realiza un geoproceso en R para calcular los centroides de los polígonos y así asignar las etiquetas a los municipios de forma que se identifiquen mejor los cluster 74 Mapa 11. Clúster2 k-means con etiquetas La zona suroeste de la Comunidad de Madrid es la que de forma más clara se diferencia del resto, con mayor proporción de municipios en el cluster 5 4.5.2. Clusterización de territorios: Jerárquico En un clustering jerárquico primero hay que realizar la matriz de distancias utilizando un tipo de distancia, por ejemplo, euclidiana o de Manhattan, se emplea la euclidiana. Se utiliza el paquete hclust. Se establecen los mismos clúster y se observan los resultados en un dendograma, pero las 75 etiquetas inferiores son ilegibles. Se trataría de cortar las ramas en el valor más adecuado de forma que se observarían las agrupaciones. Se extraen las variables más importantes por clúster como antes y se muestran a continuación. En este ejemplo se han utilizado solo un grupo de variables, las mismas que en el clúster 1 y el orden de importancia es similar. 4.5.3. Cluster con SAS Se realiza una prueba de clusterización con SAS utilizando el método Ward y el del centroide y con distancias euclídea y Manhattan. El programa devuelve una serie de gráficos con las distribución de las variables en los diferentes cluster. Su utilidad radica entre otros, en reducir la dimensionalidad y en realizar agrupaciones por algún factor de interés, como hemos visto antes, por ejemplo, sobre el territorio. Ilustración 62. Cluster SAS Ward Ilustración 63. Resultados Cluster SAS Euclidea 4.6. Assess. Evaluación de los modelos. A continuación, se desglosan las evaluaciones realizadas a lo largo del trabajo y se ejecutan las evaluaciones en los modelos de redes neuronales, XGBoost y SVM. Se añade la evaluación de nuevos modelos con XGBoost. Las métricas que se van a utilizar para evaluar y comparar los modelos son el MSE, el RMSE y el MAE, explicados en el apartado de metodología, recordemos que el MAE es El MAE es menos sensible a valores atípicos en los datos que el MSE y el RMSE y que estos últimos serán mejores cuanto más bajos. 76 El RMSE al expresarse en la misma unidad que la variable objetivo permite ver cuánto difiere la predicción del valor real. En nuestro caso la esperanza de vida al nacer en los municipios de la Comunidad de Madrid según datos del INE entre 2014 y 2020 se sitúa entre 82.050 y 86.430 años, un rango de 4.38 años. Una vez estandarizada la variable el rango es de 7.287 unidades (desde -3.739 a 3.548) Tabla 4. Resultados de la evaluación de los modelos Evaluación de los modelos Modelo Métricas Gráfico Regresión lineal 1 MAE: 0.0389 RMSE: 0.1080 Se observa significancia en variables de mortalidad, edad media, juventud y económicas como el indice de gini, paro, contratos temporales. En este modelo participaban variables de territorio por lo que el ajuste es mejor y los errores son menores. En este ejemplo se aprecia mejor el sentido del error ya que los ejes x e y se representan con la edad de esperanza de vida al nacer. Regresión lineal 3 MAE: 0.2005 RMSE: 0.3194 Peor modelo de predicción porque se han retirado variables de alta influencia, las territoriales. Los outliers están tratados en este caso. Resulta cierta significancia en las variables índice de Gini, menor distancia a municipios de menos de 5000 habitantes, equipamientos de movilidad, de salud y de educación y trabajo temporal 77 Regresión lineal 3 MAE: 0.0528 RMSE: 0.1033 Se eliminan los outliers y se mantienen las zonas estadísticas, se aprecia significancia (p-value < 0.05) en variables de paro, superficie forestal menor, la distancia a la autovía o pertenecer a un municipio con menos de 100 habitantes o entre 251 y 500 Árbol MSE: 0.1430 RMSE: 0.3782 MAE: 0.2139 R-squared: 0.1104 Se trata de un conjunto de datos con un número limitado de observaciones y poca variabilidad por ello se dan pocas ramas y el R-Squared es muy bajo (El coeficiente de determinación o R-cuadrado indica la proporción de la varianza de la variable dependiente que es explicada por el modelo. Un valor de R-cuadrado más cercano a 0 indica que el modelo no es capaz de explicar bien la variabilidad.). Sin embargo, la primera división se realiza con el paro por cada 100 habitantes y la Renta disponible bruta media por hogar con un error bastante aceptable. Además, en el proceso del modelo se consideran importantes las siguientes variables: Terr_Zonas_Estad, Eco_Establec_Hotel, MA_Sup_Protegida, Pob_Juventud, Pob_Grupo,Eco_Afiliados_Tem_Porc_Resid 78 RED1 MSE: 1.11041 RMSE: 1.05376 Errores en evaluación muy altos, los modelos no predicen nada, se acerca a la vertical. En train el RMSE era de 0.58 lo que apunta a un sobreajuste. Un decay más alto puede ayudar a bajarlo. RED2 MSE: 1.055925 RMSE: 1.027582 Mejoran sutilmente los errores pero sigue siendo un modelo no válido. En este caso el RMSE en train de 0.64 y en evaluación de 1.02 sigue apuntando al sobreajuste. Una mejor selección de variables e hiperparámetros puede mejorar el error, pero no parece un modelo adecuado al problema. XGB3 RMSE:0.6406 MSE: 0.4104 79 El RMSE en train era de 0.51 similar en test, tiene menos error que la red y ajusta mejor. Dado el rango de los valores a predecir estamos en errores altos. XGB6 RMSE: 0.6300 MSE: 0.3969 El RMSE en evaluación es ligeramente superior al de entrenamiento (0.5136) por lo que el modelo podría tener un ligero sobreajuste en los datos de entrenamiento, varianza, pero la diferencia es poco significativa. Cuanto más bajo sea el MSE y RMSE, mejor será la precisión del modelo, si bien hay que ponerlos en contexto. Los valores observados de la esperanza de vida al nacer en los municipios oscilan entre 82.050 y 86.430, una vez estandarizada la variable el rango es de aproximadamente 7.287 (-3.739 a 3.548). El MSE está indicando el promedio de los errores al cuadrado entre los valores predichos y los valores reales. Con un MSE de 0.39 indica que el modelo tiene un ajuste discreto a los datos observados. El RMSE, por otro lado, es la raíz cuadrada del MSE y se expresa en la misma unidad que la variable objetivo. Proporciona una medida de dispersión promedio de los errores entre las predicciones y los valores reales. En este escenario, el modelo de XGBoost ha logrado un RMSE de 0.6300, lo que indica que, en promedio, las predicciones del modelo difieren en aproximadamente 0.6300 unidades de la esperanza de vida real al nacer en los municipios de la Comunidad de Madrid. 80 SVM. Polinómica MSE 0.5437078 RMSE 0.7373655 El modelo SVM polinómico y radial tienen un nivel de error relativamente alto en términos de la magnitud del error promedio. Es posible que el modelo no se ajuste de manera óptima a los datos o que haya una mayor variabilidad no explicada. SVM Radial MSE 1.410148 RMSE 1.187497 5. Conclusiones. La aplicación de algoritmos de aprendizaje automático en el territorio para estudiar el comportamiento de variables de calidad de vida y de prestación de servicios es un campo que en los últimos tiempos está cobrando mayor relevancia. Existe interés en conocer qué sucede con uno u otro indicador de carácter económico, de salud o medioambiental en el barrio, municipio o lugar de residencia o trabajo y esto se manifiesta con el aumento de esta información en prensa, redes sociales y medios de comunicación. En el diseño y aplicación de políticas públicas es fundamental tener esta información en cuenta, pero no solo al nivel descriptivo sino también a un nivel predictivo y finalmente prescriptivo. La minería de datos, los algoritmos de aprendizaje automático y la inteligencia de negocio aplicada a las políticas públicas es una necesidad creciente y el uso de las herramientas que lo permiten también. En relación con los objetivos planteados. 81 En este trabajo se ha realizado una aproximación a estas técnicas a través de: - la creación de una base de datos SCMadrid con una filosofía de calidad de vida y prestación de servicios que se agrupan en 10 dimensiones: Territorio, población, medioambiente, trabajo, salud, educación, movilidad, economía, presupuestos y servicios. - Un tratamiento de la información con aplicación de metodología Tidy uso de web Scraping. - la predicción de la esperanza de vida al nacer en los municipios de la Comunidad de Madrid utilizando el análisis supervisado en regresión. - La predicción de la clasificación de los municipios en función de su esperanza de vida al nacer. - El estudio de agrupaciones a través del aprendizaje no supervisado con técnicas de clustering o segmentación. - El planteamiento de visualizaciones combinadas de gráficos y mapas para facilitar la toma de decisiones como estrategia de inteligencia de negocio. - El uso de diversas herramientas como RStudio, Python, SAS y Microsoft Power BI. Todos ellos forman parte de los objetivos específicos que quedan cumplidos. El objetivo principal se alcanza al haber planteado diferentes metodologías para predecir la esperanza de vida, desde la regresión lineal hasta el SVM pasando por las redes, el random forest, XGBoost y técnicas de entrenamiento y selección de hiperparámetros y estudio de sus componentes y pruebas para alcanzar una comprensión óptima de su manejo. Conocemos las variables más influyentes, destacando la propia zonificación y número de habitantes en primer lugar y destacando que con menos peso y menor capacidad predictiva se han encontrado otras variables de gran interés puesto que será donde se pude actuar y en una relación teórica mejorar la calidad de vida de los ciudadanos. En relación con la aplicación de los modelos Tras el trabajo realzado para la selección de variables se puede observar que 46 de ellas han entrado en alguno de los métodos empleados como se muestra en la matriz siguiente. Téngase en cuenta que a nivel predictivo para todos los modelos eran fundamentales las variables de las Zonas estadísticas y los grupos de población que se fueron descartando para obtener otras visiones y por eso no se representan en primer lugar en la tabla. 82 Tabla 5. Resumen importancia variables El mejor modelo El mejor modelo es la regresión lineal para la predicción y el árbol para la extracción de otro tipo de relaciones con la variable dependiente. Por su parte las redes neuronales han mostrado elevado sobreajuste, el modelo XGBoost ha tenido un buen resultado en cuanto a la similitud entre train y evaluación y el SVM no ha podido mejorar al anterior. En este sentido se concluye que hay que explorar otras opciones e hiperparámetros. En cuanto al clustering y el análisis no supervisado las oportunidades de aprendizaje y extracción de información son muy elevadas, con una aproximación se ha puesto de manifiesto una clara diferencia en la zona sur oeste, un análisis más profundo puede ayudar a comprender los motivos. En relación con los límites del trabajo La escasa variabilidad de los datos en la variable dependiente y la alta presencia de valores ausentes en las independientes han dificultado el estudio en gran medida, sin embargo, ha servido para profundizar en los modelos y sus ajustes, así como en las variables que VARIABLE Suma SBF AIC BIC MMPC SES STEPREP1-AICSTEPREP2-BICARBOL RF GBM XGBM Eco_Afiliados_Tem_Porc_Resid 11 1 1 1 1 1 1 1 1 1 1 1 Eco_Indice_Gini 11 1 1 1 1 1 1 1 1 1 1 1 Eco_Ind_RDBM_PC 10 1 1 1 1 1 1 1 0 1 1 1 Pob_Envejecimiento 10 1 1 1 1 1 1 1 0 1 1 1 Eco_Energ_Elect_PC 9 0 1 1 1 1 1 1 0 1 1 1 Eco_Establec_Hotel 8 1 1 1 0 0 1 1 1 1 1 0 Eco_Paro_100 8 1 1 0 1 1 0 0 1 1 1 1 Eco_Pre_Gastos_Liquidados 8 1 1 1 0 0 1 1 0 1 1 1 Eco_PBI_municipal_pc 7 1 1 1 0 0 1 1 0 0 1 1 Pob_Grupo.100001_500000_hab 7 1 1 1 0 0 1 1 1 0 1 0 Eco_Pre_Deuda_Viva 5 1 1 0 0 0 0 0 0 1 1 1 MOV.13_o_más 5 0 1 1 0 0 0 0 0 1 1 1 Pob_Empadronada 5 1 1 0 0 0 0 0 0 1 1 1 Pob_Juventud 5 1 0 0 0 0 0 0 1 1 1 1 Soc_Mov_Auto_T.menor_de_3 5 1 1 1 0 0 1 1 0 0 0 0 DEGURBA.2 4 0 1 1 0 0 1 1 0 0 0 0 Eco_Afiliados_Total 4 1 0 0 0 0 0 0 0 1 1 1 Eco_Contratos_Temp 4 1 0 0 0 0 0 0 0 1 1 1 Eco_Pre_Ingresos_Liquidados 4 1 0 0 0 0 0 0 0 1 1 1 Pob_Grupo.20001_50000_hab 4 1 1 0 0 0 0 0 1 0 1 0 Pob_Grupo.75001_100000_hab 4 1 0 0 1 1 0 0 1 0 0 0 Superficie 4 0 1 0 0 0 0 0 0 1 1 1 MA_Sup_Protegida.Mayor 3 1 1 0 0 0 0 0 1 0 0 0 Pob_Edad_Media 3 1 0 0 0 0 0 0 0 1 1 0 Pob_Grupo.251_500_hab 3 0 1 1 0 0 0 0 1 0 0 SAL.de_6_a_10 3 1 1 1 0 0 0 0 0 0 0 0 Soc_Mov_Hosp_T.Mayor 3 0 1 1 0 0 0 1 0 0 0 0 MA_Sup_Protegida.Menor 2 1 0 0 0 0 0 0 1 0 0 0 Pob_Grupo.101_250_hab 2 0 1 0 0 0 0 0 1 0 0 0 Pob_Grupo.501_1000_hab 2 0 1 0 0 0 0 0 1 0 0 0 Soc_Salud_Def_Otras 2 0 0 0 0 0 0 0 0 0 1 1 Soc_Salud_Def_SistCirc 2 0 0 0 0 0 0 0 0 0 1 1 Soc_Salud_Def_SistResp 2 0 0 0 0 0 0 0 0 0 1 1 DEGURBA.1 1 1 0 0 0 0 0 0 0 0 0 0 EDU.25_o_más 1 0 1 0 0 0 0 0 0 0 0 0 MA_Sup_Forestal_Total.Mayor 1 0 1 0 0 0 0 0 0 0 0 0 MA_Sup_quemada.Mayor 1 1 0 0 0 0 0 0 0 0 0 0 MA_Sup_quemada.Menor 1 1 0 0 0 0 0 0 0 0 0 0 MOV.de 6_a_12 1 0 1 0 0 0 0 0 0 0 0 0 Pob_Grupo 1 0 0 0 0 0 0 0 1 0 0 0 SAL.11_o_más 1 0 1 0 0 0 0 0 0 0 0 0 Soc_Mov_Auto_T.de_4_a_7 1 0 1 0 0 0 0 0 0 0 0 0 Soc_Salud_Def_Otras 1 0 0 0 0 0 0 0 0 1 0 0 Soc_Salud_Def_Tumor 1 0 0 0 0 0 0 0 0 0 0 1 Terr_Zonas_Estad_CM 1 0 0 0 0 0 0 0 1 0 0 0 Pob_Grupo.251_500_hab 0 0 0 0 0 0 0 0 0 0 0 0 25 28 15 7 7 11 12 15 18 23 20 83 intervienen con más peso, así como en su comportamiento. Se ha resuelto acudiendo a más años de estudio y por lo tanto a más observaciones disponibles. En este caso los outliers había que considerarlos de forma especial, ya que aquellos valores outliers en el entorno de la Comunidad de Madrid no lo eran para otras agrupaciones, principalmente por número de habitantes. Se mantuvieron algunas ratios e índices que ayudan con este problema, si bien en municipios con poca población los porcentajes y ratios desvirtúan la información, este problema ha sido manifestado en diferentes estudios como en (Cao et al., 2023a; Gospodinova, 2021; Medeiros, 2021; Patton & Weller, 2022; Perafita & Saez, 2022) Los resultados de la evaluación de los modelos han puesto de manifiesto la debilidad en cuanto a predicción de variables no relacionadas directamente con el territorio si bien han sacado a la luz la importancia de variables de corte medioambiental, social, de movilidad, de salud y sobre todo las económicas. Conclusión final A lo largo de este trabajo de fin de máster en Minería de Datos e Inteligencia de Negocio, se ha logrado un sólido nivel de competencia en esta disciplina, partiendo de conocimientos limitados y aplicando los conceptos y herramientas adquiridos en diversas asignaturas. El dominio de asignaturas fundamentales como Machine Learning, SEMMA (Sample, Explore, Modify, Model, Assess), bases de datos, análisis de correspondencias o el escalamiento multidimensional, la inteligencia de negocio, el marketing digital y el CRM ha sentado las bases necesarias para comprender y abordar de manera efectiva los desafíos de la minería de datos. El uso de programas y lenguajes de programación como RStudio, Python y herramientas de visualización ha sido fundamental para la implementación de algoritmos de aprendizaje automático, el análisis de datos, la exploración de patrones y la generación de insights significativos. Y ha sido principalmente la aplicación de la estadística y las matemáticas, junto con el conocimiento informático lo que ha permitido una comprensión profunda de los conceptos fundamentales y ha facilitado la toma de decisiones en los procesos de minería de datos desarrollados. Además, el enfoque en la adquisición de habilidades en web Scraping y análisis de datos en formato HTML ha permitido el acceso a fuentes adicionales de información valiosa, ampliando así la capacidad de obtener datos relevantes para los análisis. Además de su relevancia en el ámbito empresarial, es importante destacar la importancia de la minería de datos e inteligencia de negocio en el contexto de la administración pública. 84 En la administración pública, el análisis de datos y la inteligencia de negocio juegan un papel crucial en la toma de decisiones informadas y en la mejora de la eficiencia de los servicios públicos y la calidad de vida de las personas. La capacidad de extraer información valiosa de grandes volúmenes de datos permite identificar patrones, tendencias y relaciones que pueden respaldar la planificación estratégica y la asignación eficiente de recursos económicos, así como la detección temprana de problemas y la adopción de medidas proactivas para abordar desafíos sociales, económicos y ambientales. Además, la inteligencia de negocio en el ámbito de la administración pública ayuda a mejorar la gestión interna, permitiendo un monitoreo efectivo de los procesos, el análisis de indicadores de rendimiento y la evaluación del impacto de las políticas implementadas. Esto promueve la transparencia, la rendición de cuentas y la optimización de los recursos públicos. Como señala la OCDE en: Uso de tecnologías emergentes en el sector público “La Inteligencia Artificial (IA) es un área de investigación y aplicación tecnológica que puede tener un impacto significativo de muchas maneras sobre las políticas y servicios públicos.” (Ubaldi et al., 2019) Algunas referencias que se han consultado y que pueden orientar otras líneas de trabajo son: (A. & R., 2023; Akande, Cabral, Gomes, & Casteleyn, 2019; Cunningham & Delany, 2021; E. Dimara & C. Perin, 2020; Faisal et al., 2021; Fan et al., 2021; Kutty, Wakjira, Kucukvar, Abdella, & Onat, 2022; Ozkaya & Erdin, 2020; Shah, Peristeras, & Magnisalis, 2021a; Shah, Peristeras, & Magnisalis, 2021b; Ubaldi et al., 2019; Vyas & Kumaranayake, 2006; Wang, J. & Biljecki, 2022; Xu & Tian, 2015) Así mismo considero de interés mantener en este trabajo los estudios sobre territorios explorados como: (Cao et al., 2023b; Cerquitelli, Migliorini, & Chiusano, 2021; Drobne & Bogataj, 2015; Feleki, Vlachokostas, & Moussiopoulos, 2018; Gospodinova, 2021; Lapygin, Kovalev, Kuznetsova, Garina, & Kozlova, 2022; Li et al., 2022; Lo-Iacono-Ferreira, Garcia- Bernabeu, Hilario-Caballero, & Torregrosa-López, 2022a; Lo-Iacono-Ferreira, Garcia- Bernabeu, Hilario-Caballero, & Torregrosa-López, 2022b; Marcano, Cartaya, Pacheco, & Méndez, 2015; Medeiros, 2021; Nica, 2021; Okubo et al., 2022; Orlovskaya, 2023; Ozkaya & Erdin, 2020; Simdiankin, Khludnev, Probin, & Yamalutdinov, 2021; Zaixin, Lizhi, & Guangquan, 2014) 6. Líneas de trabajo futuras. Este trabajo es una aproximación a la puesta en relación de tres patrones complejos, la calidad de vida, la prestación de servicios y la gestión pública. Como tal las líneas de trabajo futuras son muy amplias y pueden responder a cada uno de los ámbitos políticos sobre los que se desee profundizar, sin bien este trabajo no pretende esa visión individual sino una visión de conjunto, pretende aportar una forma de interrelacionar las diferentes dimensiones y facilitar el trabajo de la gestión con datos en estos otros ámbitos particulares. 85 Se plantean cinco líneas de trabajo futuras que se consideran fundamentales: 1. En relación con los datos: Fomentar la cultura del dato abierto, poner en valor la estadística como disciplina base para disponer de datos de calidad y crear y mantener catálogos de datos consolidados reproducibles y comparables a nivel municipal. 2. En relación con los modelos empleados: Implementar otros algoritmos de aprendizaje supervisado al problema planteado, como Catboost o técnicas de ensamblaje y de aprendizaje no supervisado con técnicas de reducción de la dimensión que ayuden a la selección inicial y a realizar agrupaciones con mayor fiabilidad y comprensión. 3. Sobre estudios de investigación: Realizar estudios de investigación sobre los métodos de medición de la esperanza de vida y su relación con las variables socioeconómicas de forma que se puedan determinar los pesos de estas variables en su determinación, así como los errores que intervienen en su predicción o clasificación. 4. Plantear un problema de optimización de costes asociado a los servicios públicos y su proximidad a los ciudadanos. 5. Formación especializada en visualización de la información y en minería de datos aplicada al territorio con uso de sistemas de información geográfica. Dando valor a la ética en el tratamiento de la información y el respeto por la protección de los datos de los ciudadanos y el secreto estadístico estamos tan solo iniciando el impacto de la aplicación de estas técnicas en la calidad de vida de las personas a través de la evaluación de las políticas públicas y de otros entornos. El código utilizado a lo largo de este trabajo está disponible en la web GitHub en el siguiente enlace: https://github.com/EvaBReyes/TFM_SCMadrid_EV_UCM_2023 Como indica George E.P. Box, "esencialmente, todos los modelos están equivocados, pero algunos son útiles" (Box & Draper, 1987). "Quisiera expresar mi más sincero agradecimiento a todos los que me apoyaron y proporcionaron su valiosa orientación a lo largo de este proyecto. Su ayuda y paciencia han sido esenciales para lograr este trabajo. A todos ustedes, mi más sincero agradecimiento." https://github.com/EvaBReyes/TFM_SCMadrid_EV_UCM_2023 86 References A., S., & R., S. (2023). A systematic review of explainable artificial intelligence models and applications: Recent developments and future trends. Decision Analytics Journal, 7, 100230. doi:10.1016/j.dajour.2023.100230 Akande, A., Cabral, P., Gomes, P., & Casteleyn, S. (2019). The lisbon ranking for smart sustainable cities in europe. Sustainable Cities and Society, 44, 475-487. doi:10.1016/j.scs.2018.10.009 Berryhill, J., Heang, K. K., Clogher, R., & McBride, K. (2019). Hello, world: Artificial intelligence and its use in the public sector. Box, G. E., & Draper, N. R. (1987). Empirical model-building and response surfaces. John Wiley & Sons. Cao, W., Dong, L., Cheng, Y., Wu, L., Guo, Q., & Liu, Y. (2023a). Constructing multi-level urban clusters based on population distributions and interactions. Computers, Environment and Urban Systems, 99, 101897. doi:10.1016/j.compenvurbsys.2022.101897 Cao, W., Dong, L., Cheng, Y., Wu, L., Guo, Q., & Liu, Y. (2023b). Constructing multi-level urban clusters based on population distributions and interactions. Computers, Environment and Urban Systems, 99, 101897. Cerquitelli, T., Migliorini, S., & Chiusano, S. (2021). Big data analytics for smart cities. Electronics, 10(12), 1439. Cunningham, P., & Delany, S. J. (2021). K-nearest neighbour classifiers-a tutorial. ACM Computing Surveys (CSUR), 54(6), 1-25. Drobne, S., & Bogataj, M. (2015). Optimal allocation of public service centres in the central places of functional regions. IFAC-PapersOnLine, 48(3), 2362-2367. doi:10.1016/j.ifacol.2015.06.441 87 E. Dimara, & C. Perin. (2020). What is interaction for data visualization? doi:10.1109/TVCG.2019.2934283 Faisal, K., Alomari, D., Alasmari, H., Alghamdi, H., & Saeedi, K. (2021). Life expectancy estimation based on machine learning and structured predictors. Paper presented at the 2021 3rd International Conference on Advanced Information Science and System (AISS 2021), 1-8. Fan, Z., Zhou, H., Chen, Z., Hong, D., Wang, Y., & Dong, Q. (2021). Design and implementation of scientific research big data service platform for experimental data managing. Procedia Computer Science, 192, 3875-3884. Feleki, E., Vlachokostas, C., & Moussiopoulos, N. (2018). Characterisation of sustainability in urban areas: An analysis of assessment tools with emphasis on european cities. Sustainable Cities and Society, 43, 563-577. doi:10.1016/j.scs.2018.08.025 Fernando del Castillo Cuervo-Arango, Teresa Fernández Huete, Carlos Pedrazuela Frías y Rosario Sacristán Moreno. (2006). Tipología municipal de la comunidad de madrid 2006. (). doi:SBN: 84-451-933-8 Retrieved from https://www.madrid.org/iestadis/gazeta/publicaciones/tipomunino.htm Gospodinova, A. (2021). Clustering of small municipalities as A possibility for the development of their territory. Paper presented at the International Scientific and Practical Conference" Construction Entrepreneurship and Real Property", 100-103. Hubanks, L., Kuyken, W., & World Health Organization. (1994). No title. Quality of Life Assessment: An Annotated Bibliography, Ihaka, R. (1998). R: Past and future history. Computing Science and Statistics, 392396 Javier Álvarez Liébana. (2023). Introducción a R: Aprendiendo R sin morir en el intento (abril 2023 ed.). https://javieralvarezliebana.es/curso-intro-R/: Kutty, A. A., Wakjira, T. G., Kucukvar, M., Abdella, G. M., & Onat, N. C. (2022). Urban resilience and livability performance of european smart cities: A novel machine learning https://www.madrid.org/iestadis/gazeta/publicaciones/tipomunino.htm https://javieralvarezliebana.es/curso-intro-R/: 88 approach. Journal of Cleaner Production, 378, 134203. doi:10.1016/j.jclepro.2022.134203 Lapygin, Y. N., Kovalev, E. A., Kuznetsova, S. N., Garina, E. P., & Kozlova, E. P. (2022). Clustering as a model of regional development. Сooperation and sustainable development (pp. 1589-1597) Springer. Li, X., Liu, H., Wang, W., Zheng, Y., Lv, H., & Lv, Z. (2022). Big data analysis of the internet of things in the digital twins of smart city based on deep learning. Future Generation Computer Systems, 128, 167-177. Lo-Iacono-Ferreira, V. G., Garcia-Bernabeu, A., Hilario-Caballero, A., & Torregrosa-López, J. (2022a). Measuring urban sustainability performance through composite indicators for spanish cities. Journal of Cleaner Production, 359, 131982. doi:10.1016/j.jclepro.2022.131982 Lo-Iacono-Ferreira, V. G., Garcia-Bernabeu, A., Hilario-Caballero, A., & Torregrosa-López, J. (2022b). Measuring urban sustainability performance through composite indicators for spanish cities. Journal of Cleaner Production, 359, 131982. doi:10.1016/j.jclepro.2022.131982 Marcano, A., Cartaya, S., Pacheco, H., & Méndez, W. (2015). Estimación de pesos ponderados de variables para generar mapas de susceptibilidad a movimientos en masa a través de la Evaluación espacial multicriterios. Terra, 31(50), 55-80. Martín-Salas, M. d. P. M., & Jiménez, M. N. P.Los servicios públicos esenciales en españa. Medeiros, E. (2021). Development clusters for small places and rural development for territorial cohesion? Sustainability, 14(1), 84. Nica, E. (2021). Urban big data analytics and sustainable governance networks in integrated smart city planning and management. Geopolitics, History, and International Relations, 13(2), 93-106. 89 Okubo, H., Shimoda, Y., Kitagawa, Y., Gondokusuma, M. I. C., Sawamura, A., & Deto, K. (2022). Smart communities in japan: Requirements and simulation for determining index values. Journal of Urban Management, 11(4), 500-518. doi:10.1016/j.jum.2022.09.003 Orlovskaya, T. N. (2023). Clustering the territories of st. petersburg by strategic priorities for the construction of healthcare facilities. Proceedings of ECSF 2021 (pp. 181-188) Springer. Ozkaya, G., & Erdin, C. (2020). Evaluation of smart and sustainable cities through a hybrid MCDM approach based on ANP and TOPSIS technique. Heliyon, 6(10), e05052. doi:10.1016/j.heliyon.2020.e05052 Patton, A. J., & Weller, B. M. (2022). Testing for unobserved heterogeneity via k-means clustering. Journal of Business & Economic Statistics, doi:10.1080/07350015.2022.2061983 Perafita, X., & Saez, M. (2022). Clustering of small territories based on axes of inequality. International Journal of Environmental Research and Public Health, 19(6) doi:10.3390/ijerph19063359 Portela García-Miguel, J. (2007). Manual de programación en SAS. Sáez, L., Heras-Saizarbitoria, I., & Rodríguez-Núñez, E. (2020). Sustainable city rankings, benchmarking and indexes: Looking into the black box. Sustainable Cities and Society, 53, 101938. doi:10.1016/j.scs.2019.101938 Shah, S. I. H., Peristeras, V., & Magnisalis, I. (2021a). DaLiF: A data lifecycle framework for data-driven governments. Journal of Big Data, 8(1) doi:10.1186/s40537-021-00481-3 Shah, S. I. H., Peristeras, V., & Magnisalis, I. (2021b). Government big data ecosystem: Definitions, types of data, actors, and roles and the impact in public administrations. Journal of Data and Information Quality, 13(2) doi:10.1145/3425709 Simdiankin, A., Khludnev, E., Probin, P., & Yamalutdinov, A. (2021). Possibility of implementing a cluster based on the territorial public self-government that includes 90 sports, retailers and consumer services. Paper presented at the SHS Web of Conferences, , 116 00044. Stiglitz, J. E., Sen, A., & Fitoussi, J. (2008). Informe de la comisión sobre la medición del desarrollo económico y del progreso social els autors. Ubaldi, B., Le Fevre, E. M., Petrucci, E., Marchionni, P., Biancalana, C., Hiltunen, N., . . . Yang, C. (2019). State of the art in the use of emerging technologies in the public sector. Vyas, S., & Kumaranayake, L. (2006). Constructing socio-economic status indices: How to use principal components analysis. Health Policy and Planning, 21(6), 459-468. Wang, J., & Biljecki, F. (2022). Unsupervised machine learning in urban studies: A systematic review of applications. Cities, 129, 103925. doi:10.1016/j.cities.2022.103925 Wang, X., & Chi, C. (2016). Global city indicators: Towards a holistic view of low carbon city dimensions. Energy Procedia, 88, 168-175. doi:10.1016/j.egypro.2016.06.042 Xu, D., & Tian, Y. (2015). A comprehensive survey of clustering algorithms. Annals of Data Science, 2(2), 165-193. Zaixin, Z., Lizhi, C., & Guangquan, C. (2014). Neighbourhood weighted fuzzy c‐means clustering algorithm for image segmentation. IET Image Processing, 8(3), 150-161. 91 7. Anexo I Tabla 6. Variables iniciales, dimesión, nombre, descripción y fuentes DIMENSION DATOS_TFM_4 SCM_FINAL Unidad FUENTE DESCRIPCIÓN link ECONOMÍA Eco_Establec_Hotel Eco_Establec_Hotel número IECM Total establecimientos hoteleros: hoteles_apartamentos, hostales, campamentos, pensiones, casas rurales, hostería y viviendas uso turístico (2022)Almudena ECONOMÍA Eco_Ind_RDBM_PC Eco_Ind_RDBM_PC euros IECM La Renta Disponible Bruta, es el saldo de la Cuenta de Distribución Secundaria de la Renta de los hogares y es equivalente a la Renta Bruta a precios de mercado (que representa la renta primaria total a cobrar por las unidades residentes) más o menos el saldo de transferencias corrientes (impuestos sobre renta y patrimonio, cotizaciones sociales, prestaciones sociales y otras transferencias corrientes entre residentes y no residentes). El Indicador de Renta Disponible Bruta Municipal se elabora como un indicador sintético de varios índices con distintas ponderaciones.Almudena ECONOMÍA Eco_Indice_Gini Eco_Indice_Gini 0-100 INE Medida de la desigualdad en el reparto de ingresos de una población, a través de la relación entre la proporción acumulada de población ordenada por los ingresos equivalentes y la proporción acumulada de ingresos recibidos, oscilando entre la equidad perfecta (valor 0) y la desigualdad perfecta (100).Atlas de distribución de renta de los hogares. Año 2020 ECONOMÍA Eco_PBI_municipal_pc Eco_PBI_municipal_pc euros iecm Estimación del Producto Interior Bruto Municipal. Producto Municipal Bruto per cápita: mide el valor añadido obtenido como media por cada residente. La población utilizada es a 1 de Enero.Almudena ECONOMÍA Eco_Distrib_Renta_P80_20 NA porcentaje INE Indicador que mide la desigualdad en la distribución de los ingresos a través de ratios entre percentiles. Se interpreta como la relación entre la renta media obtenida por el 80% de la población con la renta más alta (quintil más alto), en relación a la renta media obtenida por el 20% de la población con la renta más baja (quintil más bajo).Atlas de distribución de renta de los hogares. Año 2020 ECONOMÍA Eco_Empresas_Total NA número INE (METD) Según el Directorio Central de Empresas (DIRCE) la empresa corresponde a una unidad organizativa de producción de bienes y servicios, que disfruta de una cierta autonomía de decisión, principalmente a la hora de emplear los recursos corrientes de que dispone. La empresa ejerce una o másINE ECONOMÍA Eco_Renta_Neta_Media_PP NA euros INE Se define como el promedio de la s renta s brutas menos los impuestos y cotizaciones sociales, obtenidas a partir de fuentes tributarias , que poseen las personas residente s en una zona territorial dada, en un punto de tiempo específico .Atlas de distribución de renta de los hogares. Año 2020 ECONOMÍA Eco_Uds_Productivas NA número IECM Colectivo empresarial : Conjunto total de unidades productivas de cualquier naturaleza que ejercen su actividad económica en la Comunidad de Madrid.Unidades productivas: Unidad básica en el espacio generadora de actividad económica, coincidiendo en la mayoría de los casos con conceptos análogos como el establecimiento o la unidad local. Se consideran exclusivamente aquellos en que al menos trabaja una persona aunque sea a tiempo parcial.Almudena ECONOMÍA Eco_Paro_Tasa NA tasa SIDAMUN Tasa de paro EDUCACIÓN Soc_Bibliot_públicas EDU número IECM Nº bibliotecas públicas totales Almudena EDUCACIÓN Soc_Ed_Bachiller EDU número IECM Almudena EDUCACIÓN Soc_Ed_Cent_Priv_NoUni EDU número IECM Total centros privados no universitarios: educación infantil, primaria, ESO, bachillerato, educ especial, ciclos formativos, de grado medio, superior, cualificación profesional, FP básica, otros programas FPAlmudena EDUCACIÓN Soc_Ed_Cent_Pub_NoUni EDU número IECM Total centros públicos no universitarios: educación infantil, primaria, ESO, bachillerato, educ especial, ciclos formativos, de grado medio, superior, cualificación profesional, FP básica, otros programas FPAlmudena EDUCACIÓN Soc_Ed_CiclosFormat EDU número IECM Almudena EDUCACIÓN Soc_Ed_ESO EDU número IECM Almudena EDUCACIÓN Soc_Ed_Especial EDU número IECM Almudena EDUCACIÓN Soc_Ed_Infantil EDU número IECM Almudena EDUCACIÓN Soc_Ed_Primaria EDU número IECM Almudena IDENTIFICACIÓN Año Año año Identificador IDENTIFICACIÓN CIF CIF código MHFP Código de identificación Fiscal Base de datos entidades locales IDENTIFICACIÓN CMUN NA código INE (METD) Código municipio IDENTIFICACIÓN CMUNXL NA código INE (METD) Código municipio 5 dígitos (2 PROV-3 CMUN) IDENTIFICACIÓN NATCODE NA código IGN Código IGN Código dado por el Instituto Geográfico Nacional a cada una de las entidades poblacionales. Se caracteriza por ser un código único e intransferible formado por 11 dígitos de los cuales los dos primeros hacen referencia al país al que pertenece la unidad poblacional. Los dos siguientes dígitos identifican la CCAA. Los dos siguientes a indican la provincia a la que pertenece la unidad poblacional. Los cinco siguientes identifican el municipio. MEDIOAMBIENTE Eco_Energ_Elect_PC Eco_Energ_Elect_PC Kw/hora IECM Energía eléctrica facturada per cápita: Kw/hora facturado por habitante. Almudena MEDIOAMBIENTE MA_Pelig_Incend_AltoExt MA_Pelig_Incend_AltoExt porcentaje SIDAMUN MEDIOAMBIENTE MA_Sup_Forestal_Total MA_Sup_Forestal_Total porcentaje MFE Porcentaje de la superficie del municipio que tiene la consideración de monte según la definición establecida en el artículo 5 de la Ley de Ley 43/2003, de 21 de noviembre, de Montes: “todo terreno en el que vegetan especies forestales arbóreas, arbustivas, de matorral o herbáceas, sea espontáneamente o procedan de siembra o plantación, que cumplan o puedan cumplir funciones ambientales, protectoras, productoras, culturales, paisajísticas o recreativas”.sidamun: elaboración propia sidamun a partir del mapa forestal de españa MEDIOAMBIENTE MA_Sup_Protegida MA_Sup_Protegida porcentaje SIDAMUN Se define el porcentaje de superficie protegida de un territorio como aquél que está incluido en un Espacio Natural Protegido (ENP), un espacio de la Red Natura 2000 y/o un Área Protegida por Instrumentos Internacionales (humedales Ramsar y Reservas de la Biosfera)Red Natura 2000 (dic-21); Espacios Naturales Protegidos (jul-21); Ramsar (may 21); y Reservas de la Biosfera (sept-21 MEDIOAMBIENTE MA_Sup_quemada MA_Sup_quemada número MTED Superficie quemada 2006-15 (% s/ total). Superficie forestal en hectáreas (arbolada y desarbolada) afectada por incendios MEDIOAMBIENTE MA_Incendios NA número MTED Nº total de incendios 2006-15 (conatos + incendios). Número de siniestros acaecidos (suma de conatos -menos de 1 hectárea- e incendios cuya superficie es igual o superior a 1 hectárea).Estadística general de incendios forestales MEDIOAMBIENTE MA_Sup_Forestal_Arbol NA porcentaje MFE Porcentaje de la superficie del municipio que tiene la consideración de superficie arbolada, entendiendo por tal la superficie forestal poblada por árboles cuando la Fracción de Cabida Cubierta (FCC) es mayor del 10% (FCC arbórea es el porcentaje de suelo cubierto por la proyección de todas las copas).sidamun: elaboración propia sidamun a partir del mapa forestal de españa MEDIOAMBIENTE MA_Sup_Forestal_Desarb NA porcentaje MFE Porcentaje de la superficie del municipio que tiene la consideración de superficie forestal desarbolada. Incluye las superficies cubiertas por arbolado ralo (FCC menor del 10%), así como por matorral es, herbazales y pastizales, principalmente.sidamun: elaboración propia sidamun a partir del mapa forestal de españa MEDIOAMBIENTE MA_Aridez_Suelo NA nombre SIDAMUN MOVILIDAD Soc_Mov_Est_Cercan MOV número IECM Estaciones de trenes de cercanías del transporte público Almudena MOVILIDAD Soc_Mov_Gasolin MOV número IECM Total gasolineras Almudena MOVILIDAD Soc_Mov_Lin_Autob MOV número IECM Total líneas de autobús de transporte público Almudena MOVILIDAD Soc_Mov_Turismos_Pub MOV número MITECO Turismos para transporte de viajeros por carretera de servicio público Almudena MOVILIDAD Soc_Mov_Muni_20000_T NA minutos IGN (MTMA) MOVILIDAD Soc_Mov_Muni_50000_T NA minutos IGN (MTMA) MOVILIDAD Soc_Mov_Auto_T Soc_Mov_Auto_T minutos IGN (MTMA) Tiempo empleado en acceder a la autopista/autovía más cercana desde el municipio analizado utilizando como medio de transporte un coche.IGN MOVILIDAD Soc_Mov_Muni_5000_T Soc_Mov_Muni_5000_T minutos IGN (MTMA) Municipio de 5.000 habitantes o más, de entre los que figuran inscritos en el Registro de Entidades Locales (REL) del Ministerio de Política Territorial, que se encuentra más cercano al municipio concreto que estemos analizandoIGN MOVILIDAD Soc_Mov_Auto nombre IGN (MTMA) Nombre de la autovía más cercana SIDAMUN POBLACIÓN Pob_Dependencia NA porcentaje IECM Proporción de dependencia: es el resultado de dividir la población menor de 15 años más la población mayor de 64 años, y la población de 15 a 64 años. La población utilizada es a 1 de EneroDatos POBLACIÓN Pob_Empadronada_H NA habitantes IECM Población empadronada Hombres. POBLACIÓN Pob_Empadronada_M NA habitantes IECM Población empadronada Mujeres. POBLACIÓN Pob_EV_65_H NA años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado, a los 65 años de edad. POBLACIÓN Pob_EV_65_M NA años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado, a los 65 años de edad. POBLACIÓN Pob_EV_H NA años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado,.ine POBLACIÓN Pob_EV_M NA años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado.ine POBLACIÓN Pob_Variac NA número SIDAMUN Variación de la población POBLACIÓN Pob_Edad_Media Pob_Edad_Media años IECM Media aritmética de las edades de cada uno de los componentes de un grupo o colectivo estadístico. Almudena POBLACIÓN Pob_Empadronada Pob_Empadronada habitantes IECM Población empadronada. Conjunto de personas físicas que tienen fijada su residencia en un territorio determinado.Almudena POBLACIÓN Pob_Envejecimiento Pob_Envejecimiento porcentaje IECM-INE Grado de envejecimiento: porcentaje de la población de 65 y más años y la población total. La población utilizada es a 1 de Enero.Almudena POBLACIÓN Pob_EV_65_Total Pob_EV_65_Total años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado, a los 65 años de edad. POBLACIÓN Pob_EV_Total Pob_EV_Total años INE Número medio de años que puede esperar vivir una persona de una determinada edad sometida a los riesgos de mortalidad observados en un período dado.ine POBLACIÓN Pob_Grupo Pob_Grupo habitantes INE Variable que clasifica el territorio en base al tamaño de los municipios, teniéndose los siguientes estratos: • ≤100 hab. • 101-500 hab. • 501-1.000 hab. • 1.001-5.000 hab. • 5.001-20.000 hab. • >20.000 hab. (Tb. 5001-10000-10001-20000-20001-50000-50001-100000-100001-500000->500000Grupos de población INE POBLACIÓN Pob_Juventud Pob_Juventud porcentaje IECM Grado de juventud: porcentaje de la población comprendida entre 0 y 14 años y la población total. La población utilizada es a 1 de Enero.Almudena PRESUPUESTOS Eco_Cap_Nec_Financ Eco_Cap_Nec_Financ sí-no MHFP la capacidad/necesidad de financiación de cada entidad local en términos de contabilidad nacional, es decir, el saldo no financiero presupuestario corregido según los ajustes del Sistema Europeo Estabilidad presupuestaria PRESUPUESTOS Eco_Pre_Deuda_Viva Eco_Pre_Deuda_Viva euros IECM-MinisterioDeuda Viva por habitante Sistema de financiación y deuda PRESUPUESTOS Eco_Pre_Gastos_Liquidados Eco_Pre_Gastos_Liquidadosmiles € IECM-CONPRELTotal gastos de los presupuestos municipales iniciales consolidado CONPREL PRESUPUESTOS Eco_Pre_Ingresos_Liquidados Eco_Pre_Ingresos_Liquidadosmiles € Ministerio de Hacienda y Función PúblicaTotal ingresos de los presupuestos municipales liquidados consolidados Almudena PRESUPUESTOS Eco_Imp_Saldo_Nfinanc NA euros Ministerio de Hacienda y Función Públicalos importes de los saldos por operaciones no financieras según criterios presupuestarios (capítulos 1 a 7 de ingresos y gastos no financieros) sin considerar ajustes de contabilidad nacional.Estabilidad presupuestaria SALUD Soc_Salud_Ambul SAL número Propia suma de las ambulancias públicas y privadas SALUD Soc_Salud_Ambul_Priv SAL número Almudena SALUD Soc_Salud_Ambul_Pub SAL número MITECO Ambulancias para transporte de viajeros por carretera de servicio público Almudena SALUD Soc_Salud_CentrosS SAL número IECM Centros de salud. Servicio Madrileño de Salud. Consejería de Sanidad. Almudena SALUD Soc_Salud_Consult SAL número IECM Consultorios locales. Servicio Madrileño de Salud. Consejería de Sanidad. Almudena SALUD Soc_Salud_Farmacia SAL número IECM Farmacias: Colegio oficial de farmacéuticos de Madrid. Establecimientos sanitarios privados de interés público, sujetos a la planificación sanitaria que establezcan las comunidades autónomas, en las que el farmacéutico titular-propietario de aquéllas, asistido, en su caso, de ayudantes o auxiliares, debe prestar a la población los servicios básicos recogidos en el artículo 1 de la Ley 16/1997, de 25 de abril, de regulación de los servicios de las oficinas de farmacia.Almudena SALUD Soc_Salud_Hospitales SAL número Catálogo nacional de hospitales 2022Centros sanitarios destinados a la asistencia especializada y continuada de pacientes en régimen de internamiento (como mínimo una noche), cuya finalidad principal es el diagnóstico o tratamiento de los enfermos ingresados en éstos, sin perjuicio de que también presten atención de forma ambulatoria.MSND SALUD Soc_Serv_Social_Centros SAL número IECM Total centros servicios sociales: personas mayores: residencias, resto de centros y otros colectivos de atención socialAlmudena SALUD Soc_Salud_Def_Otras Soc_Salud_Def_Otras porcentaje IECM Porcentaje de defunciones de residentes por causa indicada SALUD Soc_Salud_Def_SistCirc Soc_Salud_Def_SistCirc porcentaje IECM Porcentaje de defunciones de residentes por causa indicada SALUD Soc_Salud_Def_SistResp Soc_Salud_Def_SistResp porcentaje IECM Porcentaje de defunciones de residentes por causa indicada SALUD Soc_Salud_Def_Tumor Soc_Salud_Def_Tumor porcentaje IECM Porcentaje de defunciones de residentes por causa indicada Almudena SALUD Soc_Salud_Discapacidad Soc_Salud_Discapacidad número IECM Total personas con discapacidad: Base de Datos del Reconocimiento del Grado de Discapacidad. Consejería de Familia, Juventud y Política Social.Almudena SERVICIOS Soc_Correos NA número SIDAMUN Además de la emisión de todo tipo de envíos, paquetes y giros, la red de Oficinas de Correos ofrece nuevos productos y servicios cuya demanda sigue creciendo. Así, grandes compañías han firmado alianzas con Correos para dar a conocer sus productos y acercarlos a la sociedad. De este modo, la compañía ofrece distintos servicios: desde pagar impuestos a comprar entradas de ocio.El reto demográfico en el ámbito rural es una de las principales líneas de trabajo dentro de la Responsabilidad Social Corporativa de Correos.SIDAMUN SERVICIOS Soc_Vivienda_Libre NA euros/m2 SIDAMUN Valor tasado de la vivienda libre Almudena SERVICIOS Soc_Bienes_Cult OCI número IECM SERVICIOS Soc_Cines_Proy OCI número IECM SERVICIOS Soc_Teatros OCI número IECM SERVICIOS Soc_Con_Cobertura_100 SER porcentaje SIDAMUN Se incluye en este apartado la cobertura proporcionada por las redes fijas a velocidades de al menos 100 Mbps, que comprende las coberturas de HFC y FTTH (dos de los principales tipos de fibra óptica desplegados en el territorio español).Información METD SERVICIOS Soc_Sucursal_Banca SER nº IECM Sucursales bancarias Almudena TERRITORIO DEGURBA DEGURBA nombre Eurostat Grado de urbanización Sistema de Unidades Administrativas Locales TERRITORIO Entidad NA nombre INE (METD) Nombre de los municipios como figuran en otras fuentes diferentes al INE Relación de municipios y sus códigos por provincias TERRITORIO Municipio NA nombre INE (METD) De acuerdo con la Ley 7/1985 Reguladora de las Bases de Régimen Local (BOE del 3 de mayo de 1985), el municipio es la entidad local básica de la organización territorial del Estado. Tiene personalidad jurídica y plena capacidad para el cumplimiento de sus fines. Se incluyen en este proyecto la relación de todos los municipios según la denominación con la que figuran inscritos en el Registro de Entidades Locales (REL) del Ministerio de Política Territorial, siendo el Instituto Nacional de Estadística (INE) el organismo encargado de asignar los códigos correspondientes. La relación se actualiza todosRelación de municipios y sus códigos por provincias TERRITORIO Pob_Densidad NA hb/km2 INE-IGN Número de habitantes (año 2021) por superficie municipal. Unidades hab/km² GEO PORTAL TERRITORIO Superficie Superficie km2 IGN TERRITORIO Terr_Zonas_Estad_CM Terr_Zonas_Estad_CM nombre IECM Zonficación estadística NUTS4 de la Comunidad de Madrid Descripción NUTS4 TRABAJO Eco_Afiliados_Tem_Porc_ResidEco_Afiliados_Tem_Porc_Residnúmero IECM Porcentaje de afiliados a la Seguridad Social con contratos temporales por municipio de residencia Almudena TRABAJO Eco_Afiliados_Total Eco_Afiliados_Total número TGSS (MISM) Conjunto de personas que están dadas de alta en la Seguridad Social en una zona territorial concreta, bien sea por cuenta ajena con un contrato de trabajo remunerado o por cuenta propia, en el periodo de referencia. Por cada 1000 personasAlmudena TRABAJO Eco_Contratos_Temp Eco_Contratos_Temp número TGSS (MISM) Porcentaje de contratos temporales registrados en las oficinas de empleo Almudena TRABAJO Eco_Paro_100 Eco_Paro_101 ratio MTES Paro registrado a 31 de Marzo por 100 habitantes: total de parados registrados en las oficinas de empleo a 31 de Marzo por cada 100 habitantes. La población utilizada es a 1 de Enero.Almudena TRABAJO Eco_Afiliados_1000 NA número TGSS (MISM) Conjunto de personas que están dadas de alta en la Seguridad Social en una zona territorial concreta, bien sea por cuenta ajena con un contrato de trabajo remunerado o por cuenta propia, en el periodo de referencia. TotalEstadística de Afiliación de Trabajadores a la SS TRABAJO Eco_Contratos_1000 NA número TGSS (MISM) Contratos por cada 1000 habitantes en edad de trabajar. Estadística de Afiliación de Trabajadores a la SS TRABAJO Eco_Contratos_Indef NA número TGSS (MISM) Porcentaje de contratos indefinidos registrados en las oficinas de empleo Almudena TRABAJO Eco_Contratos_Total NA número MTES Total contratos registrados en las oficinas de empleo. La Estadística de Contratos se obtiene de la información contenida en la base de datos corporativa de los Servicios Públicos de Empleo alimentada por las Oficinas de Empleo donde se formalizan los registros de los contratos. Los contratos que aparecen en las tablas estadísticas se agrupan en relación con su duración en: indefinidos, temporales y formativos. Un contrato de trabajo es un acuerdo entre empresario y trabajador por el que éste se obliga a prestar determinados servicios por cuenta del empresario y bajo su dirección, a cambio de una retribución.Almudena TRABAJO Eco_Paro_Porc_Evol NA porcentaje MTES Evolución del porcentaje de paro registrado. Variación relativa del paro registrado: es la variación del porcentaje de paro registrado de un año (t-1) a 31 de Marzo a otro (t) a 31 de Marzo. La población utilizada es a 1 de Enero.Almudena PRESUPUESTOS Importe_AP_Sumado EUROS BDNS Subvenciones concedidas a los municipios BDNS PRESUPUESTOS Importe_EDU_Sumado EUROS BDNS Subvenciones concedidas a los municipios en educación BDNS PRESUPUESTOS Importe_SS_Sumado EUROS BDNS Subvenciones concedidas a los municipios en servicios sociales y salud BDNS