%0 Thesis %A Pons Fontoira, Gabriel %T Análisis de clusters para la segmentación de códigos postales en base a características sociodemográficas en España %D 2024 %U https://hdl.handle.net/20.500.14352/113024 %X Este trabajo presenta la creación de una base de datos exhaustiva que engloba observaciones de códigos postales españoles. Esta iniciativa se materializó mediante la recopilación de datos de fuentes como el Instituto Nacional de Estadística, que proporciona información a nivel de sección censal sobre variables demográficas, de renta y fuentes de ingresos. Por otro lado, empleando web scraping, de la página web RealAdvisor se obtuvo el precio del metro cuadrado por código postal. Para unificar la unidad de observación geográfica, utilizando El Callejero, se escalaron las variables a nivel de código postal.Aplicando el algoritmo de clustering K-Means a esta base de datos, se han seleccionado seis clusters distintos que reflejan diferentes perfiles socioeconómicos dentro de la población española. La originalidad y valor de este estudio radican en su enfoque metodológico simple, pero eficaz, y en la utilización combinada de algoritmos avanzados de análisis de datos. La identificación de clusters es una herramienta valiosa para la segmentación y análisis de datos, que facilita la comprensión de patrones económicos y sociales. Además, los resultados obtenidos son de suma importancia para diversas aplicaciones comerciales, ya que proporcionan una perspectiva detallada a nivel geográfico, permitiendo enriquecer con información adicional de alto valor estratégico a la empresa. %X AbstractThis project presents the creation of a database which holds observations of Spanish postal codes. This initiative was materialized by collecting data from sources such as the National Institute of Statistics, which provides information at census section level on demographic variables, income, and income sources. On the other hand, using web scraping, the price per square meter was obtained. To unify the variables, using El Callejero, the variables were scaled to the postal code level.Applying the K-Means clustering algorithm to this database, six different clusters were selected to reflect different socioeconomic profiles within the Spanish population. The originality and value of this study lies in its simple but effective methodological approach and the combined use of advanced data analysis algorithms. The identification of clusters is a valuable tool for data segmentation and analysis, which facilitates the understanding of economic and social patterns. In addition, the results obtained are of great importance for various business applications, as they provide a detailedperspective at a geographic level, allowing to enrich the company with additional information of high strategic value. %~