Fuentes Fernández, RubénSaras González, Javier2025-09-172025-09-172025https://hdl.handle.net/20.500.14352/124066Trabajo de Fin de Doble Grado en Ingeniería Informática y Matemáticas, Facultad Informática UCM. Dpto. de Ingeniería del Software e Inteligencia Artificial, Curso 2024/2025Determinar las coordenadas exactas de una imagen es una tarea visual sumamente compleja, resultando en un caso de estudio ideal para evaluar y desarrollar modelos de aprendizaje supervisado para tratar de resolver el problema. Para ello, se selecciona un amplio conjunto de datos etiquetado, equilibrado y representativo de la diversidad geográfica mundial; y se investigan maneras eficientes de gestionarlo y usarlo. El dataset se divide en entrenamiento, validación y test para, respectivamente, entrenar las redes neuronales, determinar cuándo parar dicho entrenamiento y evaluar el rendimiento final. Se propone una arquitectura que consta de un codificador de imágenes encargado de extraer características visuales relevantes, seguido de una red neuronal densa que estima la ubicación. Se exploran distintas configuraciones de parámetros y se definen varias funciones de pérdida para probar diferentes estrategias y ver cuál tiene un mejor desempeño, resultando en 36 modelos entrenados con la técnica early stopping para mitigar sobreajuste y subajuste. Después del entrenamiento, se evalúan los diferentes prototipos y se selecciona el que muestra un mejor desempeño en términos de consistencia en la precisión y en su capacidad de generalización ante nuevos datos, consiguiendo así un modelo competitivo con predicciones de menos de 900 km a más del 50 % del conjunto de test. Finalmente, se desarrolla una aplicación que integra ese modelo y permite estimar ubicaciones de nuevas imágenes. Todo el código asociado, los materiales adicionales y los modelos entrenados se pueden encontrar en https://drive.google.com/drive/folders/ 1YvVd-4UFtF6zzuGpNKgqjYX8kd002gRX?usp=sharingDetermining the precise coordinates of an image is a highly complex visual task, making it an excellent case study for evaluating and developing supervised learning models aimed at solving this problem. To achieve this, a large, geotagged, well-balanced, and representative dataset reflecting the world’s geographic diversity is selected, and efficient methods to manage and use it are investigated. The dataset is divided into training, validation, and test sets, used respectively to train the neural networks, determine when to stop the training, and evaluate final performance. We propose an architecture composed of an image encoder responsible for extracting relevant features, followed by a dense neural network that estimates location. Different parameter configurations are explored, and several loss functions are defined to test different strategies and see which one performs better. This results in the training of 36 models, using the early stopping technique to mitigate overfitting and underfitting. After training, the different prototypes are evaluated, and the one showing the best performance in terms of accuracy and generalization to unseen data is selected, thus achieving a competitive model with prediction errors below 900 km in more than 50% of the test images. Finally, an application integrating the model is developed to allow location estimations of new images. All associated codes, additional materials, and trained models can be found at https://drive.google.com/drive/folders/1YvVd-4UFtF6zzuGpNKgqjYX8kd002gRX?usp=sharingspaAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Aprendizaje máquina para la clasificación de imágenes geolocalizadasClassification of geolocated images using Machine learningbachelor thesisopen access004(043.3)Geolocalización de imágenesFunciones de pérdida de geolocalizaciónLocalizabilidad de imágenesCLIPPerceptrón multicapaImage GeolocationGeolocation Loss FunctionsImage LocalizabilityCLIPMultilayer PerceptronInformática (Informática)33 Ciencias Tecnológicas