Modelado predictivo del tráfico urbano en Madrid mediante integración de datos multifuente y algoritmos avanzados de machine learning

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2025

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

La congestión vial constituye uno de los principales desafíos para la movilidad urbana en Madrid, con repercusiones en la sostenibilidad, la calidad de vida y la planificación del transporte. Este Trabajo de Fin de Máster aborda el problema mediante la integración de datos multifuente —intensidad de tráfico, meteorología y calendario de eventos— y el uso de algoritmos avanzados de aprendizaje automático, con el fin de predecir de manera temprana episodios de congestión. La metodología sigue el marco CRISP-DM, incluyendo comprensión de datos, preparación, modelado, evaluación y despliegue. Se definió como variable dependiente la congestión binaria (carga_bin_60), que indica la existencia o no de saturación de tráfico. Se entrenaron y evaluaron múltiples modelos, entre ellos regresión logística, árboles de decisión, Random Forest, Gradient Boosting, XGBoost, CatBoost y redes neuronales multicapa, empleando validación temporal con TimeSeriesSplit y métricas como ROC-AUC, PR-AUC, F1 y Balanced Accuracy. Los resultados muestran un rendimiento muy competitivo, con valores de ROC-AUC en torno a 0.98 y PR-AUC entre 0.91 y 0.93 en los mejores algoritmos. Destaca especialmente CatBoost, que alcanzó un ROC-AUC de 0.979, un PR-AUC de 0.926 y una Accuracy del 93,8 %. La regresión logística, aunque con métricas más modestas, se mantiene como un referente interpretable y de utilidad práctica. Estos hallazgos confirman la viabilidad de anticipar la congestión hasta tres horas por delante (T+3) con elevada precisión.
Abstract: Urban traffic congestion is one of the main challenges for mobility in Madrid, with significant implications for sustainability, quality of life, and transport planning. This Master’s Thesis addresses the issue through the integration of multi-source data —traffic intensity, meteorology, and calendar events— combined with advanced machine learning algorithms to enable early prediction of congestion episodes. The research follows the CRISP-DM framework, comprising data understanding, preparation, modeling, evaluation, and deployment. The dependent variable was defined as binary congestion carga_bin_60), indicating whether traffic saturation occurred. Several models were trained and evaluated, including logistic regression, decision trees, Random Forest, Gradient Boosting, XGBoost, CatBoost, and multilayer perceptrons. Temporal validation was conducted using TimeSeriesSplit, and performance was assessed with metrics such as ROC-AUC, PR-AUC, F1-score, and Balanced Accuracy. Results reveal very competitive performance, with ROC-AUC values around 0.98 and PR-AUC scores between 0.91 and 0.93 for the top algorithms. CatBoost stood out, achieving a ROC-AUC of 0.979, a PR-AUC of 0.926, and an Accuracy of 93.8 %. Logistic regression, although with more modest scores, remained a useful and interpretable baseline. These findings confirm the feasibility of anticipating congestion up to three hours ahead (T+3) with high accuracy.

Research Projects

Organizational Units

Journal Issue

Description

Keywords