Web scraping and data analysis for the study of the evolution of political trends in US elections

dc.contributor.advisorCaballero Roldán, Rafael
dc.contributor.authorRodrigo Cañete, Laura
dc.date.accessioned2025-09-16T15:03:56Z
dc.date.available2025-09-16T15:03:56Z
dc.date.issued2025
dc.degree.titleDoble Grado en Ingeniería Informática y Matemáticas
dc.descriptionDoble Grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2024/2025. Todo el código desarrollado para este proyecto está disponible públicamente en GitHub en: https:/github.com/LauraRodrigoCanete/US_elections_analysis
dc.description.abstractThis study investigates political polarization in the United States by analyzing user behavior on X (formerly Twitter) during the 2016, 2020, and 2024 presidential elections. We developed a custom web scraping tool to collect real-time data rela ted to the 2024 election, complementing previously acquired datasets from 2016 and 2020. To infer political alignment, we encoded each user’s tweet history into vector re presentations using sentence-transformer models, then constructed similarity-based graphs where users are nodes connected by opinion proximity and shared content. We manually labeled a small set of users and propagated these labels through the network using various contagion strategies. The method was evaluated against al ternative classification approaches and shown to be both accurate and robust. We applied it to analyze discourse strategies and voter behavior across the three election cycles, uncovering significant shifts in attention focus, content format, and partisan engagement. This graph-based method enables large-scale classification of users as Democrat or Republican and improves the understanding of polarization through social media data.
dc.description.abstractEste estudio analiza la polarización política en Estados Unidos mediante el es tudio del comportamiento de los usuarios en X (anteriormente Twitter) durante las elecciones presidenciales de 2016, 2020 y 2024. Se desarrolló una herramienta per sonalizada de web scraping para recopilar datos en tiempo real relacionados con las elecciones de 2024, complementando así conjuntos de datos previamente obteni dos para 2016 y 2020. Para inferir la alineación política, se codificó el historial de tweets de cada usuario en representaciones vectoriales utilizando modelos sentence transformer, y se construyeron grafos basados en similitud, donde los nodos repre sentan usuarios conectados por proximidad de opinión y contenido compartido. Se etiquetó manualmente a un pequeño conjunto de usuarios y se propagaron dichas etiquetas por la red mediante distintas estrategias de contagio. El método fue com parado con otros enfoques de clasificación y demostró ser preciso. Lo aplicamos para analizar las estrategias de discurso y el comportamiento de los votantes a lo largo de los tres ciclos electorales, detectando cambios importantes en el enfoque de atención, el formato del contenido y la participación según el partido político. Este enfoque permite clasificar a gran escala a los usuarios como demócratas o republicanos y mejora la comprensión de la polarización a través de los datos de redes sociales.
dc.description.departmentDepto. de Sistemas Informáticos y Computación
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.identifier.relatedurlhttps:/github.com/LauraRodrigoCanete/US_elections_analysis
dc.identifier.urihttps://hdl.handle.net/20.500.14352/124008
dc.language.isoeng
dc.page.total62
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu004(043.3)
dc.subject.keywordTwitter
dc.subject.keywordPolitical science
dc.subject.keywordPolitical polarization
dc.subject.keywordData analytics
dc.subject.keywordWeb scraping
dc.subject.keywordInference
dc.subject.keywordVector embedding
dc.subject.keywordGraph
dc.subject.keywordLabel propagation
dc.subject.keywordCiencia política
dc.subject.keywordPolarización política
dc.subject.keywordAnálisis de datos
dc.subject.keywordWeb scraping
dc.subject.keywordInferencia
dc.subject.keywordGrafo
dc.subject.keywordPropagación de etiqueta
dc.subject.ucmInformática (Informática)
dc.subject.unesco33 Ciencias Tecnológicas
dc.titleWeb scraping and data analysis for the study of the evolution of political trends in US elections
dc.titleCaptura y análisis de datos para el estudio de la evolución de las tendencias políticas en las elecciones de EE.UU
dc.typebachelor thesis
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublicationd17b0355-2695-449e-b06e-a34f4e27f120
relation.isAdvisorOfPublication.latestForDiscoveryd17b0355-2695-449e-b06e-a34f4e27f120

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Captura_y_análisis_de_datos.pdf
Size:
1.24 MB
Format:
Adobe Portable Document Format
Description:
Web scraping and data analysis for the study of the evolution of political trends in US elections