Web scraping and data analysis for the study of the evolution of political trends in US elections

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2025

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

This study investigates political polarization in the United States by analyzing user behavior on X (formerly Twitter) during the 2016, 2020, and 2024 presidential elections. We developed a custom web scraping tool to collect real-time data rela ted to the 2024 election, complementing previously acquired datasets from 2016 and 2020. To infer political alignment, we encoded each user’s tweet history into vector re presentations using sentence-transformer models, then constructed similarity-based graphs where users are nodes connected by opinion proximity and shared content. We manually labeled a small set of users and propagated these labels through the network using various contagion strategies. The method was evaluated against al ternative classification approaches and shown to be both accurate and robust. We applied it to analyze discourse strategies and voter behavior across the three election cycles, uncovering significant shifts in attention focus, content format, and partisan engagement. This graph-based method enables large-scale classification of users as Democrat or Republican and improves the understanding of polarization through social media data.
Este estudio analiza la polarización política en Estados Unidos mediante el es tudio del comportamiento de los usuarios en X (anteriormente Twitter) durante las elecciones presidenciales de 2016, 2020 y 2024. Se desarrolló una herramienta per sonalizada de web scraping para recopilar datos en tiempo real relacionados con las elecciones de 2024, complementando así conjuntos de datos previamente obteni dos para 2016 y 2020. Para inferir la alineación política, se codificó el historial de tweets de cada usuario en representaciones vectoriales utilizando modelos sentence transformer, y se construyeron grafos basados en similitud, donde los nodos repre sentan usuarios conectados por proximidad de opinión y contenido compartido. Se etiquetó manualmente a un pequeño conjunto de usuarios y se propagaron dichas etiquetas por la red mediante distintas estrategias de contagio. El método fue com parado con otros enfoques de clasificación y demostró ser preciso. Lo aplicamos para analizar las estrategias de discurso y el comportamiento de los votantes a lo largo de los tres ciclos electorales, detectando cambios importantes en el enfoque de atención, el formato del contenido y la participación según el partido político. Este enfoque permite clasificar a gran escala a los usuarios como demócratas o republicanos y mejora la comprensión de la polarización a través de los datos de redes sociales.

Research Projects

Organizational Units

Journal Issue

Description

Doble Grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2024/2025. Todo el código desarrollado para este proyecto está disponible públicamente en GitHub en: https:/github.com/LauraRodrigoCanete/US_elections_analysis

Keywords