%0 Thesis %A Ibáñez Archilla, Jaime Millán %T Herramienta para la recolección y procesamiento automático de información para el análisis de la criminalidad %D 2024 %U https://hdl.handle.net/20.500.14352/106056 %X El propósito de este trabajo es explorar la utilización de técnicas OSINT y web scraping para automatizar la adquisición y el análisis de información procedente de fuentes públicas. El objetivo principal es facilitar el reconocimiento temprano de actividades criminales o conductas delictivas en línea, aprovechando datos externos procedentes de informes policiales diarios. Previa a la recopilación de información, se inicia un subproceso a una hora predeterminada, configurado como una tarea cron en el servidor que aloja el servicio. Este proceso se encarga de extraer y sanitizar las entidades nombradas del texto utilizando NER de los datos de origen a un formato JSON. Para que el procedimiento sea exitoso, se utiliza una herramienta de Procesamiento del Lenguaje Natural NLP desarrollada por el Departamento de Software e Inteligencia Artificial de la Universidad Complutense de Madrid, que ha sido reentranada con un nuevo pipeline para detectar entidades específicas de interés. Posteriormente, la herramienta recopila la información relevante empleando técnicas OSINT integradas en un crawler, filtrando las partes relevantes en base a las entidades extraídas anteriormente mencionadas, asegurando al usuario el acceso a los datos procesados al utilizar la aplicación. El objetivo ´ultimo de esta investigación es el desarrollo de una aplicación web diseñada para agilizar la extracción y el procesamiento automatizados de datos, facilitando la recopilación manual de información de diversas Redes Sociales (RRSS), presentando posteriormente las pruebas en un formato accesible y coherente. Todo ello a través de la conexión a una Base de Datos (BD) en la que se almacenan las evidencias adquiridas y que permite el volcado al equipo local. Este doble enfoque no sólo mejora la eficacia de la vigilancia de posibles amenazas en línea, sino que también contribuye significativamente a la identificación preventiva de conductas delictivas y a la monitorización de determinados sujetos, aumentando así las medidas de seguridad y las capacidades policiales existentes. %X This paper explores the application of Open-Source Intelligence (OSINT) techniques and web scraping to automate the acquisition and analysis of information from publicly available sources. The primary aim is to facilitate the early detection of criminal activities or misconduct online, leveraging external data sourced from daily police reports. Prior to the information gathering, a subprocess is initiated at a predetermined time, configured as a cron job on the server hosting the service. This process is responsible for extracting and sanitising the entities using Named Entity Recognition (NER) from the source data into a JavaScript Object Notation (JSON) format. This procedure’s success depends on the use of a Natural Language Processing (NLP) tool developed by the Software and Artificial Intelligence Department of the Universidad Complutense de Madrid, which has been retrained with a new pipeline to detect specific entities of interest. Subsequently, the tool collects relevant information employing OSINT techniques integrated in a crawler, filtering the relevant parts based on the aforementioned extracted entities, ensuring that the user has access to processed data upon utilising the application. The ultimate goal of this research is the development of a web application designed to streamline the automated extraction and processing of data. Furthermore, the application supports manual information gathering from various Social Media (SM) sites, subsequently presenting the evidences in an accessible and coherent format. All this is accomplished through the connection to a Database (DB) where the acquired evidences are stored and which allows them to be downloaded to the local computer. This dual approach not only enhances the efficiency of monitoring potential online threats but also contributes significantly to the preemptive identification of criminal conduct and the surveillance of specific individuals, thereby augmenting existing security measures and law enforcement capabilities. %~