Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Herramienta para la recolección y procesamiento automático de información para el análisis de la criminalidad

dc.contributor.advisorGarcía Villalba, Luis Javier
dc.contributor.advisorSandoval Orozco, Ana Lucila
dc.contributor.authorIbáñez Archilla, Jaime Millán
dc.date.accessioned2024-07-12T16:12:27Z
dc.date.available2024-07-12T16:12:27Z
dc.date.issued2024
dc.degree.titleGrado en Ingeniería Informática
dc.descriptionTrabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024.
dc.description.abstractEl propósito de este trabajo es explorar la utilización de técnicas OSINT y web scraping para automatizar la adquisición y el análisis de información procedente de fuentes públicas. El objetivo principal es facilitar el reconocimiento temprano de actividades criminales o conductas delictivas en línea, aprovechando datos externos procedentes de informes policiales diarios. Previa a la recopilación de información, se inicia un subproceso a una hora predeterminada, configurado como una tarea cron en el servidor que aloja el servicio. Este proceso se encarga de extraer y sanitizar las entidades nombradas del texto utilizando NER de los datos de origen a un formato JSON. Para que el procedimiento sea exitoso, se utiliza una herramienta de Procesamiento del Lenguaje Natural NLP desarrollada por el Departamento de Software e Inteligencia Artificial de la Universidad Complutense de Madrid, que ha sido reentranada con un nuevo pipeline para detectar entidades específicas de interés. Posteriormente, la herramienta recopila la información relevante empleando técnicas OSINT integradas en un crawler, filtrando las partes relevantes en base a las entidades extraídas anteriormente mencionadas, asegurando al usuario el acceso a los datos procesados al utilizar la aplicación. El objetivo ´ultimo de esta investigación es el desarrollo de una aplicación web diseñada para agilizar la extracción y el procesamiento automatizados de datos, facilitando la recopilación manual de información de diversas Redes Sociales (RRSS), presentando posteriormente las pruebas en un formato accesible y coherente. Todo ello a través de la conexión a una Base de Datos (BD) en la que se almacenan las evidencias adquiridas y que permite el volcado al equipo local. Este doble enfoque no sólo mejora la eficacia de la vigilancia de posibles amenazas en línea, sino que también contribuye significativamente a la identificación preventiva de conductas delictivas y a la monitorización de determinados sujetos, aumentando así las medidas de seguridad y las capacidades policiales existentes.
dc.description.abstractThis paper explores the application of Open-Source Intelligence (OSINT) techniques and web scraping to automate the acquisition and analysis of information from publicly available sources. The primary aim is to facilitate the early detection of criminal activities or misconduct online, leveraging external data sourced from daily police reports. Prior to the information gathering, a subprocess is initiated at a predetermined time, configured as a cron job on the server hosting the service. This process is responsible for extracting and sanitising the entities using Named Entity Recognition (NER) from the source data into a JavaScript Object Notation (JSON) format. This procedure’s success depends on the use of a Natural Language Processing (NLP) tool developed by the Software and Artificial Intelligence Department of the Universidad Complutense de Madrid, which has been retrained with a new pipeline to detect specific entities of interest. Subsequently, the tool collects relevant information employing OSINT techniques integrated in a crawler, filtering the relevant parts based on the aforementioned extracted entities, ensuring that the user has access to processed data upon utilising the application. The ultimate goal of this research is the development of a web application designed to streamline the automated extraction and processing of data. Furthermore, the application supports manual information gathering from various Social Media (SM) sites, subsequently presenting the evidences in an accessible and coherent format. All this is accomplished through the connection to a Database (DB) where the acquired evidences are stored and which allows them to be downloaded to the local computer. This dual approach not only enhances the efficiency of monitoring potential online threats but also contributes significantly to the preemptive identification of criminal conduct and the surveillance of specific individuals, thereby augmenting existing security measures and law enforcement capabilities.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.identifier.urihttps://hdl.handle.net/20.500.14352/106056
dc.language.isospa
dc.page.total142
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu004(043.0)
dc.subject.keywordCrawler
dc.subject.keywordExtracción automatizada
dc.subject.keywordIdentificación
dc.subject.keywordInteligencia de fuentes abiertas
dc.subject.keywordProcesamiento del lenguaje natural
dc.subject.keywordRecopilación de Información
dc.subject.keywordReconocimiento de entidades nombradas
dc.subject.keywordRedes Sociales
dc.subject.keywordWeb Scraping
dc.subject.keywordAutomated Extraction
dc.subject.keywordIdentification
dc.subject.keywordInformation Gathering
dc.subject.keywordNamed Entity Recognition
dc.subject.keywordNatural Language Processing
dc.subject.keywordOpen Source Intelligence
dc.subject.keywordSocial Media Sites
dc.subject.ucmInformática (Informática)
dc.subject.unesco33 Ciencias Tecnológicas
dc.titleHerramienta para la recolección y procesamiento automático de información para el análisis de la criminalidad
dc.title.alternativeTool for the Collection and Automatic Processing of Information for Crime Analysis
dc.typebachelor thesis
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublication0f67f6b3-4d2f-4545-90e1-95b8d9f3e1f0
relation.isAdvisorOfPublicationdea44425-99a5-4fef-b005-52d0713d0e0d
relation.isAdvisorOfPublication.latestForDiscovery0f67f6b3-4d2f-4545-90e1-95b8d9f3e1f0

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
2389117304 - JAIME MILLÁN IBÁÑEZ ARCHILLA - 14816_JAIME_MILLAN_IBANEZ_ARCHILLA_Memoria_TFG_735959_1018352410.pdf
Size:
2.91 MB
Format:
Adobe Portable Document Format