Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Extracción de relaciones basadas en entidades nombradas en español utilizando técnicas de procesamiento de lenguaje natural

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2024

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

En el presente Trabajo de Fin de Grado (TFG) se lleva a cabo un estudio completo y profundo sobre distintos métodos, arquitecturas y modelos para la Extracción de Relaciones en entidades nombradas en textos en español. El objetivo principal de este proyecto es el desarrollo de un modelo para la ext a través del uso de las tecnologías más innovadoras en la actualidad, como es la arquitectura Transformer y los modelos derivados de BERT, y su respectiva unificación con un modelo de Reconocimiento de Entidades Nombradas para poder extraer información de textos en español de forma eficiente y eficaz. En el estudio, se profundiza en el campo del Procesamiento del Lenguaje Natural, en sus distintos y complejos algoritmos y arquitecturas derivantes del aprendizaje automático y en sus aplicaciones al área de investigación de la Extracción de Información. Se presenta además una gran investigación en los mejores modelos de lenguaje preentrenados en español como son RoBERTa o DistilBETO y algunos de los mayores dataset para la Extracción de Relaciones en español. Los resultados obtenidos reflejan la obtención de un modelo basado en la arquitectura Transformer, en particular el uso de RoBERTa, muy efectivo y que logra relacionar bien las entidades encontradas en textos en español. Esto se puede ver reflejado en las métricas presentadas en el trabajo. En conclusión, este trabajo presenta un estudio exhaustivo de los métodos para la Extracción de Relaciones y de la efectividad de los modelos derivados de BERT. Los resultados alcanzados demuestran el potencial y la eficiencia del modelo presentado, confirmando el valor de su uso para textos en español.
In this Final Degree Project, we conduct a comprehensive and in-depth study of several methods, architectures, and models for Relation Extraction in recognized named entities in Spanish texts. The main objective of this project is to develop a model for Relation Extraction through the use of the most innovative technologies available today, such as the Transformer architecture and the models derived from BERT, along with their integration with a Named Entity Recognition model to extract information from Spanish texts efficiently and effectively. The study delves into the field of Natural Language Processing, exploring its several and complex algorithms and architectures derived from machine learning and its applications in the information extraction research domain. A thorough investigation is also presented on the best pre-trained language models in Spanish, such as RoBERTa and DistilBETO, and some of the largest datasets for Relation Extraction in Spanish. The results obtained reflect the development of a model based on the Transformer architecture, specifically the use of RoBERTa, which is highly effective in linking named entities found in Spanish texts. This effectiveness is reflected in the metrics presented in the paper. In conclusion, this work presents a thorough study of the methods for Relation Extraction and the effectiveness of models derived from BERT. The results achieved demonstrate the potential and efficiency of the proposed model, confirming its value for use in Spanish texts.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería de Software e Inteligencia Artificial, Curso 2023/2024.

Keywords