Reconocimiento de Entidades Nombradas en  Textos Legales en Español

López Olmos, Álvaro; Chen, ZhenBo

Reconocimiento de Entidades Nombradas en Textos Legales en Español

Download

85819_ALVARO_LOPEZ_OLMOS_Entrega_final_TFG_contexto_2404368_541818226.pdf (1.64 MB)

Publication date

2023

Authors

López Olmos, Álvaro

Chen, ZhenBo

Advisors (or tutors)

Martínez Hernández, Luis Alberto

García Villalba, Luis Javier

Citations

Exportar

URI

https://hdl.handle.net/20.500.14352/105555

Abstract

En el presente trabajo se lleva a cabo una exhaustiva investigación del uso de modelos de lenguaje para el reconocimiento de entidades nombradas en textos en español y de las técnicas de recopilación, extracción de información y reentrenamiento de los modelos. El objetivo principal de este trabajo consiste en desarrollar un modelo basado en RoBERTa, utilizando un conjunto de datos balanceado que garantice la solidez y fiabilidad del mismo. En el estudio, se hace énfasis en el campo del procesamiento del lenguaje natural, aprovechando los avances en aprendizaje automático para mejorar el reconocimiento de entidades nombradas en textos legales en español. Se evalúa y compara el rendimiento de RoBERTa con otros modelos de lenguaje, tales como BERT y ALBERT, para elegir el modelo m ́as apropiado para el análisis de textos en español. Para la selección del conjunto de datos, se recolecta una amplia variedad de textos legales en español, cubriendo distintas ́áreas y a los que se aplican diferentes técnicas de preprocesamiento. Los resultados obtenidos tras el reentrenamiento reflejan un buen desempeño del modelo RoBERTa en el reconocimiento de entidades en textos legales en español. Se presentan métricas de evaluación que demuestran su eficacia y precisión en la identificación de entidades mencionadas.

Description

In this work, an exhaustive investigation of the use of language models for named entity recognition in Spanish texts and of the techniques for collecting, extracting information and retraining the models is carried out. The main objective of this work is to develop a model based on RoBERTa, using a balanced dataset that guarantees the robustness and reliability of the model. In the study, emphasis is placed on the field of natural language processing, taking advantage of advances in machine learning to improve the recognition of named entities in legal texts in Spanish. The performance of RoBERTa is evaluated and compared with other language models, such as BERT and ALBERT, in order to choose the most appropriate model for the analysis of Spanish texts. For the selection of the dataset, a wide variety of Spanish legal texts are collected, covering different areas and to which different preprocessing techniques are applied. The results obtained after retraining reflect a good performance of the RoBERTa model in entity recognition in Spanish legal texts. Evaluation metrics are presented that demonstrate its efficiency and accuracy in the identification of the mentioned entities.

UCM subjects

Informática (Informática)

Unesco subjects

33 Ciencias Tecnológicas

Collections

Trabajos Fin de Grado (TFG) y Diplomas de Estudios Avanzados (DEA)

Full item page

Reconocimiento de Entidades Nombradas en Textos Legales en Español

Download

Official URL

Full text at PDC

Publication date

Authors

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations

Exportar

URI

Citation

Abstract

Research Projects

Organizational Units

Journal Issue

Description

UCM subjects

Unesco subjects

Keywords

Collections