Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Reconocimiento de Entidades Nombradas en Textos Legales en Español

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2023

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

En el presente trabajo se lleva a cabo una exhaustiva investigación del uso de modelos de lenguaje para el reconocimiento de entidades nombradas en textos en español y de las técnicas de recopilación, extracción de información y reentrenamiento de los modelos. El objetivo principal de este trabajo consiste en desarrollar un modelo basado en RoBERTa, utilizando un conjunto de datos balanceado que garantice la solidez y fiabilidad del mismo. En el estudio, se hace énfasis en el campo del procesamiento del lenguaje natural, aprovechando los avances en aprendizaje automático para mejorar el reconocimiento de entidades nombradas en textos legales en español. Se evalúa y compara el rendimiento de RoBERTa con otros modelos de lenguaje, tales como BERT y ALBERT, para elegir el modelo m ́as apropiado para el análisis de textos en español. Para la selección del conjunto de datos, se recolecta una amplia variedad de textos legales en español, cubriendo distintas ́áreas y a los que se aplican diferentes técnicas de preprocesamiento. Los resultados obtenidos tras el reentrenamiento reflejan un buen desempeño del modelo RoBERTa en el reconocimiento de entidades en textos legales en español. Se presentan métricas de evaluación que demuestran su eficacia y precisión en la identificación de entidades mencionadas.

Research Projects

Organizational Units

Journal Issue

Description

In this work, an exhaustive investigation of the use of language models for named entity recognition in Spanish texts and of the techniques for collecting, extracting information and retraining the models is carried out. The main objective of this work is to develop a model based on RoBERTa, using a balanced dataset that guarantees the robustness and reliability of the model. In the study, emphasis is placed on the field of natural language processing, taking advantage of advances in machine learning to improve the recognition of named entities in legal texts in Spanish. The performance of RoBERTa is evaluated and compared with other language models, such as BERT and ALBERT, in order to choose the most appropriate model for the analysis of Spanish texts. For the selection of the dataset, a wide variety of Spanish legal texts are collected, covering different areas and to which different preprocessing techniques are applied. The results obtained after retraining reflect a good performance of the RoBERTa model in entity recognition in Spanish legal texts. Evaluation metrics are presented that demonstrate its efficiency and accuracy in the identification of the mentioned entities.

Keywords