Reconocimiento de Entidades Nombradas en Textos Legales en Español
Loading...
Official URL
Full text at PDC
Publication date
2023
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
En el presente trabajo se lleva a cabo una exhaustiva investigación del uso de modelos de lenguaje para el reconocimiento de entidades nombradas en textos en español y de las
técnicas de recopilación, extracción de información y reentrenamiento de los modelos. El objetivo principal de este trabajo consiste en desarrollar un modelo basado en RoBERTa,
utilizando un conjunto de datos balanceado que garantice la solidez y fiabilidad del mismo. En el estudio, se hace énfasis en el campo del procesamiento del lenguaje natural,
aprovechando los avances en aprendizaje automático para mejorar el reconocimiento de entidades nombradas en textos legales en español. Se evalúa y compara el rendimiento
de RoBERTa con otros modelos de lenguaje, tales como BERT y ALBERT, para elegir el modelo m ́as apropiado para el análisis de textos en español. Para la selección del
conjunto de datos, se recolecta una amplia variedad de textos legales en español, cubriendo distintas ́áreas y a los que se aplican diferentes técnicas de preprocesamiento. Los resultados obtenidos tras el reentrenamiento reflejan un buen desempeño del modelo RoBERTa en el reconocimiento de entidades en textos legales en español. Se presentan métricas
de evaluación que demuestran su eficacia y precisión en la identificación de entidades mencionadas.
Description
In this work, an exhaustive investigation of the use of language models for named entity recognition in Spanish texts and of the techniques for collecting, extracting information
and retraining the models is carried out. The main objective of this work is to develop a model based on RoBERTa, using a balanced dataset that guarantees the robustness and
reliability of the model. In the study, emphasis is placed on the field of natural language processing, taking advantage of advances in machine learning to improve the recognition
of named entities in legal texts in Spanish. The performance of RoBERTa is evaluated and compared with other language models, such as BERT and ALBERT, in order to choose
the most appropriate model for the analysis of Spanish texts. For the selection of the dataset, a wide variety of Spanish legal texts are collected, covering different areas and to
which different preprocessing techniques are applied. The results obtained after retraining reflect a good performance of the RoBERTa model in entity recognition in Spanish legal
texts. Evaluation metrics are presented that demonstrate its efficiency and accuracy in the identification of the mentioned entities.