RT Generic T1 Reconocimiento de Entidades Nombradas en Textos Legales en Español T2 Recognition of Named Entities in Spanish Legal Texts A1 López Olmos, Álvaro A1 Chen, ZhenBo AB En el presente trabajo se lleva a cabo una exhaustiva investigación del uso de modelos de lenguaje para el reconocimiento de entidades nombradas en textos en español y de lastécnicas de recopilación, extracción de información y reentrenamiento de los modelos. El objetivo principal de este trabajo consiste en desarrollar un modelo basado en RoBERTa,utilizando un conjunto de datos balanceado que garantice la solidez y fiabilidad del mismo. En el estudio, se hace énfasis en el campo del procesamiento del lenguaje natural,aprovechando los avances en aprendizaje automático para mejorar el reconocimiento de entidades nombradas en textos legales en español. Se evalúa y compara el rendimientode RoBERTa con otros modelos de lenguaje, tales como BERT y ALBERT, para elegir el modelo m ́as apropiado para el análisis de textos en español. Para la selección delconjunto de datos, se recolecta una amplia variedad de textos legales en español, cubriendo distintas ́áreas y a los que se aplican diferentes técnicas de preprocesamiento. Los resultados obtenidos tras el reentrenamiento reflejan un buen desempeño del modelo RoBERTa en el reconocimiento de entidades en textos legales en español. Se presentan métricasde evaluación que demuestran su eficacia y precisión en la identificación de entidades mencionadas. YR 2023 FD 2023 LK https://hdl.handle.net/20.500.14352/105555 UL https://hdl.handle.net/20.500.14352/105555 LA spa NO In this work, an exhaustive investigation of the use of language models for named entity recognition in Spanish texts and of the techniques for collecting, extracting informationand retraining the models is carried out. The main objective of this work is to develop a model based on RoBERTa, using a balanced dataset that guarantees the robustness andreliability of the model. In the study, emphasis is placed on the field of natural language processing, taking advantage of advances in machine learning to improve the recognitionof named entities in legal texts in Spanish. The performance of RoBERTa is evaluated and compared with other language models, such as BERT and ALBERT, in order to choosethe most appropriate model for the analysis of Spanish texts. For the selection of the dataset, a wide variety of Spanish legal texts are collected, covering different areas and towhich different preprocessing techniques are applied. The results obtained after retraining reflect a good performance of the RoBERTa model in entity recognition in Spanish legaltexts. Evaluation metrics are presented that demonstrate its efficiency and accuracy in the identification of the mentioned entities. DS Docta Complutense RD 9 abr 2025