Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Performance assessment of credit risk models with boosting algorithms and transfer learning from Large Language Models

dc.contributor.advisorArroyo Gallardo, Javier
dc.contributor.advisorCaparrini López, Antonio
dc.contributor.authorSanz Guerrero, Mario
dc.date.accessioned2024-02-12T15:56:47Z
dc.date.available2024-02-12T15:56:47Z
dc.date.issued2023
dc.degree.titleGrado en Ingeniería Informática
dc.descriptionTrabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería de Software e Inteligencia Artificial (ISIA), Curso 2022/2023.
dc.description.abstractEl objetivo de este Trabajo de Fin de Grado es explorar el potencial de las técnicas de aprendizaje automático y aprendizaje por transferencia en el análisis del riesgo crediticio en préstamos entre particulares (P2P). La ausencia de un intermediario financiero tradicional en los préstamos P2P genera una significativa asimetría de información, lo que aumenta el riesgo. Una forma de mitigar este riesgo es predecir correctamente si el préstamo será o no devuelto. Sin embargo, al momento de otorgar el préstamo, la información disponible es limitada. En este estudio, se propone una aproximación novedosa mediante el uso de la descripción proporcionada por el prestatario, la cual consiste en texto libre sin estructura. Para aprovechar esta información e incorporarla en un algoritmo de clasificación tradicional, utilizaremos aprendizaje por transferencia con redes neuronales profundas, específicamente, el modelo BERT, un modelo grande de lenguaje (Large Language Model) desarrollado por Google en 2018 que se utiliza ampliamente en tareas de clasificación. Este estudio se fundamenta en los resultados de investigaciones recientes que emplean técnicas avanzadas de aprendizaje automático, como algoritmos de gradient boosting, optimización de hiperparámetros mediante algoritmos genéticos y técnicas de IA explicables, para analizar el papel de las variables de entrada. A estos modelos se les añadirá como variable de entrada una puntuación generada por el modelo BERT, la cual indica la probabilidad de impago basándose en la descripción del préstamo. Nuestro trabajo demuestra que las descripciones contienen información útil para predecir el impago, y que su inclusión mejora significativamente el rendimiento de los modelos de otorgamiento de créditos.
dc.description.abstractThe objective of this Bachelor’s Thesis is to explore the potential of machine learning techniques and transfer learning in the analysis of credit risk in peer-topeer (P2P) lending. The absence of a traditional financial intermediary in P2P lending creates a significant information asymmetry, which increases the risk. One way to mitigate this risk is to accurately predict whether the loan will default or not. However, at the time of granting the loan, the available information is limited. In this study, a novel approach is proposed using the borrower’s description, which consists of unstructured free text. To leverage this information and incorporate it into a traditional classification algorithm, we will use transfer learning with deep neural networks, specifically the BERT model, a Large Language Model developed by Google in 2018 that is widely used in classification tasks. This study builds on the findings of recent research that employ advanced machine learning techniques, such as gradient boosting algorithms, hyperparameter optimization using genetic algorithms, and explainable AI techniques, to analyze the role of input variables. These models will be supplemented with an input variable representing a score generated by the BERT model, which indicates the probability of default based on the loan description. Our work demonstrates that descriptions contain useful information for predicting default, and their inclusion significantly improves the performance of creditgranting models.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.identifier.urihttps://hdl.handle.net/20.500.14352/101304
dc.language.isoeng
dc.page.total103
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu004(043.3)
dc.subject.keywordRiesgo crediticio
dc.subject.keywordPréstamos P2P
dc.subject.keywordAprendizaje automático
dc.subject.keywordGradient boosting
dc.subject.keywordIA explicable
dc.subject.keywordPLN
dc.subject.keywordLarge Language Models
dc.subject.keywordBERT
dc.subject.keywordTransfer learning
dc.subject.keywordCredit risk
dc.subject.keywordP2P lending
dc.subject.keywordMachine learning
dc.subject.keywordGradient boosting
dc.subject.keywordExplainable AI
dc.subject.keywordNLP
dc.subject.ucmInformática (Informática)
dc.subject.unesco33 Ciencias Tecnológicas
dc.titlePerformance assessment of credit risk models with boosting algorithms and transfer learning from Large Language Models
dc.title.alternativeEvaluación del rendimiento de modelos de riesgo crediticio con algoritmos de boosting y transfer learning sobre modelos grandes de lenguaje
dc.typebachelor thesis
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublication4776976f-8d88-4992-bc6d-eea957d11041
relation.isAdvisorOfPublication.latestForDiscovery4776976f-8d88-4992-bc6d-eea957d11041

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
58091_MARIO_SANZ_GUERRERO_TFG_-_Mario_Sanz_Guerrero_2404368_806265036 (1).pdf
Size:
4.98 MB
Format:
Adobe Portable Document Format