Para depositar en Docta Complutense, identifícate con tu correo @ucm.es en el SSO institucional. Haz clic en el desplegable de INICIO DE SESIÓN situado en la parte superior derecha de la pantalla. Introduce tu correo electrónico y tu contraseña de la UCM y haz clic en el botón MI CUENTA UCM, no autenticación con contraseña.
 

Generación de explicaciones basadas en ejemplos y contraejemplos a través de técnicas de Visual Question Answering

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2025

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

La poca transparencia en los modelos de Inteligencia Artificial (IA) se presenta como uno de los retos hoy en día en la industria. Esta poca transparencia se refiere a lo complicado de explicar cómo los grandes modelos de inteligencia artificial logran tomar una decisión. Por ello cobra importancia la Inteligencia Artificial Explicable (XAI), campo de la inteligencia artificial que consiste en diseñar sistemas o métodos para hacer más transparente y fácil de comprender los mecanismos internos de los modelos de IA para los usuarios. En este Trabajo de Fin de Máster se propone un sistema de Case-Based Reasoning (CBR) que usa modelos de lenguaje multimodal, en concreto Large Lenguage Models (LLMs) para Visual Question Answering (VQA) y métricas de similitud textual y semántica, generando explicaciones basadas en ejemplos (factual) y contraejemplos (counter-factual). El método utiliza un modelo multimodal para crear descripciones textuales de imágenes y se utilizan métricas de similitud para recuperar las explicaciones y reutilizar la información textual generada anteriormente. Ambos enfoques (factual y conuterfactual) se han evaluado de forma offline y online, con usuarios reales, obteniendo resultados que indican que el método propuesto en este trabajo mejora la explicabilidad ante métodos tradicionales encontrados en la literatura.
The lack of transparency in Artificial Intelligence (AI) models is currently one of the main challenges in the industry. This lack of transparency refers to the difficulty in explaining how large artificial intelligence models make decisions. For this reason, Explainable Artificial Intelligence (XAI) becomes important, it is the field of artificial intelligence focused on designing systems or methods to make the internal mechanisms of AI models more transparent and easier for users to understand. This Master Project proposes a Case-Based Reasoning (CBR) system that uses multimodal language models, specifically Large Language Models (LLMs) for Visual Question Answering (VQA), textual and semantic similarity metrics, generating explanation based on examples (factual) and counterexamples (counterfactual). The method employs a multimodal model to create textual descriptions of images and uses similarity metrics to retrieve explanations while reusing previously generated textual information. Both approaches (factual and counterfactual) were evaluated offline and online with real users, yielding results indicating that the proposed method improves explainability compared to traditional methods found in the literature.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Máster en Internet de las Cosas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2024/2025.

Keywords