Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA Disculpen las molestias.
 

Generación de descripciones de imágenes basadas en la experiencia

Citation

Abstract

El auge de la inteligencia artificial generativa ha sido notable en los últimos años, impulsado por avances significativos en algoritmos y tecnologías de aprendizaje automático. Estos modelos tienen la capacidad de generar contenido nuevo y realista, incluyendo imágenes, texto y audio, lo que ha generado un gran interés en una amplia gama de aplicaciones. Sin embargo, a pesar de los avances significativos, esta IA generativa aún enfrenta varias limitaciones importantes como la necesidad de grandes cantidades de datos de entrenamiento y recursos computacionales para producir resultados de alta calidad adaptados a lo que el usuario demanda, lo que puede limitar su aplicabilidad en entornos con recursos limitados. En este trabajo proponemos una alternativa a estos grandes modelos mediante una arquitectura basada en en el razonamiento basado en casos (CBR). La idea principal es generar descripciones de imágenes basadas en experiencias con imágenes similares almacenadas en una base de casos. Este enfoque no solo evita el uso de modelos masivos, sino que también destaca por la posibilidad de utilizar experiencias concretas en el proceso de generación y aporta un mayor grado de explicabilidad. Para llevarlo a cabo, hemos creado una base de casos de tamaño reducido con una recopilación de imágenes y preguntas asociadas a ellas. El proceso de generación de una descripción a partir de una imagen nueva se ha dividido en dos partes: la recuperación de imágenes y sus preguntas asociadas más relevantes para la imagen dada, y la utilización de estas preguntas junto con las respuestas dadas por un sistema VQA (Visual Question Answering) para generar una descripción utilizando un modelo de generación de texto pequeño. Durante el desarrollo del trabajo se han evaluado diferentes maneras de obtener los casos o imágenes más relevantes para obtener el mejor rendimiento posible de nuestra aproximación. El resultado de este trabajo ha sido publicado en ICCBR, la conferencia internacional sobre razonamiento basado en casos. Finalmente, se ha hecho una evaluación de los resultados, demostrando la viabilidad y el potencial del concepto planteado en el marco de la generación de descripciones.
The rise of generative artificial intelligence has been very remarkable in recent years, fuelled by significant advances in machine learning techniques and algorithms. These models have the ability to generate new and realistic content, including images, text and audio, which has led to a wide range of new applications. However, despite these advances, this generative AI still faces some limitations, including the massive amount of data and the hardware resources needed for training these large models. Such limitations can reduce their usability when dealing with scarce resources. In this research we propose an alternative to these generative models through a Case-Based Reasoning (CBR) architecture. The main idea of our proposal is to generate image captions based on experiences with similar images stored in a case base. This approach not only avoids the use of massive models but also stands out for the possibility of utilizing specific experiences in the generation process, contributing also to a greater explainability of the model. To accomplish this goal, we have created a small case base with a compilation of images and associated questions. The description generation process for a new image has been divided into two parts: the retrieval of the most relevant images and their associated questions, and the utilization of those questions together with the answer provided by a VQA (Visual Question Answering) system to generate the description using a text-to-text model. Throughout the development of the research, we have evaluated several ways of retrieving the most relevant images in order to extract the best possible performance of our approach. The results of this research have been published in ICCBR, the International Conference on Case-Based Reasoning. Finally, we carried out an evaluation of the results, proving the viability and potential of our concept.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Doble grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024

Keywords