Generación de descripciones de imágenes basadas en la experiencia

Pérez Peinador, Adrián; Sanjuán Espejo, Adrián; Gómez Blanco, Rubén

Generación de descripciones de imágenes basadas en la experiencia

dc.contributor.advisor	Sánchez Ruiz-Granados, Antonio Alejandro
dc.contributor.advisor	Díaz Agudo, María Belén
dc.contributor.author	Pérez Peinador, Adrián
dc.contributor.author	Sanjuán Espejo, Adrián
dc.contributor.author	Gómez Blanco, Rubén
dc.date.accessioned	2024-07-19T10:34:59Z
dc.date.available	2024-07-19T10:34:59Z
dc.date.issued	2024
dc.degree.title	Doble grado en Ingeniería Informática y Matemáticas Facultad de Informática
dc.description	Trabajo de Fin de Doble grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024
dc.description.abstract	El auge de la inteligencia artificial generativa ha sido notable en los últimos años, impulsado por avances significativos en algoritmos y tecnologías de aprendizaje automático. Estos modelos tienen la capacidad de generar contenido nuevo y realista, incluyendo imágenes, texto y audio, lo que ha generado un gran interés en una amplia gama de aplicaciones. Sin embargo, a pesar de los avances significativos, esta IA generativa aún enfrenta varias limitaciones importantes como la necesidad de grandes cantidades de datos de entrenamiento y recursos computacionales para producir resultados de alta calidad adaptados a lo que el usuario demanda, lo que puede limitar su aplicabilidad en entornos con recursos limitados. En este trabajo proponemos una alternativa a estos grandes modelos mediante una arquitectura basada en en el razonamiento basado en casos (CBR). La idea principal es generar descripciones de imágenes basadas en experiencias con imágenes similares almacenadas en una base de casos. Este enfoque no solo evita el uso de modelos masivos, sino que también destaca por la posibilidad de utilizar experiencias concretas en el proceso de generación y aporta un mayor grado de explicabilidad. Para llevarlo a cabo, hemos creado una base de casos de tamaño reducido con una recopilación de imágenes y preguntas asociadas a ellas. El proceso de generación de una descripción a partir de una imagen nueva se ha dividido en dos partes: la recuperación de imágenes y sus preguntas asociadas más relevantes para la imagen dada, y la utilización de estas preguntas junto con las respuestas dadas por un sistema VQA (Visual Question Answering) para generar una descripción utilizando un modelo de generación de texto pequeño. Durante el desarrollo del trabajo se han evaluado diferentes maneras de obtener los casos o imágenes más relevantes para obtener el mejor rendimiento posible de nuestra aproximación. El resultado de este trabajo ha sido publicado en ICCBR, la conferencia internacional sobre razonamiento basado en casos. Finalmente, se ha hecho una evaluación de los resultados, demostrando la viabilidad y el potencial del concepto planteado en el marco de la generación de descripciones.
dc.description.abstract	The rise of generative artificial intelligence has been very remarkable in recent years, fuelled by significant advances in machine learning techniques and algorithms. These models have the ability to generate new and realistic content, including images, text and audio, which has led to a wide range of new applications. However, despite these advances, this generative AI still faces some limitations, including the massive amount of data and the hardware resources needed for training these large models. Such limitations can reduce their usability when dealing with scarce resources. In this research we propose an alternative to these generative models through a Case-Based Reasoning (CBR) architecture. The main idea of our proposal is to generate image captions based on experiences with similar images stored in a case base. This approach not only avoids the use of massive models but also stands out for the possibility of utilizing specific experiences in the generation process, contributing also to a greater explainability of the model. To accomplish this goal, we have created a small case base with a compilation of images and associated questions. The description generation process for a new image has been divided into two parts: the retrieval of the most relevant images and their associated questions, and the utilization of those questions together with the answer provided by a VQA (Visual Question Answering) system to generate the description using a text-to-text model. Throughout the development of the research, we have evaluated several ways of retrieving the most relevant images in order to extract the best possible performance of our approach. The results of this research have been published in ICCBR, the International Conference on Case-Based Reasoning. Finally, we carried out an evaluation of the results, proving the viability and potential of our concept.
dc.description.department	Depto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.faculty	Fac. de Informática
dc.description.refereed	TRUE
dc.description.status	unpub
dc.identifier.uri	https://hdl.handle.net/20.500.14352/106900
dc.language.iso	spa
dc.page.total	97
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu	004(043.3)
dc.subject.keyword	Visual Question Answering (VQA)
dc.subject.keyword	Case-Based Reasoning (CBR)
dc.subject.keyword	Razonamiento basado en experiencia
dc.subject.keyword	Inteligencia Artificial (IA)
dc.subject.keyword	Similitud entre imágenes
dc.subject.keyword	Detección de objetos
dc.subject.keyword	COCO
dc.subject.keyword	Descripción de imágenes
dc.subject.keyword	Embeddings
dc.subject.keyword	IA Explicable (XAI)
dc.subject.keyword	Experience based reasoning
dc.subject.keyword	Artificial Intelligence (AI)
dc.subject.keyword	Image similarity
dc.subject.keyword	Object detection
dc.subject.keyword	Image description
dc.subject.keyword	Explainable AI (XAI)
dc.subject.ucm	Informática (Informática)
dc.subject.unesco	33 Ciencias Tecnológicas
dc.title	Generación de descripciones de imágenes basadas en la experiencia
dc.title.alternative	Experience-based Image Description Generation
dc.type	bachelor thesis
dc.type.hasVersion	AM
dspace.entity.type	Publication
relation.isAdvisorOfPublication	90c1631c-e546-4b8e-b5f2-c12ab516957c
relation.isAdvisorOfPublication	95de81bf-4637-4307-8ff6-f2c06c591d18
relation.isAdvisorOfPublication.latestForDiscovery	90c1631c-e546-4b8e-b5f2-c12ab516957c

Download

Original bundle

Now showing 1 - 1 of 1

Name:: Generacion_de_descripciones_de_imagenes_TFG.pdf
Size:: 5.89 MB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos Fin de Grado (TFG) y Diplomas de Estudios Avanzados (DEA)