Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA Disculpen las molestias.
 

Generación de descripciones de imágenes basadas en la experiencia

dc.contributor.advisorSánchez Ruiz-Granados, Antonio Alejandro
dc.contributor.advisorDíaz Agudo, María Belén
dc.contributor.authorPérez Peinador, Adrián
dc.contributor.authorSanjuán Espejo, Adrián
dc.contributor.authorGómez Blanco, Rubén
dc.date.accessioned2024-07-19T10:34:59Z
dc.date.available2024-07-19T10:34:59Z
dc.date.issued2024
dc.degree.titleDoble grado en Ingeniería Informática y Matemáticas Facultad de Informática
dc.descriptionTrabajo de Fin de Doble grado en Ingeniería Informática y Matemáticas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024
dc.description.abstractEl auge de la inteligencia artificial generativa ha sido notable en los últimos años, impulsado por avances significativos en algoritmos y tecnologías de aprendizaje automático. Estos modelos tienen la capacidad de generar contenido nuevo y realista, incluyendo imágenes, texto y audio, lo que ha generado un gran interés en una amplia gama de aplicaciones. Sin embargo, a pesar de los avances significativos, esta IA generativa aún enfrenta varias limitaciones importantes como la necesidad de grandes cantidades de datos de entrenamiento y recursos computacionales para producir resultados de alta calidad adaptados a lo que el usuario demanda, lo que puede limitar su aplicabilidad en entornos con recursos limitados. En este trabajo proponemos una alternativa a estos grandes modelos mediante una arquitectura basada en en el razonamiento basado en casos (CBR). La idea principal es generar descripciones de imágenes basadas en experiencias con imágenes similares almacenadas en una base de casos. Este enfoque no solo evita el uso de modelos masivos, sino que también destaca por la posibilidad de utilizar experiencias concretas en el proceso de generación y aporta un mayor grado de explicabilidad. Para llevarlo a cabo, hemos creado una base de casos de tamaño reducido con una recopilación de imágenes y preguntas asociadas a ellas. El proceso de generación de una descripción a partir de una imagen nueva se ha dividido en dos partes: la recuperación de imágenes y sus preguntas asociadas más relevantes para la imagen dada, y la utilización de estas preguntas junto con las respuestas dadas por un sistema VQA (Visual Question Answering) para generar una descripción utilizando un modelo de generación de texto pequeño. Durante el desarrollo del trabajo se han evaluado diferentes maneras de obtener los casos o imágenes más relevantes para obtener el mejor rendimiento posible de nuestra aproximación. El resultado de este trabajo ha sido publicado en ICCBR, la conferencia internacional sobre razonamiento basado en casos. Finalmente, se ha hecho una evaluación de los resultados, demostrando la viabilidad y el potencial del concepto planteado en el marco de la generación de descripciones.
dc.description.abstractThe rise of generative artificial intelligence has been very remarkable in recent years, fuelled by significant advances in machine learning techniques and algorithms. These models have the ability to generate new and realistic content, including images, text and audio, which has led to a wide range of new applications. However, despite these advances, this generative AI still faces some limitations, including the massive amount of data and the hardware resources needed for training these large models. Such limitations can reduce their usability when dealing with scarce resources. In this research we propose an alternative to these generative models through a Case-Based Reasoning (CBR) architecture. The main idea of our proposal is to generate image captions based on experiences with similar images stored in a case base. This approach not only avoids the use of massive models but also stands out for the possibility of utilizing specific experiences in the generation process, contributing also to a greater explainability of the model. To accomplish this goal, we have created a small case base with a compilation of images and associated questions. The description generation process for a new image has been divided into two parts: the retrieval of the most relevant images and their associated questions, and the utilization of those questions together with the answer provided by a VQA (Visual Question Answering) system to generate the description using a text-to-text model. Throughout the development of the research, we have evaluated several ways of retrieving the most relevant images in order to extract the best possible performance of our approach. The results of this research have been published in ICCBR, the International Conference on Case-Based Reasoning. Finally, we carried out an evaluation of the results, proving the viability and potential of our concept.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.identifier.urihttps://hdl.handle.net/20.500.14352/106900
dc.language.isospa
dc.page.total97
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu004(043.3)
dc.subject.keywordVisual Question Answering (VQA)
dc.subject.keywordCase-Based Reasoning (CBR)
dc.subject.keywordRazonamiento basado en experiencia
dc.subject.keywordInteligencia Artificial (IA)
dc.subject.keywordSimilitud entre imágenes
dc.subject.keywordDetección de objetos
dc.subject.keywordCOCO
dc.subject.keywordDescripción de imágenes
dc.subject.keywordEmbeddings
dc.subject.keywordIA Explicable (XAI)
dc.subject.keywordExperience based reasoning
dc.subject.keywordArtificial Intelligence (AI)
dc.subject.keywordImage similarity
dc.subject.keywordObject detection
dc.subject.keywordImage description
dc.subject.keywordExplainable AI (XAI)
dc.subject.ucmInformática (Informática)
dc.subject.unesco33 Ciencias Tecnológicas
dc.titleGeneración de descripciones de imágenes basadas en la experiencia
dc.title.alternativeExperience-based Image Description Generation
dc.typebachelor thesis
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublication90c1631c-e546-4b8e-b5f2-c12ab516957c
relation.isAdvisorOfPublication95de81bf-4637-4307-8ff6-f2c06c591d18
relation.isAdvisorOfPublication.latestForDiscovery90c1631c-e546-4b8e-b5f2-c12ab516957c

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Generacion_de_descripciones_de_imagenes_TFG.pdf
Size:
5.89 MB
Format:
Adobe Portable Document Format