Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Generación de imágenes mediante modelos de difusión

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2024

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

En los últimos años, la inteligencia artificial generativa ha experimentado un crecimiento exponencial, convirtiéndose en uno de los campos con más potencial de evolución de la IA en la actualidad. Esta tendencia ha transformado significativamente el campo de la creación de contenido digital, permitiendo la generación autónoma de imágenes, música y texto, entre otros. Concretamente, la generación de imágenes mediante técnicas de aprendizaje profundo ha representado una revolución en diversas áreas, tanto creativas como científicas, con una lista de aplicaciones que no deja de crecer cada día. Una de las técnicas más destacables, y en la que nos adentraremos a lo largo de este trabajo, son los modelos de difusión. Estos modelos representan una de las vanguardias dentro del contexto de la generación de imágenes, permitiendo la creación de imágenes realistas y variadas mediante procesos estocásticos iterativos. Para comprender las capacidades de los modelos de difusión, comenzaremos explorando paso a paso la construcción de uno de ellos. Posteriormente, profundizaremos en problemas reales que pueden resolver en el campo de la manipulación de imágenes, proponiendo arquitecturas específicas para cada uno de ellos; para finalmente investigar distintas técnicas que usan los grandes modelos que conforman el actual estado del arte.
In recent years, generative artificial intelligence has experienced exponential growth, becoming one of the most rapidly evolving fields in AI. nowadays. This trend has significantly transformed the field of digital content creation, enabling the autonomous generation of images, music, and text, among others. Specifically, image generation using deep learning techniques has revolutionized both creative and scientific areas, with an endless list of applications that is still growing every day. One of the most notable techniques, and the focus throughout this work, is diffusion models. These models represent a cutting-edge approach in the context of image generation, allowing the creation of realistic and diverse images through iterative stochastic processes. To understand the capabilities of diffusion models, we will begin by exploring the step-by-step construction of one of them. Subsequently, we will delve into real problems they can solve in the field of image manipulation, proposing specific architectures for each of them. Finally, we will investigate various techniques used by the major models that constitute the current state of the art.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024. Todo el código relativo a implementaciones de los distintos modelos puede encontrarse en el repositorio de GitHub en el siguiente enlace: https://github.com/ElPayip/TFG-DiffusionModels

Keywords