Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

A deep learning approach for automatically generating descriptions of images containing people

dc.contributor.advisorMéndez Pozo, Gonzalo
dc.contributor.advisorHervás Ballesteros, Raquel
dc.contributor.authorAracil Muñoz, Marta
dc.date.accessioned2023-06-17T14:59:32Z
dc.date.available2023-06-17T14:59:32Z
dc.date.issued2018-09
dc.degree.titleGrado en Ingeniería Informática
dc.descriptionUniversidad Complutense, Facultad de Informática. Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2017/2018
dc.description.abstractGenerating image descriptions is a challenging Artificial Intelligence problem with many interesting applications such as robots’ communication or helping visually impaired people. However, it is a complex task for computers: it requires Computer Vision algorithms, to understand what the image depicts, and Natural Language Processing algorithms, to generate a well-formed sentence. Nowadays, deep neural networks are the state-of-the-art in these two Artificial Intelligence fields. Furthermore, we believe that images that contain people are described in a slightly different manner and that restricting an image description generator model to these images may produce better descriptions. Therefore, the main objective of this project is to develop a Deep Learning model that automatically produces descriptions of images containing people and to conclude if it is a good practice the restriction to this kind of images. For this purpose, we have reviewed and studied the literature in the field and we have built, trained and compared four different models using Deep Learning techniques and a GPU to speed-up the computation, as well as a big and complete dataset.
dc.description.abstractGenerar descripciones de imágenes es un problema de Inteligencia Artificial con muchas aplicaciones interesantes como la comunicación de robots o ayudar a personas con discapacidad visual. Sin embargo, es una tarea compleja para un ordenador: requiere algoritmos de visión por computador para entender lo que la imagen representa y algoritmos de procesamiento de lenguaje natural para generar una frase bien formada. Hoy en día, las redes neuronales profundas son el estado del arte en estos dos campos de la Inteligencia Artificial. Por otra parte, creemos que las imágenes que contienen personas se describen de manera ligeramente diferente y que restringir un modelo de generación de descripciones de imágenes a imágenes de este tipo puede producir mejores descripciones. Por lo tanto, el principal objetivo de este proyecto es desarrollar un modelo de aprendizaje profundo que produce automáticamente descripciones de imágenes que contienen personas y concluir si es una buena práctica la restricción a esta clase de imágenes. Para ello, hemos revisado y estudiado la literatura y hemos construido, entrenado y comparado cuatro modelos diferentes usando técnicas de aprendizaje profundo y una GPU para acelerar los cálculos, así como un dataset grande y completo.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/50248
dc.identifier.urihttps://hdl.handle.net/20.500.14352/15119
dc.language.isoeng
dc.page.total76
dc.rightsAtribución-NoComercial 3.0 España
dc.rights.accessRightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc/3.0/es/
dc.subject.cdu004(043.3)
dc.subject.keywordDeep Learning
dc.subject.keywordComputer Vision
dc.subject.keywordNatural Language Processing
dc.subject.keywordIimage description generation
dc.subject.keywordKeras
dc.subject.keywordGPU
dc.subject.keywordDataset
dc.subject.keywordAprendizaje profundo
dc.subject.keywordVisión por computador
dc.subject.keywordProcesamiento de lenguaje natural
dc.subject.keywordGeneración de descripciones de imágenes
dc.subject.ucmInformática (Informática)
dc.subject.unesco1203.17 Informática
dc.titleA deep learning approach for automatically generating descriptions of images containing people
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublicationbdd570a9-0372-451a-9992-e7f9cfb22e71
relation.isAdvisorOfPublication.latestForDiscoverybdd570a9-0372-451a-9992-e7f9cfb22e71

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
128.pdf
Size:
3.51 MB
Format:
Adobe Portable Document Format