Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Herramienta para la identificación de personas mediante el uso de redes neuronales convolucionales

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2024

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

Este proyecto explora el desarrollo de un modelo de red neuronal capaz de reconocer individuos basándose en su voz en grabaciones de audio. El objetivo es mejorar los sistemas de reconocimiento de personas enfocándose únicamente en el audio, aprovechando técnicas avanzadas de aprendizaje profundo y redes neuronales convolucionales (CNN) preentrenadas. A lo largo del proyecto, se exploraron diversos enfoques, incluyendo el uso de espectrogramas de Mel y MFCCs para convertir las se˜nales de audio en datos visuales que pudieran ser procesados eficazmente por las CNNs. El uso de redes preentrenadas, como VGG16, aceleró significativamente el proceso de desarrollo y mejoró la precisión del modelo. El proyecto también implicó una extensa experimentación con configuraciones de red y ajuste de hiperparámetros para optimizar el rendimiento. Los resultados destacan el potencial de las redes neuronales en tareas de identificación basadas en audio, ofreciendo valiosos conocimientos para futuros avances en el campo del reconocimiento de hablantes y el análisis forense.
This project explores the development of a neural network model capable of recognizing individuals based on their voice in audio recordings. The aim is to enhance person recognition systems by focusing solely on audio, leveraging advanced deep learning techniques and pretrained convolutional neural networks (CNNs). Throughout the project, various approaches were explored, including the use of Mel spectrograms and MFCCs to convert audio signals into visual data that could be effectively processed by CNNs. The use of pretrained networks, such as VGG16, significantly accelerated the development process and improved the model’s accuracy. The project also involved extensive experimentation with network configurations and hyperparameter tuning to optimize performance. The results highlight the potential of neural networks in audio-based identification tasks, offering valuable insights for future advancements in the field of speaker recognition and forensic analysis.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024

Keywords