García Villalba, Luis JavierMartínez Hernández, Luis AlbertoCanive Huguet, Oscar2024-11-062024-11-062024https://hdl.handle.net/20.500.14352/110115Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024Este proyecto explora el desarrollo de un modelo de red neuronal capaz de reconocer individuos basándose en su voz en grabaciones de audio. El objetivo es mejorar los sistemas de reconocimiento de personas enfocándose únicamente en el audio, aprovechando técnicas avanzadas de aprendizaje profundo y redes neuronales convolucionales (CNN) preentrenadas. A lo largo del proyecto, se exploraron diversos enfoques, incluyendo el uso de espectrogramas de Mel y MFCCs para convertir las se˜nales de audio en datos visuales que pudieran ser procesados eficazmente por las CNNs. El uso de redes preentrenadas, como VGG16, aceleró significativamente el proceso de desarrollo y mejoró la precisión del modelo. El proyecto también implicó una extensa experimentación con configuraciones de red y ajuste de hiperparámetros para optimizar el rendimiento. Los resultados destacan el potencial de las redes neuronales en tareas de identificación basadas en audio, ofreciendo valiosos conocimientos para futuros avances en el campo del reconocimiento de hablantes y el análisis forense.This project explores the development of a neural network model capable of recognizing individuals based on their voice in audio recordings. The aim is to enhance person recognition systems by focusing solely on audio, leveraging advanced deep learning techniques and pretrained convolutional neural networks (CNNs). Throughout the project, various approaches were explored, including the use of Mel spectrograms and MFCCs to convert audio signals into visual data that could be effectively processed by CNNs. The use of pretrained networks, such as VGG16, significantly accelerated the development process and improved the model’s accuracy. The project also involved extensive experimentation with network configurations and hyperparameter tuning to optimize performance. The results highlight the potential of neural networks in audio-based identification tasks, offering valuable insights for future advancements in the field of speaker recognition and forensic analysis.spaAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Herramienta para la identificación de personas mediante el uso de redes neuronales convolucionalesTool for the identification of persons by using convolutional neural networksbachelor thesisopen access004(043.3)CNNMFCCVGG16AudioPeople recognitionAISHELLKerasNeural NetworksPre-trained netsEspectrogramMelReconocimiento de personasRedes neuronalesRedes pre-entrenadasEspectogramasInformática (Informática)33 Ciencias Tecnológicas