Aprendizaje de representaciones latentes de timbres musicales con autocodificadores y autocodificadores variacionales

Palomino Tarjuelo, MiguelSánchez Hernández, JaimeGarcía López, Pablo2025-09-152025-09-152025https://hdl.handle.net/20.500.14352/123949Trabajo de Fin de Grado en Ingeniería Informática, Facultad Informática UCM, Dpto. de Sistemas Informáticos y Computación. Curso 2024/2025.En este trabajo de fin de grado se aplica el aprendizaje profundo a la reconstrucción y generación de audio musical, considerando dos arquitecturas: autocodificadores (AEs) y autocodificadores variacionales (VAEs). A diferencia de la generación simbólica de música, que opera sobre formatos de más alto nivel como MIDI, adoptamos un enfoque musical no simbólico y trabajamos directamente sobre representaciones de más bajo nivel como son las muestras de audio y sus correspondientes representaciones frecuenciales. Tras una revisión de la historia de la composición algorítmica y de varios métodos de síntesis de audio, se utilizan autocodificadores convolucionales para comprimir y reconstruir notas musicales, y autocodificadores variacionales para sintetizar audio mediante el muestreo dentro de representaciones ocultas aprendidas. A lo largo del proyecto, se investigan diversas configuraciones y arquitecturas de modelos con el objetivo de mejorar la calidad de reconstrucción y generación de audio.In this Bacherlor’s Thesis, deep learning is applied to musical audio reconstruction and generation, considering two architectures: autoencoders (AEs) and variational autoencoders (VAEs). Unlike symbolic music generation, which operates on higher-level formats such as MIDI, we adopt a non-symbolic approach and work directly with lower-level data such as raw audio samples and their corresponding frequency-domain transformations. Following an overview of the history of algorithmic composition and several methods of audio synthesis, convolutional autoencoders are used to compress and reconstruct musical notes, and variational autoencoders to synthesize audio by sampling within learned hidden representations. Throughout the project, various model settings and architectures are investigated in an attempt of enhancing reconstruction quality and generation performance.engAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/Aprendizaje de representaciones latentes de timbres musicales con autocodificadores y autocodificadores variacionalesLearning latent representations of timbre using autoencoders and variational autoencodersbachelor thesisopen access004(043.3)Aprendizaje profundoAutocodificadoresAutocodificadores variacionalesEspacio latenteEspectrogramaRed convolucionalDeep LearningAutoencodersVariational AutoencodersLatent spaceSpectro- gramConvolutional networkInformática (Informática)33 Ciencias Tecnológicas