Técnica de generación de audio sintéticos multilenguaje y multiacento con control de las características de la voz
Loading...
Official URL
Full text at PDC
Publication date
2025
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
In recent years, synthetic audio generation has advanced significantly due to continuous developments and innovations in deep learning models. As a result, the demand for models capable of generating realistic and high-quality synthetic audio continues to grow, and generating synthetic audio with specific characteristics such as age, gender, language, and accent remains a challenging task. To address these challenges, this work proposes an approach for synthetic audio generation that combines the VoiceLDM and XTTS models to produce enhanced synthetic audio with multilingual and multi-accent capabilities. The proposed approach follows a two-phase process for generating synthetic audio. First, the VoiceLDM model is used to generate the base audio, assigning specific voice characteristics such as age, gender, language, and accent. The base audio is generated in English, Spanish, and Portuguese. To address this limitation and expand audio generation to other languages, the second phase uses the XTTS model, which takes the VoiceLDM output and generates new versions of the audio, either preserving the original language or producing new audios in other languages, while ensuring voice consistency and speaker characteristics. Experimental results demonstrate the effectiveness of the proposed approach, showing improvements in the quality and accuracy of the generated audio. In particular, a Word Error Rate (WER) of 18,5 % was achieved—the lowest among all evaluated models—indicating high linguistic fidelity. Additionally, it achieved the highest CLAP Score (0,229), very close to that of real audio (0,273), reflecting better semantic alignment between the text and the generated audio. Moreover, the obtained values of Frechet Audio Distance (FAD = 2,082) and Kullback-Leibler Divergence (KL = 0,003) indicate that the generated audios are very similar to the real reference audios. Taken together, these results show that the VoiceLDM + XTTS approach achieves an outstanding balance between acoustic quality, semantic coherence, and linguistic fidelity, outperforming state-of-the-art models in personalized synthetic audio generation tasks with multilingual and multi-accent capabilities.
En los últimos años, la generación de audio sintético ha avanzado significativamente debido a los continuos desarrollos y las innovaciones en modelos de aprendizaje profundo. Como resultado, la necesidad de modelos que generen audio sintético realista y de alta calidad sigue en aumento y generar audios sintéticos con características específicas como edad, género, idioma y acento sigue siendo una tarea desafiante. Para abordar estos retos, este trabajo propone un enfoque para la generación de audios sintéticos que combina los modelos VoiceLDM y XTTS para obtener un audio sintético mejorado con capacidades multilingües y multi-acento. El enfoque propuesto sigue un proceso de dos fases para la generación del audio sintético. Primero se utiliza el modelo VoiceLDM para generar el audio base, asignando características específicas a la voz como edad, género, idioma y acento. Los idiomas en los que se genera el audio base son inglés, español y portugués. Para abordar esta limitaci´on y ampliar la generación de audio a otros idiomas, en la segunda fase se utiliza el modelo XTTS, que toma la salida de VoiceLDM y genera nuevas versiones del audio, manteniendo el idioma original o generando nuevos audios en otros idiomas, asegurando la coherencia de la voz y las características del hablante. Los resultados experimentales demuestran la efectividad del enfoque propuesto, reflejando mejoras en la calidad y precisión del audio generado. En particular, se alcanzó un Word Error Rate (WER) de 18,5 %, el más bajo entre todos los modelos evaluados, lo que indica una alta fidelidad lingüística. Asimismo, obtuvo el CLAP Score más alto (0,229), muy cercano al del audio real (0,273), reflejando una mejor alineación semántica entre el texto y el audio generado. Además, los valores obtenidos de Frechet Audio Distance (FAD = 2,082) y Kullback-Leibler Divergence (KL = 0,003) evidencia que los audios generados son muy similares a los audios reales de referencia. En conjunto, estos resultados muestran que el enfoque VoiceLDM + XTTS logra un equilibrio sobresaliente entre calidad acústica, coherencia semántica y fidelidad lingüística, superando a modelos del estado del arte en tareas de generación de audio sintético personalizado con capacidad multilingüe y multiacento.
En los últimos años, la generación de audio sintético ha avanzado significativamente debido a los continuos desarrollos y las innovaciones en modelos de aprendizaje profundo. Como resultado, la necesidad de modelos que generen audio sintético realista y de alta calidad sigue en aumento y generar audios sintéticos con características específicas como edad, género, idioma y acento sigue siendo una tarea desafiante. Para abordar estos retos, este trabajo propone un enfoque para la generación de audios sintéticos que combina los modelos VoiceLDM y XTTS para obtener un audio sintético mejorado con capacidades multilingües y multi-acento. El enfoque propuesto sigue un proceso de dos fases para la generación del audio sintético. Primero se utiliza el modelo VoiceLDM para generar el audio base, asignando características específicas a la voz como edad, género, idioma y acento. Los idiomas en los que se genera el audio base son inglés, español y portugués. Para abordar esta limitaci´on y ampliar la generación de audio a otros idiomas, en la segunda fase se utiliza el modelo XTTS, que toma la salida de VoiceLDM y genera nuevas versiones del audio, manteniendo el idioma original o generando nuevos audios en otros idiomas, asegurando la coherencia de la voz y las características del hablante. Los resultados experimentales demuestran la efectividad del enfoque propuesto, reflejando mejoras en la calidad y precisión del audio generado. En particular, se alcanzó un Word Error Rate (WER) de 18,5 %, el más bajo entre todos los modelos evaluados, lo que indica una alta fidelidad lingüística. Asimismo, obtuvo el CLAP Score más alto (0,229), muy cercano al del audio real (0,273), reflejando una mejor alineación semántica entre el texto y el audio generado. Además, los valores obtenidos de Frechet Audio Distance (FAD = 2,082) y Kullback-Leibler Divergence (KL = 0,003) evidencia que los audios generados son muy similares a los audios reales de referencia. En conjunto, estos resultados muestran que el enfoque VoiceLDM + XTTS logra un equilibrio sobresaliente entre calidad acústica, coherencia semántica y fidelidad lingüística, superando a modelos del estado del arte en tareas de generación de audio sintético personalizado con capacidad multilingüe y multiacento.