Comparative Evaluation of Speech-to-Text Software Based on Sociodemographic and Environmental Factors
Loading...
Full text at PDC
Publication date
2025
Advisors (or tutors)
Journal Title
Journal ISSN
Volume Title
Publisher
Springer
Citation
Morato, J., Pedrero, A., Sanchez-Cuadrado, S. (2025). Comparative Evaluation of Speech-to-Text Software Based on Sociodemographic and Environmental Factors. In: Guarda, T., Portela, F., Augusto, M.F. (eds) Advanced Research in Technologies, Information, Innovation and Sustainability. ARTIIS 2024. Communications in Computer and Information Science, vol 2349. Springer, Cham. https://doi.org/10.1007/978-3-031-83432-5_20
Abstract
The proliferation of voice assistants for information retrieval is propelled by technological advancements and seamless integration across multiple devices. Nevertheless, these systems face persistent limitations in accuracy and comprehension, particularly with accents, dialects, and uncommon terminology. Additional challenges include the cost of these technologies and their reliance on internet connectivity. This study conducts a comprehensive evaluation of various low-cost speech-to-text transcription software, including Windows10, Google Docs, GBoard Android, Speech-Texter, and SpeechNotes. The analysis focuses on high-error criteria in text retrieval, such as proper names, homophones, neologisms, and multilingual usage. Key variables examined include user age, message duration, and ambient noise levels. Transcription quality is meticulously assessed to determine the efficacy of voice retrieval. Results reveal significant disparities among the software, with GBoard Android demonstrating superior accuracy and the lowest error rates.
La proliferación de asistentes de voz para la recuperación de información está impulsada por los avances tecnológicos y la integración perfecta entre múltiples dispositivos. Sin embargo, estos sistemas enfrentan limitaciones persistentes en precisión y comprensión, particularmente con acentos, dialectos y terminología poco común. Otros desafíos incluyen el costo de estas tecnologías y su dependencia de la conectividad a Internet. Este estudio realiza una evaluación integral de varios programas de transcripción de voz a texto de bajo costo, incluidos Windows10, Google Docs, GBoard Android, Speech-Texter y SpeechNotes. El análisis se centra en criterios de alto error en la recuperación de texto, como nombres propios, homófonos, neologismos y uso multilingüe. Las variables clave examinadas incluyen la edad del usuario, la duración del mensaje y los niveles de ruido ambiental. La calidad de la transcripción se evalúa meticulosamente para determinar la eficacia de la recuperación de voz. Los resultados revelan disparidades significativas entre los programas, y GBoard Android demuestra una precisión superior y las tasas de error más bajas.
La proliferación de asistentes de voz para la recuperación de información está impulsada por los avances tecnológicos y la integración perfecta entre múltiples dispositivos. Sin embargo, estos sistemas enfrentan limitaciones persistentes en precisión y comprensión, particularmente con acentos, dialectos y terminología poco común. Otros desafíos incluyen el costo de estas tecnologías y su dependencia de la conectividad a Internet. Este estudio realiza una evaluación integral de varios programas de transcripción de voz a texto de bajo costo, incluidos Windows10, Google Docs, GBoard Android, Speech-Texter y SpeechNotes. El análisis se centra en criterios de alto error en la recuperación de texto, como nombres propios, homófonos, neologismos y uso multilingüe. Las variables clave examinadas incluyen la edad del usuario, la duración del mensaje y los niveles de ruido ambiental. La calidad de la transcripción se evalúa meticulosamente para determinar la eficacia de la recuperación de voz. Los resultados revelan disparidades significativas entre los programas, y GBoard Android demuestra una precisión superior y las tasas de error más bajas.