Para depositar en Docta Complutense, identifícate con tu correo @ucm.es en el SSO institucional. Haz clic en el desplegable de INICIO DE SESIÓN situado en la parte superior derecha de la pantalla. Introduce tu correo electrónico y tu contraseña de la UCM y haz clic en el botón MI CUENTA UCM, no autenticación con contraseña.

Comparative Evaluation of Speech-to-Text Software Based on Sociodemographic and Environmental Factors

dc.book.titleAdvanced Research in Technologies, Information, Innovation and Sustainability. ARTIIS 2024
dc.contributor.authorMORATO, JORGE
dc.contributor.authorPEDRERO, ALEJANDRO
dc.contributor.authorSánchez Cuadrado, Sonia
dc.contributor.editorGuarda, Teresa
dc.contributor.editorPortela, Filipe
dc.contributor.editorAugusto, María Fernanda
dc.date.accessioned2025-05-14T08:13:54Z
dc.date.available2025-05-14T08:13:54Z
dc.date.issued2025-03-05
dc.description.abstractThe proliferation of voice assistants for information retrieval is propelled by technological advancements and seamless integration across multiple devices. Nevertheless, these systems face persistent limitations in accuracy and comprehension, particularly with accents, dialects, and uncommon terminology. Additional challenges include the cost of these technologies and their reliance on internet connectivity. This study conducts a comprehensive evaluation of various low-cost speech-to-text transcription software, including Windows10, Google Docs, GBoard Android, Speech-Texter, and SpeechNotes. The analysis focuses on high-error criteria in text retrieval, such as proper names, homophones, neologisms, and multilingual usage. Key variables examined include user age, message duration, and ambient noise levels. Transcription quality is meticulously assessed to determine the efficacy of voice retrieval. Results reveal significant disparities among the software, with GBoard Android demonstrating superior accuracy and the lowest error rates.
dc.description.abstractLa proliferación de asistentes de voz para la recuperación de información está impulsada por los avances tecnológicos y la integración perfecta entre múltiples dispositivos. Sin embargo, estos sistemas enfrentan limitaciones persistentes en precisión y comprensión, particularmente con acentos, dialectos y terminología poco común. Otros desafíos incluyen el costo de estas tecnologías y su dependencia de la conectividad a Internet. Este estudio realiza una evaluación integral de varios programas de transcripción de voz a texto de bajo costo, incluidos Windows10, Google Docs, GBoard Android, Speech-Texter y SpeechNotes. El análisis se centra en criterios de alto error en la recuperación de texto, como nombres propios, homófonos, neologismos y uso multilingüe. Las variables clave examinadas incluyen la edad del usuario, la duración del mensaje y los niveles de ruido ambiental. La calidad de la transcripción se evalúa meticulosamente para determinar la eficacia de la recuperación de voz. Los resultados revelan disparidades significativas entre los programas, y GBoard Android demuestra una precisión superior y las tasas de error más bajas.
dc.description.departmentDepto. de Biblioteconomía y Documentación
dc.description.facultyFac. de Ciencias de la Documentación
dc.description.refereedTRUE
dc.description.sponsorshipResearch partially funded by the R&D grant from the Autonomus Community of Madrid (PHS-2024/PH-HUM-313).
dc.description.statusinpress
dc.identifier.citationMorato, J., Pedrero, A., Sanchez-Cuadrado, S. (2025). Comparative Evaluation of Speech-to-Text Software Based on Sociodemographic and Environmental Factors. In: Guarda, T., Portela, F., Augusto, M.F. (eds) Advanced Research in Technologies, Information, Innovation and Sustainability. ARTIIS 2024. Communications in Computer and Information Science, vol 2349. Springer, Cham. https://doi.org/10.1007/978-3-031-83432-5_20
dc.identifier.doi10.1007/978-3-031-83432-5_20
dc.identifier.isbn978-3-031-83431-8
dc.identifier.officialurlhttps://link.springer.com/chapter/10.1007/978-3-031-83432-5_20
dc.identifier.urihttps://hdl.handle.net/20.500.14352/120059
dc.language.isoeng
dc.page.final299
dc.page.initial285
dc.publisherSpringer
dc.relation.ispartofseriesCommunications in Computer and Information Science
dc.relation.projectIDPHS-2024/PH-HUM-313
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.keywordAudio information retrieval
dc.subject.keywordSpeech recognition
dc.subject.keywordSpeech-to-text transcription
dc.subject.keywordVoice assistants
dc.subject.keywordSpanish
dc.subject.keywordTranscription quality
dc.subject.ucmCiencias
dc.subject.ucmInformática (Informática)
dc.subject.ucmFilología
dc.subject.unesco57 Lingüística
dc.subject.unesco33 Ciencias Tecnológicas
dc.titleComparative Evaluation of Speech-to-Text Software Based on Sociodemographic and Environmental Factors
dc.typebook part
dc.type.hasVersionVoR
dspace.entity.typePublication
relation.isAuthorOfPublicationbcb66116-02e6-4c26-9f20-6afa66a0470d
relation.isAuthorOfPublication.latestForDiscoverybcb66116-02e6-4c26-9f20-6afa66a0470d

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
978-3-031-83432-5_20.pdf
Size:
813.71 KB
Format:
Adobe Portable Document Format