Para depositar en Docta Complutense, identifícate con tu correo @ucm.es en el SSO institucional. Haz clic en el desplegable de INICIO DE SESIÓN situado en la parte superior derecha de la pantalla. Introduce tu correo electrónico y tu contraseña de la UCM y haz clic en el botón MI CUENTA UCM, no autenticación con contraseña.

Captura de movimientos para la detección de gestos en entornos virtuales

dc.contributor.advisorRomero Hernández, Alejandro
dc.contributor.advisorSagredo Olivenza, Ismael
dc.contributor.authorBarrachina Argudo, Alejandro
dc.contributor.authorSánchez Martín, Pablo
dc.date.accessioned2025-09-17T13:02:36Z
dc.date.available2025-09-17T13:02:36Z
dc.date.issued2025
dc.degree.titleGrado en Ingeniería Informática / Grado en Desarrollo de Videojuegos
dc.descriptionTrabajo de Fin de Grado en Ingeniería Informática y Grado en Desarrollo de Videojuegos, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2024/2025.
dc.description.abstractEste estudio se centra en la comparativa de distintos modelos de IA para la detección de gestos específicos mediante el traje de captura de movimiento Perception Neuron 3 con el fin de crear interacciones con NPCs a través de la comunicación no verbal y la creación de herramientas derivadas de los modelos que ayuden a la comunicación no verbal en entornos virtuales. Para ello primero se buscaron datasets públicos de gestos, no encontrándose ninguno que se adaptara a las necesidades del estudio. Por ello se creó una herramienta para traducir animaciones de Mixamo a CSVs para que pudieran ser entendidas por los modelos a entrenar. Esta herramienta generó un gran número de animaciones pero muy desbalanceadas en el número de animaciones de cada tipo. Para solucionar el problema del desbalance, se realizó una serie de pruebas con usuarios (N=65) en las cuales se les pidió que realizaran 3 tomas de cada gesto mientras llevaban el traje de captura de movimiento puesto. Esta recolección de datos resultó en un total de 975 animaciones, habiendo un total de 195 gestos humanos de correr, saludar, señalar, pegar y sentarse. Se omitió el gesto de baile en las pruebas por el desbalanceo en el dataset generado por ordenador. Esta omisión sirvió para equilibrar más el número de animaciones, pero no para terminar del todo con el desbalanceo en los datos estandarizados. Una vez se tuvo el dataset, se implementaron distintos modelos de IA para la detección de gestos bajo una interfaz web para su facilidad de uso. Estos modelos fueron: LSTM, CNN, RNN y Random Forest. Tras realizar los entrenamientos de todos los modelos, se observó que el modelo Random Forest era con diferencia el que mejores datos obtenía, con un 95 % de precisión en entrenamiento y un 86 % en test. Los resultados de los modelos basados en redes neuronales fueron bastante menores, pudiendo ser esto así por la falta de datos, de tiempo de entrenamiento y de hardware suficiente para explotar mejor los modelos. Finalmente, se exportó el modelo Random Forest a TensorFlow Serving para posteriormente ser utilizado en una aplicación de demostración con un NPC reactivo. Esta aplicación permite al usuario ver como el NPC interpreta distintos gestos y responde de manera simple ante ellos.
dc.description.abstractThis study focuses on comparing different AI models for detecting specific gestures using the Perception Neuron 3 motion capture suit, aiming to create interactions with NPCs through non-verbal communication and to develop tools derived from the models that enhance non-verbal communication in virtual environments. To achieve this, public gesture datasets were first sought, but none were found that met the study’s needs. Therefore, a tool was created to convert Mixamo animations into CSVs format so they could be understood by the models to be trained. This tool generated a large number of animations, but they were highly imbalanced in the number of animations for each type. To address the imbalance issue, a series of user trials (N=65) were conducted, where participants were asked to perform three instances of each gesture while wearing the motion capture suit. This data collection resulted in a total of 975 animations, with 195 human gestures for running, greeting, pointing, punching, and sitting. The gesture of dancing was omitted from the trials due to the imbalance in the dataset generated by computer animations. This omission helped balance the number of animations but did not completely eliminate the imbalance in the standardized data. Once the dataset was established, various AI models for gesture detection were implemented under a web interface for ease of use. These models included: LSTM, CNN, RNN, and Random Forest. After training all the models, it was observed that the Random Forest model significantly outperformed the others, achieving 95% accuracy in training and 86% in testing. The results from the neural network-based models were considerably lower, likely due to insufficient data, limited training time, and hardware constraints that hindered better model performance. Finally, the Random Forest model was exported to TensorFlow Serving to be used in a demonstration application featuring a reactive NPC. This application allows users to see how the NPC interprets different gestures and responds simply to them.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.identifier.urihttps://hdl.handle.net/20.500.14352/124064
dc.language.isospa
dc.page.total135
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu004(043.3)
dc.subject.keywordCaptura de movimiento
dc.subject.keywordUnity
dc.subject.keywordInteligencia Artificial
dc.subject.keywordComunicación no verbal
dc.subject.keywordPerception Neuron
dc.subject.keywordTensorFlow
dc.subject.keywordYDF
dc.subject.keywordKeras
dc.subject.keywordRealidad Virtual
dc.subject.keywordMotion capture
dc.subject.keywordArtificial Intelligence
dc.subject.keywordNon-verbal communication
dc.subject.keywordVirtual Reality
dc.subject.ucmInformática (Informática)
dc.subject.unesco33 Ciencias Tecnológicas
dc.titleCaptura de movimientos para la detección de gestos en entornos virtuales
dc.titleMotion capture for gesture detection in virtual environments
dc.typebachelor thesis
dc.type.hasVersionAM
dspace.entity.typePublication
relation.isAdvisorOfPublication32828fad-26cb-4919-a993-8cb836db4ad4
relation.isAdvisorOfPublicationa8a71ac8-ac73-4622-8eaf-e8a71acd8180
relation.isAdvisorOfPublication.latestForDiscovery32828fad-26cb-4919-a993-8cb836db4ad4

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Captura_de_ movimientos_TFG.pdf
Size:
19.67 MB
Format:
Adobe Portable Document Format
Description:
Captura de movimientos para la detección de gestos en entornos virtuales