Captura de movimientos para la detección de gestos en entornos virtuales

Barrachina Argudo, Alejandro; Sánchez Martín, Pablo

Captura de movimientos para la detección de gestos en entornos virtuales

dc.contributor.advisor	Romero Hernández, Alejandro
dc.contributor.advisor	Sagredo Olivenza, Ismael
dc.contributor.author	Barrachina Argudo, Alejandro
dc.contributor.author	Sánchez Martín, Pablo
dc.date.accessioned	2025-09-17T13:02:36Z
dc.date.available	2025-09-17T13:02:36Z
dc.date.issued	2025
dc.degree.title	Grado en Ingeniería Informática / Grado en Desarrollo de Videojuegos
dc.description	Trabajo de Fin de Grado en Ingeniería Informática y Grado en Desarrollo de Videojuegos, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2024/2025.
dc.description.abstract	Este estudio se centra en la comparativa de distintos modelos de IA para la detección de gestos específicos mediante el traje de captura de movimiento Perception Neuron 3 con el fin de crear interacciones con NPCs a través de la comunicación no verbal y la creación de herramientas derivadas de los modelos que ayuden a la comunicación no verbal en entornos virtuales. Para ello primero se buscaron datasets públicos de gestos, no encontrándose ninguno que se adaptara a las necesidades del estudio. Por ello se creó una herramienta para traducir animaciones de Mixamo a CSVs para que pudieran ser entendidas por los modelos a entrenar. Esta herramienta generó un gran número de animaciones pero muy desbalanceadas en el número de animaciones de cada tipo. Para solucionar el problema del desbalance, se realizó una serie de pruebas con usuarios (N=65) en las cuales se les pidió que realizaran 3 tomas de cada gesto mientras llevaban el traje de captura de movimiento puesto. Esta recolección de datos resultó en un total de 975 animaciones, habiendo un total de 195 gestos humanos de correr, saludar, señalar, pegar y sentarse. Se omitió el gesto de baile en las pruebas por el desbalanceo en el dataset generado por ordenador. Esta omisión sirvió para equilibrar más el número de animaciones, pero no para terminar del todo con el desbalanceo en los datos estandarizados. Una vez se tuvo el dataset, se implementaron distintos modelos de IA para la detección de gestos bajo una interfaz web para su facilidad de uso. Estos modelos fueron: LSTM, CNN, RNN y Random Forest. Tras realizar los entrenamientos de todos los modelos, se observó que el modelo Random Forest era con diferencia el que mejores datos obtenía, con un 95 % de precisión en entrenamiento y un 86 % en test. Los resultados de los modelos basados en redes neuronales fueron bastante menores, pudiendo ser esto así por la falta de datos, de tiempo de entrenamiento y de hardware suficiente para explotar mejor los modelos. Finalmente, se exportó el modelo Random Forest a TensorFlow Serving para posteriormente ser utilizado en una aplicación de demostración con un NPC reactivo. Esta aplicación permite al usuario ver como el NPC interpreta distintos gestos y responde de manera simple ante ellos.
dc.description.abstract	This study focuses on comparing different AI models for detecting specific gestures using the Perception Neuron 3 motion capture suit, aiming to create interactions with NPCs through non-verbal communication and to develop tools derived from the models that enhance non-verbal communication in virtual environments. To achieve this, public gesture datasets were first sought, but none were found that met the study’s needs. Therefore, a tool was created to convert Mixamo animations into CSVs format so they could be understood by the models to be trained. This tool generated a large number of animations, but they were highly imbalanced in the number of animations for each type. To address the imbalance issue, a series of user trials (N=65) were conducted, where participants were asked to perform three instances of each gesture while wearing the motion capture suit. This data collection resulted in a total of 975 animations, with 195 human gestures for running, greeting, pointing, punching, and sitting. The gesture of dancing was omitted from the trials due to the imbalance in the dataset generated by computer animations. This omission helped balance the number of animations but did not completely eliminate the imbalance in the standardized data. Once the dataset was established, various AI models for gesture detection were implemented under a web interface for ease of use. These models included: LSTM, CNN, RNN, and Random Forest. After training all the models, it was observed that the Random Forest model significantly outperformed the others, achieving 95% accuracy in training and 86% in testing. The results from the neural network-based models were considerably lower, likely due to insufficient data, limited training time, and hardware constraints that hindered better model performance. Finally, the Random Forest model was exported to TensorFlow Serving to be used in a demonstration application featuring a reactive NPC. This application allows users to see how the NPC interprets different gestures and responds simply to them.
dc.description.department	Depto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.faculty	Fac. de Informática
dc.description.refereed	TRUE
dc.description.status	unpub
dc.identifier.uri	https://hdl.handle.net/20.500.14352/124064
dc.language.iso	spa
dc.page.total	135
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.accessRights	open access
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.cdu	004(043.3)
dc.subject.keyword	Captura de movimiento
dc.subject.keyword	Unity
dc.subject.keyword	Inteligencia Artificial
dc.subject.keyword	Comunicación no verbal
dc.subject.keyword	Perception Neuron
dc.subject.keyword	TensorFlow
dc.subject.keyword	YDF
dc.subject.keyword	Keras
dc.subject.keyword	Realidad Virtual
dc.subject.keyword	Motion capture
dc.subject.keyword	Artificial Intelligence
dc.subject.keyword	Non-verbal communication
dc.subject.keyword	Virtual Reality
dc.subject.ucm	Informática (Informática)
dc.subject.unesco	33 Ciencias Tecnológicas
dc.title	Captura de movimientos para la detección de gestos en entornos virtuales
dc.title	Motion capture for gesture detection in virtual environments
dc.type	bachelor thesis
dc.type.hasVersion	AM
dspace.entity.type	Publication
relation.isAdvisorOfPublication	32828fad-26cb-4919-a993-8cb836db4ad4
relation.isAdvisorOfPublication	a8a71ac8-ac73-4622-8eaf-e8a71acd8180
relation.isAdvisorOfPublication.latestForDiscovery	32828fad-26cb-4919-a993-8cb836db4ad4

Download

Original bundle

Now showing 1 - 1 of 1

Name:: Captura_de_ movimientos_TFG.pdf
Size:: 19.67 MB
Format:: Adobe Portable Document Format
Description:: Captura de movimientos para la detección de gestos en entornos virtuales

Download

Collections

Trabajos Fin de Grado (TFG) y Diplomas de Estudios Avanzados (DEA)