Para depositar en Docta Complutense, identifícate con tu correo @ucm.es en el SSO institucional. Haz clic en el desplegable de INICIO DE SESIÓN situado en la parte superior derecha de la pantalla. Introduce tu correo electrónico y tu contraseña de la UCM y haz clic en el botón MI CUENTA UCM, no autenticación con contraseña.

Captura de movimientos para la detección de gestos en entornos virtuales

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2025

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

Este estudio se centra en la comparativa de distintos modelos de IA para la detección de gestos específicos mediante el traje de captura de movimiento Perception Neuron 3 con el fin de crear interacciones con NPCs a través de la comunicación no verbal y la creación de herramientas derivadas de los modelos que ayuden a la comunicación no verbal en entornos virtuales. Para ello primero se buscaron datasets públicos de gestos, no encontrándose ninguno que se adaptara a las necesidades del estudio. Por ello se creó una herramienta para traducir animaciones de Mixamo a CSVs para que pudieran ser entendidas por los modelos a entrenar. Esta herramienta generó un gran número de animaciones pero muy desbalanceadas en el número de animaciones de cada tipo. Para solucionar el problema del desbalance, se realizó una serie de pruebas con usuarios (N=65) en las cuales se les pidió que realizaran 3 tomas de cada gesto mientras llevaban el traje de captura de movimiento puesto. Esta recolección de datos resultó en un total de 975 animaciones, habiendo un total de 195 gestos humanos de correr, saludar, señalar, pegar y sentarse. Se omitió el gesto de baile en las pruebas por el desbalanceo en el dataset generado por ordenador. Esta omisión sirvió para equilibrar más el número de animaciones, pero no para terminar del todo con el desbalanceo en los datos estandarizados. Una vez se tuvo el dataset, se implementaron distintos modelos de IA para la detección de gestos bajo una interfaz web para su facilidad de uso. Estos modelos fueron: LSTM, CNN, RNN y Random Forest. Tras realizar los entrenamientos de todos los modelos, se observó que el modelo Random Forest era con diferencia el que mejores datos obtenía, con un 95 % de precisión en entrenamiento y un 86 % en test. Los resultados de los modelos basados en redes neuronales fueron bastante menores, pudiendo ser esto así por la falta de datos, de tiempo de entrenamiento y de hardware suficiente para explotar mejor los modelos. Finalmente, se exportó el modelo Random Forest a TensorFlow Serving para posteriormente ser utilizado en una aplicación de demostración con un NPC reactivo. Esta aplicación permite al usuario ver como el NPC interpreta distintos gestos y responde de manera simple ante ellos.
This study focuses on comparing different AI models for detecting specific gestures using the Perception Neuron 3 motion capture suit, aiming to create interactions with NPCs through non-verbal communication and to develop tools derived from the models that enhance non-verbal communication in virtual environments. To achieve this, public gesture datasets were first sought, but none were found that met the study’s needs. Therefore, a tool was created to convert Mixamo animations into CSVs format so they could be understood by the models to be trained. This tool generated a large number of animations, but they were highly imbalanced in the number of animations for each type. To address the imbalance issue, a series of user trials (N=65) were conducted, where participants were asked to perform three instances of each gesture while wearing the motion capture suit. This data collection resulted in a total of 975 animations, with 195 human gestures for running, greeting, pointing, punching, and sitting. The gesture of dancing was omitted from the trials due to the imbalance in the dataset generated by computer animations. This omission helped balance the number of animations but did not completely eliminate the imbalance in the standardized data. Once the dataset was established, various AI models for gesture detection were implemented under a web interface for ease of use. These models included: LSTM, CNN, RNN, and Random Forest. After training all the models, it was observed that the Random Forest model significantly outperformed the others, achieving 95% accuracy in training and 86% in testing. The results from the neural network-based models were considerably lower, likely due to insufficient data, limited training time, and hardware constraints that hindered better model performance. Finally, the Random Forest model was exported to TensorFlow Serving to be used in a demonstration application featuring a reactive NPC. This application allows users to see how the NPC interprets different gestures and responds simply to them.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniería Informática y Grado en Desarrollo de Videojuegos, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2024/2025.

Keywords