Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Detección e identificación de manipulaciones intra-fotogramas en videos utilizando aprendizaje profundo

Citation

Abstract

En las dos últimas décadas la creación de material audiovisual como videos o imágenes ha tenido un gran crecimiento gracias al abaratamiento de las cámaras y, sobre todo, los teléfonos móviles. Esto junto con la multitud de aplicaciones destinadas a la edición de estos contenidos han supuesto una proliferación de archivos multimedia editados. Ante esto, para poder protegerse de ediciones malintencionadas o fraudulentas cada vez es más necesario un método para verificar la autenticidad de los videos e imágenes colgados en las redes sociales, medios de comunicación, Internet y demás. En este trabajo, se plantea la utilización de diversas técnicas de aprendizaje profundo con el objetivo de evaluar su robustez en la detección e identificación de manipulaciones espaciales en videos, concretamente copy-move y splicing. Para ello, se realizan dos propuestas basadas en el ruido y la arquitectura ConvNeXt. En la primera, el modelo es entrenado con fotogramas de videos, mientras que en la segunda el modelo es entrenado con imágenes. Además, en esta última se añade respecto a la primera la extracción del ruido "al vuelo" el aumento de datos. Se hacen numerosos experimentos sobre ambas propuestas y se analizan los resultados obtenidos de cada una de ellas. En cuanto a la primera propuesta no se han obtenido buenos resultados y, aunque la segunda propuesta ha conseguido superarlos, los resultados son aceptables pero mejorables. A lo largo del trabajo se ha conseguido un modelo con un buen desempeño sobre imágenes, se ha demostrado la necesidad de un conjunto de datos de videos grande y con variabilidad para modelos de aprendizaje profundo y se ha destacado la importancia del aumento de datos en modelos entrenados con imágenes a la hora de predecir sobre videos.
Over the past two decades, the creation of audiovisual material such as videos or images has seen remendous growth thanks to the affordability of cameras, especially smartphones. This, coupled with the multitude of aplications dedicated to editing these contents, has led to a proliferation of edited multimedia files. In light of this, to protect against malicious or fraudulent edits, there’s an increasing need for a method to verify the authenticity of videos and images posted on social media, news outlets, the internet, and beyond.In this work, various deep learning techniques are proposed to evaluate their robustness in the detection and identification of spatial manipulations in videos, specifically copy-move and splicing. For this purpose, two approaches based on noise and the ConvNeXt architecture are proposed. In the first approach, the model is trained with video frames, while in the second approach, the model is trained with images. Additionally, in the latter, noise extraction on-the-fly and data augmentation are included compared to the former. Numerous experiments are conducted on both proposals, and the results obtained from each are analyzed. Regarding the first approach, good results were not obtained, and although the second approach has managed to surpass them, the results are aceptable but improvable. Throughout the work, a model with good performance on images has been achieved, the need for a large and diverse video dataset for deep learning models has been demonstrated, and the importance of data augmentation in models trained with images when making predictions on videos has been highlighted.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniería de Computadores / Trabajo de Fin de Doble Grado en Ingeniería Informática y Administración y Dirección de Empresas, Facultad de Informática UCM, Departamento de Ingeniería del Software e Inteligencia Artificial, Curso 2023/2024.

Keywords