AI See: aplicación para smart glasses de descripción del entorno para personas con baja visión

Loading...
Thumbnail Image

Official URL

Full text at PDC

Publication date

2025

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Citations
Google Scholar

Citation

Abstract

AI See es una aplicación Android que desarrolla una funcionalidad de detección y descripción automática de imágenes orientada a personas con baja visión o ceguera, compatible con las gafas inteligentes Rockid Air. El objetivo principal del proyecto es fomentar la autonomía y seguridad de los usuarios mediante la conversión de contenido visual en descripciones auditivas comprensibles, utilizando modelos avanzados de inteligencia artificial. La aplicación permite la captura de imágenes tanto desde el móvil (galería o cámara), como desde la cámara de las gafas Rokid Air, las cuales son procesadas mediante el modelo Gemini, generando una descripción que se transmite por audio al usuario. El desarrollo incluye también funcionalidades complementarias como gestión de usuarios, historial de descripciones, accesibilidad visual (modo alto contraste), soporte multilingüe y medidas de seguridad y privacidad. Además, se ha prestado atención a la experiencia del usuario mediante una interfaz accesible y adaptable a sus necesidades. El documento detalla el diseño, implementación, integración y validación de la solución propuesta, demostrando su utilidad como herramienta de asistencia visual portátil y accesible.
AI See is an Android application that implements an automatic image detection and description feature aimed at people with low vision or blindness, compatible with Rokid Air smart glasses. The main goal of the project is to promote user autonomy and safety by converting visual content into understandable auditory descriptions using advanced artificial intelligence models. The application allows image capture both from the mobile device (via gallery or camera) and from the Rokid Air glasses camera. The captured images are processed through the Gemini model, which generates descriptions that are delivered to the user via audio. The development also includes complementary functionalities such as user management, description history, visual accessibility (high-contrast mode), multilingual support, and data privacy and security measures. Additionally, special attention has been given to user experience through an accessible and adaptable interface. This document details the design, implementation, integration, and validation of the proposed solution, demonstrating its usefulness as a portable and accessible visual assistance tool.

Research Projects

Organizational Units

Journal Issue

Description

Trabajo de Fin de Grado en Ingeniaría Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2024/2025

UCM subjects

Keywords