Bette Davis en 'El aniversario'
Bette Davis en 'El aniversario'

La visión artificial está tuerta

Las técnicas de análisis y procesamiento de vídeo han vivido una revolución en los últimos cinco años, pero la falta de bases de datos frena el avance en este campo

Una mano derecha recoge un plato de la mesa y lo lleva a la encimera. Entonces aparece la izquierda, que ayuda a despegar dos trozos de pizza del papel de horno y entre las dos los dejan en el plato. Una vez allí, los cortan y los pasan a un tupperware. Durante los siguientes nueve minutos el par de manos continúa desempeñando una práctica milenaria: recoger la cocina.

Hay mucho vídeo disponible, pero no hay etiquetas que describan esos contenidos

Marcos Nieto, Vicomtech

"Cuando la gente trabaja en su cocina, hace multi-tasking de manera natural: lava platos mientras cocina, añade ingredientes mientras revuelve... Estas interacciones con objetivos paralelos nunca habían sido capturadas en datasets egocéntricos", explica Dima Damen, profesora asociada de visión artificial de la Universidad de Bristol. Estas son algunas de las peculiaridades que hacen único el proyecto que lidera y que ha dado como resultado Epic Kitchens, el mayor dataset de vídeo egocéntrico -grabado en primera persona, con una cámara en la frente- sin guion y con anotaciones que se ha recopilado jamás. Cuatro ciudades, 32 cocinas y 55 horas de grabación.

Podría parecer poco, pero es cinco veces la saga de El señor de los anillos y viene a llenar la milésima parte de un vacío que sufre toda la comunidad científica dedicada al análisis y procesamiento de vídeo. "Hay mucho vídeo disponible -datos-, pero no hay etiquetas -metadatos- que describan esos contenidos. Si no hay metadatos, no tenemos ninguna forma de decirle a la máquina qué está ocurriendo", dice Marcos Nieto, investigador principal en Vicomtech.

Los sistemas de reconocimiento de imagen, que nunca habían sido tan inteligentes, amplían cada día sus capacidades de detección e identificación de objetos. "Lo que todavía no está resuelto, y queda mucho para lograrlo, son los procesamientos más complejos, como la identificación de acciones", señala Nieto. Así, en una escena de Epic Kitchens, sería más sencillo obtener una lista de entidades, como fregona, clara, yema, servilletas, individuo enfadado... que la descripción de lo que está ocurriendo: un huevo kamikaze se ha tirado de la encimera al suelo. "Ahí los seres humanos todavía somos mucho mejores que las máquinas. Nosotros tenemos 20, 30, 40 años de entrenamiento, mientras que a las máquinas las podemos entrenar con una cantidad de imágenes muy, muy inferior".

  • Dos destinos y un problema

En Vicomtech necesitan estas fuentes de vídeos descritos para mejorar el reconocimiento de situaciones en tiempo real en sistemas de transporte. En Epic Kitchens quieren saberlo todo sobre nuestra manera de interactuar con el entorno. Convergen en la escasez de filmografía que enturbia la mirada de sus sistemas de visión artificial, pero difieren en las soluciones propuestas.

El equipo de Nieto ha trabajado en desarrollar herramientas de deep learning que automaticen la interpretación de grandes cantidades de vídeo. "Mientras se graba, se ejecutan algoritmos que van generando anotaciones de forma automática", precisa. Posteriormente, un equipo de anotadores revisa, valida y, en el peor de los casos, corrige las asociaciones propuestas. Así, se rompe el círculo vicioso donde las máquinas no aprenden porque no tienen libros y los libros no existen porque no hay máquinas capaces de crearlos; y se comienza a construir un círculo virtuoso donde cada nuevo análisis mejora aprendiendo de los errores detectados durante el anterior. "Ahora estamos centrados en escenarios de automoción, pero este mismo concepto podría aplicarse prácticamente a cualquier cosa", añade.

Epic Kitchens parte del producto completo: sus 55 horas de vídeo ya están inequívocamente procesadas y han resultado en la identificación de nada menos que 39.594 segmentos de acción y 454.158 objetos. "En este momento, el mayor reto en el análisis de vídeo egocéntrico es que los datasets disponibles limitan la evaluación de los métodos actuales", explica Damen. Su esperanza es que estos contenidos, que ya están colgados en la web al alcance de cualquier ingeniero con acceso a internet, sirvan como base para comparar problemas y soluciones.

  • Las ventajas de llevar una cámara en la frente

"La visión egocéntrica ofrece puntos de vista únicos de los objetos mientras se están usando", asegura Damen. Además, las actividades en la cocina resultan más predecibles y orientadas a objetivos concretos que el curso de acción de quien se dedica a haraganear en el salón. "Creemos que una comprensión automatizada del vídeo egocéntrico pondrá los cimientos para una interacción más cautivadora entre humanos y ordenadores", promete la líder del proyecto.

De hecho, el potencial del vídeo egocéntrico ya ha cruzado la frontera del reino animal. Investigadores de la Universidad de Washington han compilado su propio dataset de vídeo egocéntrico desde la perspectiva de un perro. Los modelos derivados del análisis de estas nueve horas de vídeo son "prometedores", según os autores del estudio. "Pueden predecir cómo se mueve el perro en distintos escenarios y cómo decidirá moverse de un estado a otro".

GDPR, ¿otro tupido velo para la visión artificial?

La inminente nueva regulación europea en materia de protección de datos podría complicar aún más la recopilación de fuentes. "Exige que se pida permiso explícito a cualquier persona antes de grabar sus datos. Hay una incompatibilidad directa entre el desarrollo de la tecnología y el de la regulación", razona Nieto.

Para sortear el problema, utiliza un sistema de tratamiento de imagen que encripta cualquier información privada antes de que la imagen se guarde. "Solo en caso de que algún cuerpo de seguridad del Estado solicitase acceso, se le proporcionaría la clave para observar la imagen original", explica.

Retina

17/12/2018
02

Las ÐApps evitan que Facebook negocie con tus datos

Aunque lo de “Si no pagas, el producto eres tú” va camino de convertirse en el topicazo de la década, no por eso deja de ser cierto. Asuntos como el de Cambridge Analytica han impulsado la búsqueda de alternativas a los servicios gratuitos de internet.

Las ÐApps evitan que Facebook negocie con tus datos
06

04. The Vamp: Música y reciclaje

Lanzado en 2013, el diminuto amplificador de The Vamp es un 'streamer' ecológico y de bajo coste que se conecta en segundos a cualquier altavoz y transmite vía bluetooth la música digital de móviles y ordenadores.

04. The Vamp: Música y reciclaje
El hidrógeno quiere correr
09

El hidrógeno quiere correr

Los vehículos de pila de combustible no emiten gases contaminantes, no hacen ruido y su depósito se llena con rapidez. Parecen la alternativa perfecta de futuro. Entonces, ¿por qué van por detrás de otras tecnologías?

Normas