Takeo Kanade, pionero de la visión artificial en 3D, premio Fronteras del Conocimiento

Agencia SINC

Si hoy existen vehículos capaces de conducir de forma autónoma, robots que asisten a los cirujanos en toda clase de operaciones, sistemas de reconocimiento facial con los que accedemos a nuestros teléfonos móviles y retransmisiones deportivas que nos permiten disfrutar de la repetición de las mejores jugadas desde múltiples ángulos, se debe en buena medida a las contribuciones del profesor Takeo Kanade (Japón, 1945).

Este catedrático de Informática y Robótica de la Universidad Carnegie Mellon (en Pittsburgh, EE UU) es el ganador del XVI Premio Fundación BBVA Fronteras del Conocimiento en Tecnologías de la Información y la Comunicación, por desarrollar los fundamentos matemáticos en los que se basan las capacidades que poseen hoy los ordenadores y los robots para “comprender e interpretar imágenes y escenas visuales”, según el jurado.

Kanade se doctoró en Ingeniería Eléctrica en la Universidad de Kioto en 1974, donde ejerció la docencia hasta 1980, cuando se incorporó a la Universidad Carnegie Mellon. Allí, a lo largo de las últimas cuatro décadas, “ha sido pionero en el estudio científico de la visión artificial”, al crear “los algoritmos fundacionales para la comprensión de imágenes, el procesamiento del movimiento y la percepción robótica”, afirma el acta del premio. Sus contribuciones “no sólo han dado forma a las disciplinas científicas de la inteligencia artificial y la robótica, sino que también han transformado significativamente el mundo tecnológico en el que vivimos”.

Kanade creó “los algoritmos fundacionales” que han impulsado las capacidades actuales de los ordenadores y los robots para comprender e interpretar imágenes y escenas visuales

El profesor Oussama Khatib, catedrático de Ciencias de la Computación y director del Laboratorio de Robótica en la Universidad de Stanford (Estados Unidos) y miembro del jurado, explica así la importancia de las contribuciones de Kanade: “La robótica se basa en la visión artificial para la percepción. De hecho, podemos definir la robótica como la conexión inteligente entre percepción y acción. Sin percepción, un robot no puede actuar en un entorno imprevisto y no estructurado”.

Escuela e pensamiento de visión artificial

“Por ejemplo –añade–, no podríamos construir ningún vehículo autónomo sin visión, para que sea capaz de evitar colisiones. El profesor Kanade desplazó las fronteras del conocimiento en este campo de una manera que nadie había logrado anteriormente, y la escuela de pensamiento que fundó ha sido muy importante para el desarrollo de la visión artificial y sus aplicaciones en la percepción robótica”.

“Me siento muy honrado de haber sido seleccionado para el prestigioso Premio Fronteras del Conocimiento y de que mi nombre se añada a la lista de los ilustres nombres de anteriores galardonados”, ha declarado Kanade, en una entrevista realizada poco después de conocer el fallo.

La inteligencia artificial y los robots con capacidades de visión por ordenador similares a la humana o incluso mejores contribuyen a mejorar nuestras vidas

“Como demuestra el hecho de que el córtex visual ocupe el área dominante del cerebro humano, la visión o el procesamiento de la información visual proporciona al ser humano el canal de información más rico e importante para la comprensión y la comunicación. La inteligencia artificial y los robots con capacidades de visión por ordenador similares o incluso mejores contribuyen a mejorar nuestras vidas. Veo muchas oportunidades”, ha destacado el galardonado.

Algoritmos para la visión artificial en 3D

Kanade revolucionó el campo de la visión artificial en tres dimensiones (3D), al desarrollar algoritmos mucho más rápidos que los que existían hasta entonces y posibilitando por tanto un gran número de aplicaciones prácticas.

Al igual que las personas y los animales necesitamos dos ojos para tener información de profundidad, la visión artificial tridimensional solo es posible si se integran las imágenes procedentes de al menos dos cámaras. Sin embargo, los primeros algoritmos de visión artificial estaban pensados para procesar una sola imagen, y aplicarlos para integrar varias imágenes era un proceso demasiado lento como para utilizarse en la práctica.

Para procesar un vídeo grabado con una sola cámara (es decir, en dos dimensiones) y reconocer de manera automática las imágenes que contiene, puede ser factible analizar fotograma a fotograma para reconstruir los objetos que contiene y después deducir cómo se mueven estos objetos. Computar el movimiento de los puntos de la imagen, llamado flujo óptico, de manera precisa y rápida es fundamental para comprimir vídeos, así como para que un robot se pueda orientar en el entorno.

Los algoritmos desarrollados por el galardonado han posibilitado un gran número de aplicaciones prácticas, como la detección de objetos en un campo visual y reconstrucción 3D de escenas

Sin embargo, este método es del todo inviable si cada fotograma procede de la integración de las imágenes grabadas por varias cámaras, ya que requiere una capacidad de computación excesiva. Kanade se dio cuenta de que, en lugar de integrar cada fotograma y después rastrear el movimiento de los objetos, sería mucho más rápido aprovechar la información del movimiento de los objetos que graba cada cámara para comprender cómo se mueve la imagen incluso antes de realizar la integración entre los vídeos de todas las cámaras. “Una vez que entendemos esto, ya no necesitamos enviar toda la información del color ni del vídeo, sino que basta con enviar simplemente el movimiento”, ha explicado.

El método de Lucas-Kanade 

Junto con su doctorando Bruce Lucas, desarrolló un nuevo método para estimar el flujo óptico que presentó en el VII Congreso Internacional Conjunto de Inteligencia Artificial (IJCAI), celebrado en 1981 en Vancouver, Canadá. La técnica, que desde entonces se conoce como método de Lucas-Kanade, capta también las formas de los objetos y permite deducir la velocidad y dirección de su movimiento. “Esa es la base de la codificación de vídeo, y mi algoritmo de flujo óptico se usa para prácticamente cualquier técnica de compresión de datos de imágenes en movimiento”, afirma el galardonado.

Kanade desarrolló una manera de simplificar drásticamente los cálculos que debe realizar el ordenador para procesar las imágenes 3D

Aun así, las imágenes 3D requieren una capacidad de computación mucho mayor que las de dos dimensiones, y Kanade también desarrolló una manera de simplificar drásticamente los cálculos que debe realizar el ordenador para procesarlas. Su contribución, realizada junto con su doctorando Carlo Tomasi y publicada en el International Journal of Computer Vision en 1992, hizo factible que los ordenadores de la época trabajaran con imágenes tridimensionales.

“Este logro requirió un entendimiento excelente de las matemáticas, un gran rigor al resolver problemas, y también una cierta creatividad en la manera de emplear las herramientas matemáticas para resolver problemas físicos”, apunta Khatib.

Coches y aeronaves autónomas

Gracias a las técnicas que propuso Kanade, en 1995 dos investigadores de la Universidad de Carnegie Mellon recorrieron Estados Unidos de costa a costa por autopista en uno de los primeros vehículos autónomos jamás construidos, accionando manualmente el acelerador y el freno, pero sin apenas tocar el volante. El programa, al que llamaron No Hands Across America (“Cruzar América Sin Manos”), demostró que aquella furgoneta podía guiarse sola, empleando solo la información de sus cámaras.

Aunque los coches autónomos que ya pueden verse en entornos urbanos incorporan, además, estrategias para lidiar con las intenciones no conocidas de los peatones o de los conductores humanos de otros coches, esta furgoneta sentó las bases para guiar a los robots que operan en entornos controlados como restaurantes, aeropuertos o museos.

Más recientemente, Kanade ha trabajado en el desarrollo de helicópteros autónomos capaces de rastrear un objetivo. “Si un helicóptero autónomo tiene que seguir un objetivo dentro de una escena, la visión artificial en tres dimensiones se emplea para localizar el objetivo y estudiar cómo se mueve”, expone el galardonado.

Además, las técnicas propuestas por el galardonado están presentes hoy en los drones y en todos los robots que incorporan capacidad de visión.

Avances en cirugía robótica

La visión artificial también se ha convertido en una tecnología clave en la cirugía robótica, un campo que se ha expandido en buena medida gracias a las técnicas desarrolladas por Kanade. “Cualquier operación que se realiza hoy con ayuda de robots en gran parte está basada en sus contribuciones”, señala Torres.

De hecho, el propio Kanade desarrolló con su equipo el primer sistema robotizado para la cirugía de prótesis de cadera, llamado HipNav, que logró una precisión mucho mayor en la colocación de la prótesis, disminuyendo el riesgo de efectos secundarios como la dislocación, mediante un procedimiento menos invasivo que el tradicional. La capacidad de seguir en tiempo real la posición exacta de la pelvis durante la cirugía fue clave para conseguir estos avances.

Además, gracias en buena medida a las contribuciones de Kanade, hoy ya es posible diseñar robots capaces de realizar algunas pruebas médicas sencillas, como ciertas ecografías, y detectar zonas sospechosas de presentar patologías.

“En muchos pueblos no hay hospitales”, explica Khatib, “así que estamos intentando crear clínicas pequeñas con un robot que pueda efectuar un análisis muy sencillo, y que a través de un algoritmo entienda si existen sospechas que hagan necesarias más pruebas”. El mismo robot, añade el investigador, se podría conectar a un hospital, por lejano que sea, para que un radiólogo lo controle de manera remota y sea posible realizar análisis más exhaustivos sin necesidad de que el paciente viaje.

Tecnologías para mejorar la calidad de vida

Mirando al futuro, Kanade confía en que su trabajo pueda contribuir en los próximos años al desarrollo de “tecnologías para mejorar la calidad de vida”, en particular a través de robots y dispositivos que “ayuden a las personas mayores o con discapacidad a vivir de manera independiente”.

Además, prevé que sus investigaciones en el campo de la “realidad virtualizada” permitirán a las personas disfrutar de experiencias inmersivas cada vez más realistas en competiciones deportivas, conciertos y otros eventos culturales, sin salir de sus casas.

“Esta tecnología”, señala, “no solo tiene aplicaciones en el ámbito del ocio y el entretenimiento, sino que puede ser de utilidad, por ejemplo, a la hora de coordinar la respuesta a desastres naturales, a través de recreaciones virtuales de las zonas afectadas por una catástrofe”.

La tecnología de la 'realidad virtualizada' tiene aplicaciones en el entretenimiento, con experiencias inmersivas, y para coordinar la respuesta a desastres naturales, con recreaciones virtuales de las zonas afectadas por una catástrofe

Al mismo tiempo, Kanade admite que le preocupa el posible uso perverso que pueda hacerse de algunas tecnologías desarrolladas gracias a sus contribuciones. “Odio ver cómo se está aplicando la inteligencia artificial y la visión artificial a fenómenos como los vídeos falsos (deepfakes)”, lamenta. En 2010, el propio Kanade y sus colaboradores crearon un vídeo en el que se veía al presidente Obama hablando en japonés, en unas imágenes generadas a partir de una grabación del propio investigador.

“Fue un experimento divertido, pero nuestra intención era seria y las aplicaciones que teníamos en mente eran importantes”, explica. “Por ejemplo, queríamos comprender mejor la expresividad del rostro humano y los efectos de ciertos gestos, como movimientos de la cabeza o de los ojos, para ayudar a las personas que tienen dificultades a la hora de comunicarse, o también nos planteábamos la creación de avatares para participar virtualmente en videoconferencias”.

En todo caso, Kanade confía en que la tecnología permita detectar los vídeos generados artificialmente, para evitar su uso malintencionado: “Debería ser fácil poder certificar si una imagen es auténtica o falsa, y colocar una marca de agua para identificar los fraudes. En cualquier caso, me entristece que esta tecnología pueda tener un potencial para hacer daño, debido al mal uso que algunos quieran hacer de ella”.

‘Realidad virtualizada’ en la Super Bowl

En 2001 la emisión televisiva de mayor audiencia en Estados Unidos, la final de la Super Bowl, presentó un avance técnico en el campo de la visión artificial que cambió para siempre la forma de retransmitir el deporte, y fue el propio profesor Kanade quien explicó a los espectadores en qué consistía este hito.

La nueva técnica permitía la recreación en 360 grados de una escena. Para obtener esta vista panorámica es necesario grabar la misma escena con varias cámaras, pero los métodos de Kanade permiten obtener imágenes de la escena desde un punto de vista en el que no se ha colocado ninguna de ellas, o bien reconstruir cualquier perspectiva a partir de un vídeo grabado por una cámara en movimiento. 

“Si tenemos una cámara que toma cuatro puntos de vista, cada 90 grados, a partir de ahí es capaz de hacer la reconstrucción de cómo se vería la escena desde otro punto de vista que no existe en la imagen real”, explica Fernando Torres Medina, catedrático de Ingeniería de Sistemas y Automática y director del Grupo de investigación en Automática, Robótica y Visión Artificial de la Universidad de Alicante (UA), y nominador de Kanade.

Su nueva técnica de ‘realidad virtualizada’ permite recrear en 360 grados las mejores jugadas de un partido

Esta es la base de la “realidad virtualizada”, que ha transformado las competiciones deportivas al permitir, por ejemplo, ver un partido de fútbol desde el punto de vista del balón o emplear el ojo de halcón en un partido de tenis.

“Cuando se acuñó el término de realidad virtual en los años 1990, la gente trabajaba sobre todo en crear mundos artificiales con gráficos por ordenador. Pero yo pensé que sería más interesante empezar con la realidad, es decir, introducir la realidad dentro del ordenador para volverla virtual”, recuerda Kanade. Para resaltar este aspecto y distinguir su propuesta de los mundos artificiales que comenzaban a emerger, el investigador acuñó el concepto de “realidad virtualizada”.

El sistema estrenado en la Super Bowl de 2001, denominado EyeVision, permitió por primera vez retransmitir por televisión una recreación panorámica de las jugadas más llamativas del partido.

“El estadio tenía 33 cámaras en la grada superior, mirando al terreno de juego, y cuando se producía una jugada bonita el realizador podía generar una secuencia que diera la vuelta completa al jugador. Era igual que en la escena principal de la película Matrix, en la que la cámara parece rodear al personaje”, compara Kanade: “Y ahora esta repetición con vista de 360 grados se utiliza en casi cualquier deporte”.