Un modelo computacional imita la visión cerebral en contextos complejos

Arriba imagen de escena callejera sacada del Street Scene Database. Debajo anotaciones hechas por el nuevo modelo

Por primera vez, científicos del laboratorio Poggio, encuadrado en el McGovern Institute for Brain Research del MIT, han aplicado un modelo computacional capaz de imitar la manera en que el cerebro procesa información visual en un contexto complejo y real, como reconocer objetos en una calle llena de gente.

El profesor Thomas Serre ha dirigido este estudio, cuyos resultados han sido presentados en un artículo que se publica en la edición de marzo del IEEE Transactions on Pattern Analisys and Machins Intelligence.

Este nuevo modelo computacional selecciona aleatoriamente imágenes de tal manera que puede “aprender” a identificar hechos en los que están involucrados objetos reales, como árboles, coches o gente. El modelo utiliza estos rasgos para etiquetar por categorías los diferentes ejemplos de objetos encontrados en fotografías digitales tomadas en una calle: edificios, coches, motos, aviones, caras, viandantes, calles, cielos, árboles y hojas.

Más versátil

En comparación con sistemas de visión computacional tradicionales, este nuevo modelo, que tiene una base biológica, es tremendamente versátil. Los sistemas tradicionales están desarrollados para reconocer una clase de objetos específica. Por ejemplo, un sistema creado para reconocer caras o texturas es muy pobre detectando coches. En el modelo presentado, el mismo algoritmo puede aprender a detectar un amplio espectro de clases de objetos.

Para testar el modelo, el equipo de investigadores utilizó fotografías de escenas de una calle sacadas de una base de datos llamada Street Scene Database. El modelo explora la escena y reconoce los objetos que intervienen en esa escena.

“Hemos desarrollado un modelo del sistema visual que será enormemente útil para los neurocientíficos a la hora de diseñar e interpretar experimentos y también tendrá aplicaciones en ciencia computacional. Hemos elegido una escena callejera para aplicar este nuevo modelo porque tiene una serie de categorías de objetos restringida y, a la vez, aplicaciones sociales prácticas”, dice Serre en un comunicado del McGovern Institute (MIT).

Aprender a ver

Enseñar a un ordenador cómo reconocer objetos es algo complicado porque un modelo computacional tiene dos finalidades paradójicas. Por un lado necesita crear una representación muy específica para un objeto en particular, como un caballo en contraposición a una vaca. Pero, al mismo tiempo, esa representación tiene que ser lo suficientemente invariable como para que el ordenador pueda descartar cambios en la iluminación, la posición o el tamaño del objeto.

Incluso la mente de un niño es capaz de manejar estas dos funciones contradictorias a la hora de reconocer objetos. La información entra a través de su retina y pasa hasta el córtex visual. Esto es precisamente lo que hace innovador el modelo propuesto por el laboratorio Poggio, ya que, computacionalmente hablando, imita la jerarquía del cerebro. Más concretamente, copia la forma en que las neuronas procesan los estímulos de entrada y de salida.

El modelo usado en la aplicación de una escena de calle copia sólo los cálculos que el cerebro usa para reconocer objetos con rapidez. El laboratorio Poggio está ahora trabajando para que sea capaz de reconocer objetos de una manera más lenta, de tal forma que le dota de la posibilidad de contextualizar la situación o de “reflexionar”: veo un coche, luego estoy en una calle y no en el cielo. Al dotar al modelo de esta habilidad semántica, sus creadores esperan ampliar sus aplicaciones prácticas, como crear filtros de vídeo para comportamientos anómalos o editores de vídeo mucho más inteligentes.

Primeras aplicaciones

Las aplicaciones inmediatas son la vigilancia, la asistencia a la conducción y, eventualmente, motores de búsqueda visual o robots capaces de ver. En el campo de la neurociencia, esta investigación es esencial para crear prótesis sensoriales, como una que pueda repetir los cálculos llevados a cabo por un nervio dañado en la retina. “Una vez que ya tenemos un buen modelo de cómo funciona el cerebro humano, podemos usarlo para mimetizar un desorden cerebral”, apunta Serre.