Cuando tenemos una imagen delante nuestra tendemos a descomponerla en elementos más pequeños. Es decir, los objetos que aparecen ante nuestros ojos. Un proceso natural para el ser humano pero no tanto para la tecnología de reconocimiento de imágenes que si bien ha evolucionado mucho reconociendo caras tiene el retos para identificar cosas y personas.
Este año un equipo de Google se ha llevado el primer premio en el ImageNet large-scale visual recogniticion challenge (ILSVRC a partir de ahora). Un reto en el que se proponía a diferentes equipos de investigación crear sistemas de reconocimientos de objetos en la imagen y localizarlos dentro de la misma.
Detectar, categorizar y localizar
El reto del ILSVRC se basa en tres objetivos. Primero la clasificación de los objetos (qué tenemos delante), segundo la clasificación por localización (dónde está) y por último la detección de los mismos de forma automática. Para superar el primer punto se utiliza un algoritmo capaz de asignar al objeto una categoría en concreto tras haberlo reconocido. Su posición en el espacio se saca con otro algoritmo capaz de diferenciar entre objeto y fondo y delimitar su espacio en la imagen.
Por último, y la parte más complicada, un algoritmo de detección que es similar al segundo pero es mucho más estricto a la hora de identificar los objetos. El resto que proponen es difícil porque los objetos que aparecen en las imágenes no son solo grandes y fáciles de identificar sino que también hay elementos muy pequeños.
El sistema empieza a leer diferentes imágenes y debe ser capaz de identificar y etiquetar correctamente todo lo que ve. Para nosotros es una tarea fácil pero como podemos ver en la imagen que encabeza el artículo no se trata de una tarea sencilla. La clave del triunfo de Google está en la simplificación de la tecnología de entrenamiento que se utiliza en este tipo de redes neuronales artificiales.
Se reduce el número de parámetros en cada análisis por capa de tal modo que se hacen menos lecturas pero se asegura que cada una de ellas sea más eficiente y al final el sistema no se satura con demasiadas interpretaciones de lo que está viendo. Esto se traduce en una mayor efectividad y en un menor consumo de memoria.
Lo más interesante de todo el trabajo que ha hecho Google con esta tecnología es que es de acceso libre y cualquier investigador puede acceder a la documentación del proyecto para replicar y modificar a su gusto el código para mejorar su rendimiento y ver por su propia cuenta cómo funciona.
Desde una perspectiva más práctica: ¿cómo se va a implementar? En principio es pronto para sacar conclusiones pero teniendo en cuenta que muchos servicios de Google se basan en imágenes es fácil pensar que podría tener mucho uso para su sistema de mapas, la búsqueda por fotos a través de Google Imágenes, YouTube o incluso su sistema de conducción automática de coches para detectar qué tiene delante, leer las señales de tráfico, etc.
0 comentarios Blogger 0 Facebook
Publicar un comentario