El desarrollo de los
algoritmos de reconocimiento de imágenes es impresionante, ya no cometen errores
tontos cuando miran el mundo: en estos días, pueden decir con exactitud que una
imagen contiene un gato. Pero la forma en la que realiza está lectura puede
no ser tan familiar para los seres humanos como habíamos creído.
La mayoría de los
sistemas de visión por computadora identifican características en imágenes
utilizando redes neuronales, que se inspiran en nuestra propia biología y son
muy similares en su arquitectura, pero en vez de usar neuronas para la detección
biológica, usan funciones matemáticas.
Ahora, un estudio realizado
por investigadores de Facebook y Virginia Tech, dice que a pesar de estas aparentes
similitudes, hay que tener cuidado en no asumir que ambos
funcionan de la misma manera.
Para ver exactamente lo que
estaba ocurriendo mientras seres humanos y una AI analizaban una imagen, los
investigadores estudiaron donde ambos centraban su atención. Ambos fueron provistos
de imágenes borrosas e hicieron preguntas acerca de lo que estaba ocurriendo en
la imagen. Las partes de la imagen podrían ser aclaradas de manera selectiva,
uno a la vez, y tanto humanos como AI lo hicieron hasta que pudieran responder
a la pregunta. El equipo repitió las pruebas utilizando varios algoritmos
diferentes.
Obviamente ambos pudieron
contestar, pero lo interesante del experimento es la forma en que lo hicieron.
En una escala de 1 a -1, donde 1 es totalmente de acuerdo y -1, desacuerdo
total; dos humanos obtuvieron 0.63 en promedio en términos de dónde se
centraron su atención en la imagen. Pero cuando el ejercicio fue realizado por un
humano y una IA, el promedio cayó a 0.26.
En otras palabras: la IA y el humano
miraron ambos la misma imagen, recibieron la misma pregunta y obtuvieron ambos respuestas
correctas, pero usando diferentes características visuales para llegar a esas
mismas conclusiones.
Este es un resultado explícito
sobre un fenómeno que los investigadores ya habían insinuado. En 2014, un
equipo de la Universidad de Cornell y de la Universidad de Wyoming demostró
que era posible crear imágenes que engañen a una IA, simplemente mediante
la creación de una imagen formada por fuertes rasgos visuales que el software
había llegado a asociar con un objeto.
Los seres humanos, por otro lado,
tenemos un gran sentido común, lo que significa que no vamos a caer en estos trucos.
Eso es algo que los investigadores están tratando de incorporar a una nueva
generación de software inteligente con el fin de que entiendan el mundo visual de
manera semántica.
Sin embargo, que las
computadoras no utilice el mismo enfoque no necesariamente quiere decir que
sean inferiores. De hecho, podría ser mejor ignorar el enfoque humano por completo.
Los
tipos de redes neurales utilizadas en la visión por computadora suelen
emplear una técnica conocida como “aprendizaje supervisado” para averiguar lo
que está sucediendo en una imagen. En última instancia, su habilidad para
asociar una compleja combinación de patrones, texturas y formas con el nombre
de un objeto, es posible porque los humanos ya han intervenido etiquetando las imágenes
que serán reconocidas por la IA.
Pero los equipos en Facebook y
DeepMind de Google han estado experimentando con sistemas de aprendizaje no
supervisado que se alimentan de videos e imágenes para aprender cómo se ven los
rostros humanos y objetos cotidianos, sin ninguna intervención humana. Magic
Pony, recientemente adquirida por Twitter, también trabaja con aprendizaje
supervisado.
En estos casos, es incluso
menos probable que el conocimiento de la IA sea generado a través de un proceso
que imita al de un humano. Una vez inspirado en los cerebros humanos, la IA
puede ser mucho más eficiente simplemente siendo sí misma.
FUENTES: MIT
REVIEW, NEWSCIENTIST