La iniciativa busca que los robots comprendan y describan escenas como lo haría un humano, gracias a sensores, datos reales y modelos eficientes.