El proyecto First Proof enfrenta a los modelos de lenguaje a problemas matemáticos inéditos, fuera de su entrenamiento. El objetivo no es que acierten, sino ver cómo piensan. El resultado apunta a una diferencia incómoda: responder bien no es lo mismo que razonar de verdad.