Ferramenta aberta reúne 2.500 questões para avaliar precisão de modelos como ChatGPT; projeto tem participação brasileira, da USP, e foi descrito na revista Nature