En la escala PrIME-LLM, las puntuaciones de los modelos oscilaron entre el 64% para Gemini 1.5 Flash y el 78% para Grok 4 y GPT-5.