Il test "Humanity's Last Exam" ha sfidato i modelli avanzati di intelligenza artificiale con 2.500 quesiti specialistici per valutarne il livello complessivo di conoscenza e risposte accurate. I risultati hanno evidenziato che anche quando le risposte erano poco precise, alcuni modelli tendevano a ostentare un'eccessiva sicurezza. Continua a leggere