In un rigoroso test matematico, quattro modelli di IA, tra cui ChatGPT 5.5 Pro, sono stati valutati contro le prestazioni umane. Nessuno dei modelli ha risposto correttamente alle 10 domande. Il modello con le migliori prestazioni è stato sviluppato da ETH Zurich, risolvendo sei dei dieci problemi. Il test, parte del progetto indipendente First Proof, mirava a valutare le capacità di IA nella ricerca matematica. Le domande erano precedentemente inedite per impedire ai modelli di basarsi su dati di formazione precedenti. Un gruppo di 30 matematici ha verificato le risposte.
Lettura del bias (Centro): L'articolo presenta i risultati factuali di un test di benchmarking AI senza favorire apertamente nessuna parte.





