En una prueba matemática rigurosa, cuatro modelos de IA, incluido ChatGPT 5.5 Pro, fueron evaluados en relación con el rendimiento humano. Ninguno de los modelos respondió correctamente a las 10 preguntas. El modelo de mejor rendimiento fue desarrollado por ETH Zurich, resolviendo seis de cada diez problemas. La prueba, parte del proyecto independiente First Proof, tenía como objetivo evaluar las capacidades de IA en la investigación matemática. Las preguntas no se publicaron previamente para evitar que los modelos se basaran en datos de capacitación previa. Un grupo de 30 matemáticos verificaron las respuestas.
Lectura del sesgo (Centro): El artículo presenta los resultados de hecho de una prueba de benchmarking de IA sin favorecer abiertamente a ningún lado.





