U strogom matematičkom testu, četiri modela AI, uključujući ChatGPT 5.5 Pro, bili su ocjenjeni prema ljudskim performansama. Nijedan od modela nije ispravno odgovorio na sva 10 pitanja. Najbolje učestvovajući model je razvio ETH Zurich, rješavanjem šest od deset problema. Test, dio nezavisnog projekta First Proof, imao je za cilj ocjenjivanje sposobnosti AI u matematičkom istraživanju.
Procjena pristranosti (Sredina): U članku se prikazuju činjenične rezultate AI testiranja bez otvoreno podržavanja bilo koje strane.





