In einem strengen mathematischen Test wurden vier KI-Modelle, darunter ChatGPT 5.5 Pro, gegen menschliche Leistung bewertet. Keines der Modelle beantwortete alle 10 Fragen korrekt. Das am besten leistende Modell wurde von der ETH Zürich entwickelt, um sechs von zehn Problemen zu lösen. Der Test, Teil des unabhängigen Projekts First Proof, zielte darauf ab, KI-Fähigkeiten in der mathematischen Forschung zu beurteilen. Fragen wurden zuvor unveröffentlicht, um zu verhindern, dass Modelle auf vorherige Trainingsdaten angewiesen sind. Eine Gruppe von 30 Mathematikern überprüfte die Antworten.
Tendenz-Einschätzung (Mitte): Der Artikel stellt die tatsächlichen Ergebnisse eines AI-Benchmarking-Tests vor, ohne offen jede Seite zu begünstigen.





