Im ersten Proof-Projekt wurden vier KI-Systeme auf zehn Mathematikproblemen auf Forschungsniveau getestet. Keines der KI-Modelle führte genauso gut wie Top-Mathematiker durch, wobei er durchschnittlich nur 6 von 10 Punkte erzielte. Der Test wurde entwickelt, um drei Kriterien zu erfüllen: die Verwendung von Mathematikproblemen auf Forschungsniveau, die Vermeidung von Problemen, die in den Trainingsdaten der KI vorhanden sind, und die formal von menschlichen Mathematikern bewertet werden. Die Ergebnisse wurden am 10. Juni auf der First Proof-Website veröffentlicht. Dies folgt den jüngsten Fortschritten in der KI, wie einem Chatbot, der ein 80-jähriges Mathematikproblem löst.
Tendenz-Einschätzung (Mitte): Der Artikel stellt Faktinformationen über einen KI-Performance-Test vor, ohne eine Haltung zu den Auswirkungen oder Ergebnissen einzunehmen.






