Dans un test mathématique rigoureux, quatre modèles d'IA, dont ChatGPT 5.5 Pro, ont été évalués par rapport aux performances humaines. Aucun des modèles n'a répondu correctement aux 10 questions. Le modèle le plus performant a été développé par ETH Zurich, résolvant six des dix problèmes. Le test, faisant partie du projet indépendant First Proof, visait à évaluer les capacités d'IA dans la recherche mathématique. Les questions étaient précédemment inédites pour empêcher les modèles de s'appuyer sur des données de formation antérieures. Un groupe de 30 mathématiciens a vérifié les réponses. Seuls les modèles disponibles publiquement ont participé, ce qui a limité l'implication de OpenA.
Lecture du biais (Centre): L'article présente les résultats factuels d'un test de benchmarking d'IA sans favoriser ouvertement aucun côté.





