U projektu Prvog dokaza testirani su četiri sustava AI na deset matematičkih problema na razini istraživanja. Nijedan od AI modela nije izvršio kao i vrhunski matematičari, postižući prosječno samo 6 od 10. Test je dizajniran kako bi zadovoljio tri kriterija: korištenje matematičkih problema na razini istraživanja, izbjegavanje problema prisutnih u podacima o obuku AI-a i formalno razvrstavanje od strane ljudskih matematičara. Rezultati su objavljeni na stranici Prvog dokaza 10. lipnja.
Procjena pristranosti (Sredina): U članku se nalaze činjenične informacije o AI-ovom testu bez stavljanja na posljedice ili rezultate.






