OpenAI

GPT-5.2 (medium)

Status: provisional

#1 BT rank

1091.055 BT score

21 Mirror samples

13-0-8 W-L-T

95% confidence interval: 1086.590 to 1095.528.

Current status

samples_total<60, samples_holdout<20

Head-to-head results

12 raw games

BT edge: 1.000 (0.758 to 1.000)

12 raw games

BT edge: 0.833 (0.552 to 0.953)

8 raw games

BT edge: 0.750 (0.409 to 0.929)

8 raw games

BT edge: 0.625 (0.306 to 0.863)

2 raw games

BT edge: 0.500 (0.095 to 0.905)