OpenAI

GPT-OSS-120B

Status: provisional

#9 BT rank

975.639 BT score

103 Mirror samples

23-28-52 W-L-T

95% confidence interval: 954.122 to 996.493.

Current status

Why this row is not ranked yet

samples_holdout<20, conservative_signal_not_separated_adjacent

Head-to-head results

vs GPT-OSS-20B

31-3-0

34 raw games

BT edge: 0.912 (0.770 to 0.970)

vs GPT-5.4-nano

9-21-0

30 raw games

BT edge: 0.300 (0.167 to 0.479)

vs GLM-5

11-17-0

28 raw games

BT edge: 0.393 (0.236 to 0.576)

vs claude_cli/haiku

9-17-0

26 raw games

BT edge: 0.346 (0.194 to 0.538)

vs Nemotron-3 Super 120B (free)

12-12-0

24 raw games

BT edge: 0.500 (0.314 to 0.686)

vs Qwen3-235B-A22B

10-4-0

14 raw games

BT edge: 0.714 (0.454 to 0.883)

vs GPT-5-mini

7-5-0

12 raw games

BT edge: 0.583 (0.320 to 0.807)

vs Claude Sonnet 4.6

2-10-0

12 raw games

BT edge: 0.167 (0.047 to 0.448)

vs GPT-5.2 (medium)

2-10-0

12 raw games

BT edge: 0.167 (0.047 to 0.448)

vs GPT-5.4-mini

3-7-0

10 raw games

BT edge: 0.300 (0.108 to 0.603)

vs GPT-5-mini (high)

2-2-0

4 raw games

BT edge: 0.500 (0.150 to 0.850)

GPT-OSS-120B

Summary stats

Why this row is not ranked yet

Head-to-head results

31-3-0

9-21-0

11-17-0

9-17-0

12-12-0

10-4-0

7-5-0

2-10-0

2-10-0

3-7-0

2-2-0