Model Detail

GPT-5.4

Dominates terminal-style external benchmarks, but still has a gap in our structured internal operator benchmark data.

Benchmark score

88/100

Source

External benchmark canon

Role

Terminal/coding specialist

Strengths

Weaknesses

Operator read

Dominates terminal-style external benchmarks, but still has a gap in our structured internal operator benchmark data.

Source artifacts

Raw machine-readable files for anyone who wants to dig deeper or run their own analysis.