
OpenAI ライブストリーム
OpenAIがライブストリーム配信イベントを開催します。放送中に具体的な発表、新製品発表、またはデモンストレーションが明かされる予定です。
OpenAIが前回予告なしのライブストリームをやった時、GPT-4 Turboをドロップして、一晩で価格設定を完全に変えました

More info, including charts, per-case metrics, raw judge outputs, and the parsed answer dump: https://github.com/lechmazur/position_bias This benchmark isolates one basic and frustrating failure mode. The model-average first-shown pick rate is 63%. GPT-5.4 (high) is the most position-sensitive model in the run. Many models don't just pick the first story more often, they also rate it higher. Average first-position rating bonus is +0.26 on a 1-7 scale. Mistral Large 3 is the outlier in the op