opinionsreddit2026年4月21日 18:55

New LLM Position Bias Benchmark: does an LLM keep the same judgment when you swap the answer order? Judge models compare two lightly edited versions of the same story twice, with the order swapped. The median model flips in 45% of decisive case pairs. GPT-5.4 is worst at 66%.

More info, including charts, per-case metrics, raw judge outputs, and the parsed answer dump: https://github.com/lechmazur/position_bias This benchmark isolates one basic and frustrating failure mode. The model-average first-shown pick rate is 63%. GPT-5.4 (high) is the most position-sensitive model in the run. Many models don't just pick the first story more often, they also rate it higher. Average first-position rating bonus is +0.26 on a 1-7 scale. Mistral Large 3 is the outlier in the op

元記事を読む →

オピニオン既読86d

OpenAI ライブストリーム

OpenAIがライブストリーム配信イベントを開催します。放送中に具体的な発表、新製品発表、またはデモンストレーションが明かされる予定です。

OpenAIが前回予告なしのライブストリームをやった時、GPT-4 Turboをドロップして、一晩で価格設定を完全に変えました

Hacker News

オピニオン既読86d

ChatGPT Images 2.0が登場、画像生成機能が大幅アップグレード

OpenAIが新しいChatGPT Images 2.0をリリースしました。画像生成の品質と機能が大きく向上しています。ライブストリーム配信で最新機能のデモンストレーションが行われています。https://openai.com/live/ でご覧ください。

OpenAIはこれを確立されたイメージ生成ツールの直接的なライバルとして位置付けてるから、現在の市場リーダーに挑戦する自信があるってこと

Hacker News

109

オピニオン既読87d

2025年の「あと6ヶ月待てば」という主張は、たった1回のアップデートで破綻した

2025年を通じて、LLMに対する不満に対する標準的な返答は「あと3～6ヶ月待てば、次世代モデルが簡単に解決する」というバージョンばかりだった。この議論はどこにでもあった。すべての制限は一時的だと言われ、すべての欠落機能は数回のアップデート先にあると言われ、自律エージェントのデモはすべて差し迫った現実の予告編として扱われていた。いまは2026年4月。その約束がどれだけ実現したか確認する価値がある。Redditの r/ClaudeAI では今週、Opus 4.7についての長いスレッドが立ち、複数のユーザーが「これは退化だ」と主張している。

オピニオン既読74d

AMD Strix Halo で Mistral Medium 3.5 を動かしたら遅すぎた—夜間実行推奨

AMD の新型 Strix Halo チップで Mistral Medium 3.5 を実際に試した人がいるんですが、結果は…ひどいものです。48k トークンのプロンプト＋4k 思考トークンで、コード設計についての質問に答えるだけで約 2 時間かかりました。本当です、2 時間ですよ。Strix Halo でローカル実行したいなら、寝る前にジョブを投げるしかありません。Q5_K_XL 量化や GPU アクセラレーション、キャッシュ再利用など、あらゆる最適化を施しても、相変わらず遅い。「ローカル AI の夢」はまだ先のようですが、少なくとも動作はします。

関連記事

OpenAI ライブストリーム

ChatGPT Images 2.0が登場、画像生成機能が大幅アップグレード

2025年の「あと6ヶ月待てば」という主張は、たった1回のアップデートで破綻した

AMD Strix Halo で Mistral Medium 3.5 を動かしたら遅すぎた—夜間実行推奨