
GPT-4o がやってきた
新しいフラッグシップモデル「GPT-4 Omni」を発表します。このモデルは、音声、画像、テキストをリアルタイムで統合して推論できます。
これは単なるチャットボットの改善ではなく、GPT-4oは文字通りあなたの画面を見て、あなたのイライラを聞いて、テキスト音声変換の気まずい遅延なしに即座に応答できます

Inception Labs が Mercury 2 をリリースしました。これは拡散モデル(diffusion model)ベースの言語モデルで、H100 GPU 上で毎秒 11,000 トークンという驚異的な速度で処理できます。ほとんどの大規模言語モデル(LLM)はまだ精度を優先しているのに対し、このアプローチは純粋なスループットを追求しています。拡散モデル技術(DALL-E のような画像生成に使われる技術)をテキスト生成に応用したもので、推論速度に対する考え方を根本的に変える可能性があります。これが実用化されれば、レスポンスが高速化し、API コストが削減され、これまで実現不可能だったリアルタイムアプリケーションが可能になります。ポッドキャストで技術詳細と本番環境での重要性について詳しく解説されています。
テックブロガーの見解
誰かが他のすべてのLLMをダイアルアップ時代の遺物に見せちゃった
Inception LabsがMercury 2を昨日リリースしたんだけど、数字がマジで狂ってる — H100 GPUで毎秒11,000トークン。比較対象として、ほとんどの本番LLMは毎秒数百トークンで這ってるレベル。精度を優先してるから、ユーザーは指をくわえて待ってる。でもここからが面白い — Mercury 2は拡散モデル(diffusion models)を使ってる。DALL-Eの画像生成と同じ技術なんだけど、テキストに応用してる。誰かがAI研究所で曲がり角を曲がり間違えて、他の誰もが無視してた速度問題を偶然解決しちゃった感じ。本番クオリティで実際に動いたら — これはまだ大きな『if』だけど — リアルタイムAI会話、激安APIコスト、そして『本番環境には遅すぎる』と思ってたAI機能が全部実現可能になる。推論コスト全体の方程式が完全にひっくり返った。
Action
馬上試用LLMが段落を生成するのに3~5秒待ってる間、ユーザーはイライラしてAPIコストは積み上がる
人間と話してるみたいな瞬時のAI応答が返ってきて、大量トラフィック対応のAPIコストが実際に合理的になる
AI分析
クラウドコンピューティング&API
high今すぐ現在のトークンコストをこの11K/秒のベースラインと比較してみて — Mercury 2が本番環境のクオリティで実現できたら、APIの請求額が一気に下がるよ
みんなが賢いモデルを追い求めてる間に、Inception Labsが画像生成技術を流用して推論コスト全体の方程式を完全に無効化しちゃった
ユーザーは瞬時の応答を期待してるのに、思考が遅いモデルに高い金払ってる — これが両方の問題を一気に解決する可能性がある
職種への影響分析
DevOpsエンジニア
役割変化毎秒11,000トークンってことは、LLMワークロードの現在のスケーリング前提がもう古い話になったってこと
Mercury 2をダウンロードして、本番環境のトラフィックパターンに対してストレステストを実行してみて — 耐えられたら、インフラコストが激減するぞ
プロダクトマネージャー
チャンス以前は遅すぎたり高すぎたりしたリアルタイムAI機能が、急に実現可能な選択肢になった
棚に仕舞ってた『AI搭載ライブチャット』とか『瞬時コンテンツ生成』機能を引っ張り出してこい — ロードマップを見直す時が来たぞ