releasesreddit2026年4月20日 23:38

DiffusionLLM - Inception Mercury 2、NVIDIA H100 GPUで毎秒11,000トークンを達成

DiffusionLLM - Inception Mercury 2 hits 11,000 tokens per second on NVIDIA H100 GPUs

Inception Labs が Mercury 2 をリリースしました。これは拡散モデル（diffusion model）ベースの言語モデルで、H100 GPU 上で毎秒 11,000 トークンという驚異的な速度で処理できます。ほとんどの大規模言語モデル（LLM）はまだ精度を優先しているのに対し、このアプローチは純粋なスループットを追求しています。拡散モデル技術（DALL-E のような画像生成に使われる技術）をテキスト生成に応用したもので、推論速度に対する考え方を根本的に変える可能性があります。これが実用化されれば、レスポンスが高速化し、API コストが削減され、これまで実現不可能だったリアルタイムアプリケーションが可能になります。ポッドキャストで技術詳細と本番環境での重要性について詳しく解説されています。

テックブロガーの見解

誰かが他のすべてのLLMをダイアルアップ時代の遺物に見せちゃった

Inception LabsがMercury 2を昨日リリースしたんだけど、数字がマジで狂ってる — H100 GPUで毎秒11,000トークン。比較対象として、ほとんどの本番LLMは毎秒数百トークンで這ってるレベル。精度を優先してるから、ユーザーは指をくわえて待ってる。でもここからが面白い — Mercury 2は拡散モデル（diffusion models）を使ってる。DALL-Eの画像生成と同じ技術なんだけど、テキストに応用してる。誰かがAI研究所で曲がり角を曲がり間違えて、他の誰もが無視してた速度問題を偶然解決しちゃった感じ。本番クオリティで実際に動いたら — これはまだ大きな『if』だけど — リアルタイムAI会話、激安APIコスト、そして『本番環境には遅すぎる』と思ってたAI機能が全部実現可能になる。推論コスト全体の方程式が完全にひっくり返った。

評決今すぐMercury 2をダウンロードして、これが何を可能にするのか自分の目で確かめてみて — 次のプロダクトデモが全員の度肝を抜くかもしれないぞ

8/10

Action

馬上試用

https://github.com/inception-labs/mercury-2

Open SourceCLIAPICUDA

1GitHubからMercury 2リポジトリをクローン

2依存関係をインストールしてGPUセットアップ用に設定

3ベンチマークスクリプトを実行して、自分のハードウェアでトークンスループットをテスト

Before

LLMが段落を生成するのに3～5秒待ってる間、ユーザーはイライラしてAPIコストは積み上がる

After

人間と話してるみたいな瞬時のAI応答が返ってきて、大量トラフィック対応のAPIコストが実際に合理的になる

AI分析

クラウドコンピューティング＆API

high

取るべきアクション

今すぐ現在のトークンコストをこの11K/秒のベースラインと比較してみて — Mercury 2が本番環境のクオリティで実現できたら、APIの請求額が一気に下がるよ

重要な洞察

みんなが賢いモデルを追い求めてる間に、Inception Labsが画像生成技術を流用して推論コスト全体の方程式を完全に無効化しちゃった

なぜ重要か

ユーザーは瞬時の応答を期待してるのに、思考が遅いモデルに高い金払ってる — これが両方の問題を一気に解決する可能性がある

職種への影響分析

DevOpsエンジニア

役割変化

影響の原因

毎秒11,000トークンってことは、LLMワークロードの現在のスケーリング前提がもう古い話になったってこと

対応戦略

Mercury 2をダウンロードして、本番環境のトラフィックパターンに対してストレステストを実行してみて — 耐えられたら、インフラコストが激減するぞ

プロダクトマネージャー

チャンス

影響の原因

以前は遅すぎたり高すぎたりしたリアルタイムAI機能が、急に実現可能な選択肢になった

対応戦略

棚に仕舞ってた『AI搭載ライブチャット』とか『瞬時コンテンツ生成』機能を引っ張り出してこい — ロードマップを見直す時が来たぞ

元記事を読む →

キーワード

diffusion LLMthroughput11000 tokens per secondGPU accelerationproduction-grade

用語解説

Diffusion Models（擴散模型）: DALL-Eみたいな画像生成AIの背後にある技術で、ノイズを段階的に除去してコンテンツを作成する — Mercury 2は初めてこれをテキスト生成に大規模に応用した
Tokens per Second（每秒標記數）: AIモデルがテキストを生成する速さで、単語の断片で測定される — Mercury 2の11,000は一般的な本番モデルの約50倍速い
Inference（推論）: AIモデルが学習後に応答を生成するプロセス — Mercury 2の速度ブレークスルーが実際のユーザーに影響を与える場所
H100 GPU（H100圖形處理器）: NVIDIAの最新AI処理用パワーチップ — Mercury 2があの狂った11Kトークン速度を達成するのに使ったハードウェア

リリース既読795d

GPT-4o がやってきた

新しいフラッグシップモデル「GPT-4 Omni」を発表します。このモデルは、音声、画像、テキストをリアルタイムで統合して推論できます。

これは単なるチャットボットの改善ではなく、GPT-4oは文字通りあなたの画面を見て、あなたのイライラを聞いて、テキスト音声変換の気まずい遅延なしに即座に応答できます

RSS

リリース既読87d

AnthropicがAWSの5GW計算能力を確保、Amazonが最大250億ドルの投資を追加

Anthropicは月曜日（4/20）、Amazonとの新しい長期パートナーシップ契約を発表しました。今後10年間でAWSの計算能力に1000億ドル以上を投資し、Claudeモデルの訓練と展開用に最大5GWの計算容量を確保します。両社は資本提携も拡大し、Amazonは当初50億ドルを投資し、ビジネスマイルストーンに基づいて最大200億ドルを追加投資する予定です。

5GWは小さな都市を動かすのに十分な電力で、Anthropicがそれを10年間ロックした — これは希少性経済学の実例だ

RSS

リリース既読107d

OpenAIが1,220億ドル調達、AI時代の次のステージへ

OpenAIが過去最大級の1,220億ドルの資金調達を発表しました。この資金は次世代の高性能チップ購入、グローバル展開、そしてChatGPT、Codex、エンタープライズAIの急増する需要に対応するために使われます。要するに、OpenAIは超高性能なコンピュータに大投資して、AIを誰もが使える技術にしようとしているわけです。

この1220億ドルはChatGPTだけじゃない — OpenAIが丸ごとソフトウェアカテゴリーをAI-ファーストソリューションで置き換えられると賭けてるんだ

RSS

リリース既読99d

企業向けAIの次のステージ、OpenAIが本格展開へ

OpenAIが企業向けAIの次のフェーズを発表しました。Frontier、ChatGPT Enterprise、Codex、そして企業全体で使えるAIエージェント（AI代理人）といった新しいツールが登場します。金融から製造業、小売まで、様々な業界でAI導入が加速しているんです。つまり、OpenAIは単に新製品を出すのではなく、企業全体がAIを使いこなすための基盤を整えようとしているわけです。これまでAIは特定の部門だけの話でしたが、これからは会社全体で当たり前に使われるようになるということ。あなたの仕事のやり方も変わるかもしれません。

OpenAIは企業全体のAIエージェントを、単なるカスタマーサービス用チャットボットではなく、新しい標準として位置付けています

RSS