releasesreddit2026年4月20日下午11:38

DiffusionLLM - Inception Mercury 2 在 NVIDIA H100 GPU 上達到每秒 11,000 個 token

DiffusionLLM - Inception Mercury 2 hits 11,000 tokens per second on NVIDIA H100 GPUs

Inception Labs 推出了 Mercury 2，一個基於擴散模型（diffusion model）的語言模型，在 H100 GPU 上的處理速度快到不行——每秒 11,000 個 token。這很厲害，因為大多數大型語言模型（LLM）還在追求準確度，而不是純粹的吞吐量。這個方法用的是擴散模型技術（就是 DALL-E 那種圖片生成用的技術），但應用在文字生成上，可能會徹底改變我們對推理速度的想法。如果這個技術能夠擴展，就代表回應更快、API 成本更便宜，還有以前不可能做到的即時應用。建議聽一下播客連結，了解技術細節和為什麼這對實際部署很重要。

科技博主觀點

有人剛剛讓其他所有LLM看起來像在用撥接網路跑

Inception Labs昨天丟出Mercury 2，數字根本離譜——H100 GPU上跑11,000個token每秒。講白一點，大多數正式環境的LLM都在以每秒幾百個token的速度爬行，為了追求準確度結果用戶在那邊狂敲桌子等回應。但這裡才是最扯的地方：Mercury 2用的是擴散模型（diffusion models），就是那種驅動DALL-E圖像生成的技術，只是現在被用來生成文字。根本像是有人在AI研究室走錯方向，結果意外解決了大家都在忽視的速度問題。如果這東西真的能在正式環境保持品質——我說的是『如果』啦——我們就要看到真正的即時AI對話、便宜到不行的API成本，還有那些原本『太慢沒辦法上線』的AI功能全部起死回生。整個推論成本的遊戲規則直接被翻轉了。

結論現在就下載Mercury 2，看看它會不會打破你對『什麼是可能的』的認知——你下一次的產品展示說不定就能驚豔全場。

8/10

Action

馬上試用

https://github.com/inception-labs/mercury-2

Open SourceCLIAPICUDA

1從GitHub複製Mercury 2的repository

2安裝相依套件，根據你的GPU設定進行配置

3執行benchmark腳本，測試你硬體上的token輸出速度

Before

等LLM花3到5秒才生成一段文字，用戶在那邊不耐煩，API成本還在那邊狂飆

After

秒速得到AI回應，感覺就像在跟真人聊天，API成本終於變成合理的數字，就算是大量應用也吃得消

AI 分析

雲端運算與API

high

應採取行動

趕快檢查一下你現在的token成本，拿來跟這個11K/秒的基準線比較——如果Mercury 2真的能在正式環境穩定運作，你的API帳單馬上要砍掉一大截

關鍵洞察

大家都在追求更聰明的模型，結果Inception Labs直接從圖像生成技術借來靈感，把整個推論成本的遊戲規則改寫了

為什麼重要

你的客戶期待秒速回應，結果你卻在為那些反應龜速的模型付高價——這東西要是真的能用，兩個問題一次解決

職位影響分析

DevOps工程師

角色轉型

影響成因

11,000個token每秒代表你現在對LLM工作負載的擴展假設全部過時了

應對策略

馬上下載Mercury 2，拿你的正式環境流量來壓力測試——如果撐得住，你的基礎設施成本馬上要大幅下降

產品經理

機會

影響成因

那些原本因為太貴或太慢而不敢做的即時AI功能，突然間變成可行的產品機會

應對策略

把那些被你塵封的『AI客服對話』和『即時內容生成』功能拿出來，是時候重新檢視產品藍圖了

閱讀原文 →

關鍵字

diffusion LLMthroughput11000 tokens per secondGPU accelerationproduction-grade

名詞解釋

Diffusion Models（擴散模型）: DALL-E這類圖像生成器背後的AI技術，透過逐步移除雜訊來創造內容——Mercury 2是第一個成功把這招用在文字生成並大規模運作的。
Tokens per Second（每秒標記數）: AI模型生成文字的速度，用字詞片段來計算——Mercury 2的11,000大約是一般正式環境模型的50倍快。
Inference（推論）: AI模型在訓練完成後生成回應的過程——Mercury 2的速度突破在這裡才真正對真實用戶有意義。
H100 GPU（H100圖形處理器）: NVIDIA最新的AI工作負載怪獸晶片——Mercury 2就是靠這個硬體才能跑出那些瘋狂的11K token速度。

科技博主觀點

有人剛剛讓其他所有LLM看起來像在用撥接網路跑

Action

AI 分析

雲端運算與API

職位影響分析

DevOps工程師

產品經理

關鍵字

名詞解釋

相關報導

GPT-4o 來了

Anthropic長約鎖定AWS 5GW算力，Amazon加碼投資最高250億

OpenAI 砸 1,220 億美元擴張，要把 AI 帶進每個企業

企業 AI 的下一個階段來了，OpenAI 準備讓你的公司全面 AI 化