往下拉回到首頁
DiffusionLLM - Inception Mercury 2 在 NVIDIA H100 GPU 上達到每秒 11,000 個 token

DiffusionLLM - Inception Mercury 2 在 NVIDIA H100 GPU 上達到每秒 11,000 個 token

DiffusionLLM - Inception Mercury 2 hits 11,000 tokens per second on NVIDIA H100 GPUs

Inception Labs 推出了 Mercury 2,一個基於擴散模型(diffusion model)的語言模型,在 H100 GPU 上的處理速度快到不行——每秒 11,000 個 token。這很厲害,因為大多數大型語言模型(LLM)還在追求準確度,而不是純粹的吞吐量。這個方法用的是擴散模型技術(就是 DALL-E 那種圖片生成用的技術),但應用在文字生成上,可能會徹底改變我們對推理速度的想法。如果這個技術能夠擴展,就代表回應更快、API 成本更便宜,還有以前不可能做到的即時應用。建議聽一下播客連結,了解技術細節和為什麼這對實際部署很重要。

科技博主觀點

有人剛剛讓其他所有LLM看起來像在用撥接網路跑

Inception Labs昨天丟出Mercury 2,數字根本離譜——H100 GPU上跑11,000個token每秒。講白一點,大多數正式環境的LLM都在以每秒幾百個token的速度爬行,為了追求準確度結果用戶在那邊狂敲桌子等回應。但這裡才是最扯的地方:Mercury 2用的是擴散模型(diffusion models),就是那種驅動DALL-E圖像生成的技術,只是現在被用來生成文字。根本像是有人在AI研究室走錯方向,結果意外解決了大家都在忽視的速度問題。如果這東西真的能在正式環境保持品質——我說的是『如果』啦——我們就要看到真正的即時AI對話、便宜到不行的API成本,還有那些原本『太慢沒辦法上線』的AI功能全部起死回生。整個推論成本的遊戲規則直接被翻轉了。

結論現在就下載Mercury 2,看看它會不會打破你對『什麼是可能的』的認知——你下一次的產品展示說不定就能驚豔全場。
8/10

Action

馬上試用
1從GitHub複製Mercury 2的repository
2安裝相依套件,根據你的GPU設定進行配置
3執行benchmark腳本,測試你硬體上的token輸出速度
Before

等LLM花3到5秒才生成一段文字,用戶在那邊不耐煩,API成本還在那邊狂飆

After

秒速得到AI回應,感覺就像在跟真人聊天,API成本終於變成合理的數字,就算是大量應用也吃得消

AI 分析

雲端運算與API

high
應採取行動

趕快檢查一下你現在的token成本,拿來跟這個11K/秒的基準線比較——如果Mercury 2真的能在正式環境穩定運作,你的API帳單馬上要砍掉一大截

關鍵洞察

大家都在追求更聰明的模型,結果Inception Labs直接從圖像生成技術借來靈感,把整個推論成本的遊戲規則改寫了

為什麼重要

你的客戶期待秒速回應,結果你卻在為那些反應龜速的模型付高價——這東西要是真的能用,兩個問題一次解決

職位影響分析

DevOps工程師

角色轉型
影響成因

11,000個token每秒代表你現在對LLM工作負載的擴展假設全部過時了

應對策略

馬上下載Mercury 2,拿你的正式環境流量來壓力測試——如果撐得住,你的基礎設施成本馬上要大幅下降

產品經理

機會
影響成因

那些原本因為太貴或太慢而不敢做的即時AI功能,突然間變成可行的產品機會

應對策略

把那些被你塵封的『AI客服對話』和『即時內容生成』功能拿出來,是時候重新檢視產品藍圖了

關鍵字

diffusion LLMthroughput11000 tokens per secondGPU accelerationproduction-grade

名詞解釋

Diffusion Models(擴散模型)
DALL-E這類圖像生成器背後的AI技術,透過逐步移除雜訊來創造內容——Mercury 2是第一個成功把這招用在文字生成並大規模運作的。
Tokens per Second(每秒標記數)
AI模型生成文字的速度,用字詞片段來計算——Mercury 2的11,000大約是一般正式環境模型的50倍快。
Inference(推論)
AI模型在訓練完成後生成回應的過程——Mercury 2的速度突破在這裡才真正對真實用戶有意義。
H100 GPU(H100圖形處理器)
NVIDIA最新的AI工作負載怪獸晶片——Mercury 2就是靠這個硬體才能跑出那些瘋狂的11K token速度。