往下拉回到首頁
天啊,有新 AI 模型一秒能處理 11,000 個字,比你想的快超多倍

天啊,有新 AI 模型一秒能處理 11,000 個字,比你想的快超多倍

DiffusionLLM - Inception Mercury 2 hits 11,000 tokens per second on NVIDIA H100 GPUs

欸你知道嗎,有間公司叫 Inception Labs 剛推出一個新的 AI 模型叫 Mercury 2,速度快到不行。簡單來說就是,它在高級 GPU 上一秒鐘可以處理 11,000 個字(token),這是什麼概念呢?就像是你現在用的 ChatGPT 要想一下才能回你,但這個新模型幾乎是瞬間秒回。 它用的技術叫「擴散模型」,這個名詞聽起來很複雜,但其實就是那個能畫圖的 AI 技術(像 DALL-E),現在被拿來處理文字。說真的有點扯,因為大家都以為這種技術只能用在圖片上。 為什麼這很重要呢?如果這個技術真的能用,那就代表:一、AI 回答你的問題會快到不行;二、公司用 AI 的成本會便宜很多;三、一些需要即時反應的應用(像是客服、翻譯)才有可能真的做出來。播客裡面有人詳細解釋為什麼這對真正要上線的 AI 產品這麼重要,有興趣的話可以聽一下。

白話點評

有人剛剛讓所有其他LLM看起來像在用撥接網路跑

Inception Labs昨天丟出Mercury 2,數字根本離譜——H100 GPU上每秒11,000個token。講白話,大多數正式環境的LLM才跑幾百個token而已,還要為了準確度犧牲速度,結果用戶就在那邊等到天邊。但這裡才是最扯的地方:Mercury 2用的是擴散模型(diffusion models),就是那個讓DALL-E能生成圖片的技術,只是現在被用來生成文字。根本就像有人在AI研究室裡走錯方向,結果意外解決了大家都在忽視的速度問題。如果這東西真的能在正式環境保持品質——我說的是真的『如果』——我們就要看到真正的即時AI對話、便宜到爆炸的API成本,還有那些原本『太慢沒辦法用』的AI功能全部起死回生。整個推論成本的遊戲規則直接被翻過來了。

結論現在就去下載Mercury 2,看看它會不會徹底改變你對『什麼是可能的』的理解——你下次的產品展示說不定就能驚豔全場。
8/10

Action

馬上試用
1從GitHub複製Mercury 2的程式碼庫
2安裝相依套件,根據你的GPU設定進行配置
3執行基準測試腳本,看看你的硬體能跑出多少token速度
Before

等著LLM花3到5秒才生成一段文字,使用者在那邊不耐煩,API成本還一直往上爬

After

秒速拿到AI回應,感覺就像在跟真人聊天,API成本低到根本合理,高流量應用也能負擔得起

AI 怎麼看

雲端運算與API

high
你可以做什麼

趕快拿你現在的token成本去跟這個每秒11K的基準線比一下——如果Mercury 2真的能在正式環境穩定運作,你的API帳單馬上要砍掉一大截

重點是什麼

大家都在追求更聰明的模型,結果Inception Labs直接從圖片生成技術借來靈感,把整個推論成本的遊戲規則改寫了

為什麼要在乎

你的客戶期待秒回,結果你卻在為那些反應龜速的模型付高價——這東西要是真的能用,兩個問題一次解決

這跟你的工作有關嗎

DevOps工程師

整個會變不一樣
為什麼會這樣

每秒11,000個token代表你現在對大型語言模型(LLM)工作負載的擴展假設全部過時了

你可以怎麼做

馬上下載Mercury 2,用你正式環境的流量去壓力測試——要是撐得住,你的基礎設施成本就要大幅下降

產品經理

好消息
為什麼會這樣

那些因為太貴或太慢而不敢做的即時AI功能,突然間變成可行的產品機會了

你可以怎麼做

把你之前擱置的『AI客服聊天』和『秒速內容生成』功能拿出來,現在是時候重新檢視產品路線圖了

相關標籤

diffusion LLMthroughput11000 tokens per secondGPU accelerationproduction-grade

這些詞是什麼意思

Diffusion Models(擴散模型)
就像是DALL-E背後的魔法,AI一點一點地把雜訊清掉來生成內容——Mercury 2是第一個把這招成功用在文字生成上的,而且還能大規模運作。
Tokens per Second(每秒標記數)
AI生成文字的速度,用詞塊來計算——Mercury 2的11,000大概是一般正式環境模型的50倍快。
Inference(推論)
AI模型在訓練完之後生成回應的過程——Mercury 2的速度突破在這裡才真正對使用者有意義。
H100 GPU(H100圖形處理器)
NVIDIA最新的AI工作負載怪獸晶片——Mercury 2就是靠這個硬體才能跑出那些瘋狂的每秒11K速度。