
GPT-4o 來了
我們推出 GPT-4 Omni,這是我們全新的旗艦模型,能夠即時跨越音訊、視覺和文字進行推理。
這不只是更好的聊天機器人——GPT-4o 可以直接看到你的螢幕、聽出你的挫折感,然後立刻回應,完全沒有那種尷尬的文字轉語音延遲

Inception Labs 推出了 Mercury 2,一個基於擴散模型(diffusion model)的語言模型,在 H100 GPU 上的處理速度快到不行——每秒 11,000 個 token。這很厲害,因為大多數大型語言模型(LLM)還在追求準確度,而不是純粹的吞吐量。這個方法用的是擴散模型技術(就是 DALL-E 那種圖片生成用的技術),但應用在文字生成上,可能會徹底改變我們對推理速度的想法。如果這個技術能夠擴展,就代表回應更快、API 成本更便宜,還有以前不可能做到的即時應用。建議聽一下播客連結,了解技術細節和為什麼這對實際部署很重要。
科技博主觀點
有人剛剛讓其他所有LLM看起來像在用撥接網路跑
Inception Labs昨天丟出Mercury 2,數字根本離譜——H100 GPU上跑11,000個token每秒。講白一點,大多數正式環境的LLM都在以每秒幾百個token的速度爬行,為了追求準確度結果用戶在那邊狂敲桌子等回應。但這裡才是最扯的地方:Mercury 2用的是擴散模型(diffusion models),就是那種驅動DALL-E圖像生成的技術,只是現在被用來生成文字。根本像是有人在AI研究室走錯方向,結果意外解決了大家都在忽視的速度問題。如果這東西真的能在正式環境保持品質——我說的是『如果』啦——我們就要看到真正的即時AI對話、便宜到不行的API成本,還有那些原本『太慢沒辦法上線』的AI功能全部起死回生。整個推論成本的遊戲規則直接被翻轉了。
Action
馬上試用等LLM花3到5秒才生成一段文字,用戶在那邊不耐煩,API成本還在那邊狂飆
秒速得到AI回應,感覺就像在跟真人聊天,API成本終於變成合理的數字,就算是大量應用也吃得消
AI 分析
雲端運算與API
high趕快檢查一下你現在的token成本,拿來跟這個11K/秒的基準線比較——如果Mercury 2真的能在正式環境穩定運作,你的API帳單馬上要砍掉一大截
大家都在追求更聰明的模型,結果Inception Labs直接從圖像生成技術借來靈感,把整個推論成本的遊戲規則改寫了
你的客戶期待秒速回應,結果你卻在為那些反應龜速的模型付高價——這東西要是真的能用,兩個問題一次解決
職位影響分析
DevOps工程師
角色轉型11,000個token每秒代表你現在對LLM工作負載的擴展假設全部過時了
馬上下載Mercury 2,拿你的正式環境流量來壓力測試——如果撐得住,你的基礎設施成本馬上要大幅下降
產品經理
機會那些原本因為太貴或太慢而不敢做的即時AI功能,突然間變成可行的產品機會
把那些被你塵封的『AI客服對話』和『即時內容生成』功能拿出來,是時候重新檢視產品藍圖了