
ChatGPT 升級怪物版本,現在可以同時聽、看、想
欸你知道嗎,OpenAI 剛推出一個新的 AI 叫 GPT-4 Omni,簡單來說就是它現在超強,可以同時處理聲音、圖片和文字,而且是即時的。想像一下,你跟它說話,它不只聽得懂你的聲音,還能看你的照片,然後馬上給你答案,不用等待。這就像是之前的 ChatGPT 只會讀文字,現在變成五感全開的版本,說真的有點扯。如果你常用 AI 來工作或學習,這個更新可能會改變你的使用體驗,值得看看它到底強在哪裡。
This isn't just better chatbots — GPT-4o can literally see your screen, hear your frustration, and respond instantly without the awkward text-to-speech delays


白話點評
有人剛剛讓所有其他LLM看起來像在用撥接網路跑
Inception Labs昨天丟出Mercury 2,數字根本離譜——H100 GPU上每秒11,000個token。講白話,大多數正式環境的LLM才跑幾百個token而已,還要為了準確度犧牲速度,結果用戶就在那邊等到天邊。但這裡才是最扯的地方:Mercury 2用的是擴散模型(diffusion models),就是那個讓DALL-E能生成圖片的技術,只是現在被用來生成文字。根本就像有人在AI研究室裡走錯方向,結果意外解決了大家都在忽視的速度問題。如果這東西真的能在正式環境保持品質——我說的是真的『如果』——我們就要看到真正的即時AI對話、便宜到爆炸的API成本,還有那些原本『太慢沒辦法用』的AI功能全部起死回生。整個推論成本的遊戲規則直接被翻過來了。
Action
馬上試用等著LLM花3到5秒才生成一段文字,使用者在那邊不耐煩,API成本還一直往上爬
秒速拿到AI回應,感覺就像在跟真人聊天,API成本低到根本合理,高流量應用也能負擔得起
AI 怎麼看
雲端運算與API
high趕快拿你現在的token成本去跟這個每秒11K的基準線比一下——如果Mercury 2真的能在正式環境穩定運作,你的API帳單馬上要砍掉一大截
大家都在追求更聰明的模型,結果Inception Labs直接從圖片生成技術借來靈感,把整個推論成本的遊戲規則改寫了
你的客戶期待秒回,結果你卻在為那些反應龜速的模型付高價——這東西要是真的能用,兩個問題一次解決
這跟你的工作有關嗎
DevOps工程師
整個會變不一樣每秒11,000個token代表你現在對大型語言模型(LLM)工作負載的擴展假設全部過時了
馬上下載Mercury 2,用你正式環境的流量去壓力測試——要是撐得住,你的基礎設施成本就要大幅下降
產品經理
好消息那些因為太貴或太慢而不敢做的即時AI功能,突然間變成可行的產品機會了
把你之前擱置的『AI客服聊天』和『秒速內容生成』功能拿出來,現在是時候重新檢視產品路線圖了