往下拉回到首頁
GPT-4o 來了

GPT-4o 來了

Hello GPT-4o

我們推出 GPT-4 Omni,這是我們全新的旗艦模型,能夠即時跨越音訊、視覺和文字進行推理。

科技博主觀點

OpenAI 剛剛殺死了聊天機器人。GPT-4o 會說話、會看、會像人類一樣思考。

OpenAI 今天丟出 GPT-4 Omni,這不只是另一個語言模型升級——這是第一個真的感覺像在跟人說話的 AI。這東西可以同時即時處理音訊、視覺和文字,意思是你再也不用像個數位石器時代人類一樣把想法打進聊天框裡。你可以邊跟它對話邊給它看照片,它會立刻回應,那種上下文理解能力讓你根本忘記自己在跟機器說話。示範影片裡的人打斷它的話、要求它分析透過相機看到的東西,然後得到自然流暢的回應,就像在跟你最聰明的朋友聊天一樣。最扯的是這不是什麼實驗室裡的玩意兒——它從今天開始就要推給 ChatGPT 用戶了。真正的對話式 AI 時代開始了,其他所有語音助手現在聽起來都像古董玩具。

結論別再看這篇文章了,直接去 chat.openai.com——人類和電腦互動的未來剛剛降臨在你的瀏覽器裡。
9/10

Action

馬上試用
https://chat.openai.com
FreemiumWebiOSAndroid
1去 chat.openai.com 開始新對話
2點擊語音按鈕,試試看自然對話
3邊說話邊分享螢幕或上傳圖片,測試多模態功能
Before

把問題打進聊天機器人、等待文字回應、然後尷尬地大聲讀出 AI 生成的語音

After

跟可以看到你看到的東西、回應速度跟人類朋友一樣快的 AI 進行自然對話

AI 分析

客戶服務

high
應採取行動

現在就開始規劃你的語音優先客服策略吧——GPT-4o 的即時音訊處理會在幾個月內讓語音選單徹底過時

關鍵洞察

這不只是更好的聊天機器人——GPT-4o 可以直接看到你的螢幕、聽出你的挫折感,然後立刻回應,完全沒有那種尷尬的文字轉語音延遲

為什麼重要

你的客戶會期望在每個地方都有這種無縫互動體驗,而最先部署這個技術的公司會完全掌控整個對話

教育科技

high
應採取行動

馬上開始製作多模態家教體驗的原型——第一個搞定即時音訊加視覺學習的 EdTech 公司會吃下整個市場

關鍵洞察

GPT-4o 可以看著學生在紙上解數學題,同時聽他們大聲說出思考過程,然後立刻針對他們的作業和推理邏輯提供即時回饋

為什麼重要

每個家長都會為他們的小孩要求這個功能,傳統家教現在就跟百科全書一樣過時了

職位影響分析

語音使用者介面設計師

角色轉型
影響成因

GPT-4o 的即時音訊處理讓喚醒詞、指令結構和那些我們忍受多年的笨拙語音互動全部消失

應對策略

現在就學習對話式 AI 設計模式——未來是自然對話,不是語音指令

技術支援專員

角色轉型
影響成因

當 AI 可以看到你的螢幕、聽懂你的問題,然後用完美的上下文立刻回應時,整個支援產業會重新圍繞人類同理心而不是技術排除法來重組

應對策略

轉向複雜問題解決和情感智慧技能——那些例行工作馬上就要消失

內容創作者

機會
影響成因

GPT-4o 可以處理你粗糙的影片素材、理解你的旁白,然後在你還在錄製時即時幫你編輯

應對策略

在你的下一個專案中試試看即時 AI 協作——創意工作流程剛剛升級了

關鍵字

GPT-4 Omniaudiovisiontextreal-timeflagship model

名詞解釋

Multimodal AI(多模態人工智慧)
可以同時處理多種輸入類型的 AI——像 GPT-4o 一樣同時理解你的聲音、看到你的螢幕、讀取文字,而不是像舊系統那樣分開處理每一種
Real-time Processing(即時處理)
可以立刻分析和回應輸入,沒有明顯延遲的能力——這就是讓 GPT-4o 感覺像自然對話,而不是我們習慣的語音助手那種尷尬停頓的原因
Omni(全能)
"無所不在"的縮寫——OpenAI 用來說這個模型可以一次搞定所有事情,所以 GPT-4o 可以無縫切換聆聽、觀看和說話,完全不會漏掉任何東西