往下拉回到首頁
ChatGPT 升級怪物版本,現在可以同時聽、看、想

ChatGPT 升級怪物版本,現在可以同時聽、看、想

Hello GPT-4o

欸你知道嗎,OpenAI 剛推出一個新的 AI 叫 GPT-4 Omni,簡單來說就是它現在超強,可以同時處理聲音、圖片和文字,而且是即時的。想像一下,你跟它說話,它不只聽得懂你的聲音,還能看你的照片,然後馬上給你答案,不用等待。這就像是之前的 ChatGPT 只會讀文字,現在變成五感全開的版本,說真的有點扯。如果你常用 AI 來工作或學習,這個更新可能會改變你的使用體驗,值得看看它到底強在哪裡。

白話點評

OpenAI 直接殺死聊天機器人了。GPT-4o 會說話、會看東西、思考方式跟人類一樣。

OpenAI 今天放出 GPT-4 Omni,這根本不只是語言模型的升級而已——這是第一個真的感覺像在跟人聊天的 AI。這東西可以同時即時處理音訊、視覺和文字,代表你再也不用像個數位石器人一樣把想法打進聊天框裡。你可以邊跟它聊天邊給它看照片,它馬上就會回應,那種上下文理解能力強到你會忘記自己在跟機器講話。示範影片裡面有人打斷它的話、要求它分析攝影機看到的東西,然後它的回應自然到就像在跟你最聰明的朋友聊天一樣。最扯的是這不是什麼實驗室裡的玩意兒——從今天開始就要推給 ChatGPT 用戶了。真正能對話的 AI 時代正式開始,其他那些語音助手瞬間變得像老掉牙的電子發音機。

結論別再看這篇了,直接衝到 chat.openai.com 去試試——人類跟電腦互動的未來已經在你的瀏覽器裡了。
9/10

Action

馬上試用
https://chat.openai.com
FreemiumWebiOSAndroid
1進去 chat.openai.com 開一個新對話
2點語音按鈕,試試自然對話
3邊聊天邊分享螢幕或上傳圖片,測試多模態功能
Before

把問題打進聊天機器人、等文字回應、然後尷尬地讀出 AI 生成的語音

After

跟 AI 進行自然對話,它能看到你看的東西,回應速度跟人類朋友一樣快

AI 怎麼看

客服中心

high
你可以做什麼

現在就開始規劃你的語音優先客服策略吧——GPT-4o 的即時音訊處理會在幾個月內讓那些煩人的語音選單系統徹底消失

重點是什麼

這不只是更聰明的聊天機器人而已——GPT-4o 可以直接看到你的螢幕、聽出你的挫折感,然後立刻回應,完全沒有那種尷尬的文字轉語音延遲

為什麼要在乎

你的客戶會開始期待每個地方都有這種無縫的互動體驗,而最先導入的公司就會掌握整個客服市場

教育科技

high
你可以做什麼

馬上開始打造多模態家教體驗的原型——第一個把即時語音加視覺學習整合好的教育科技公司,會直接吃下整個市場

重點是什麼

GPT-4o 可以看著學生在紙上解數學題,同時聽他們講解思路,然後立刻針對他們的計算和邏輯思考給出回饋

為什麼要在乎

每個家長都會要求自己的小孩用這個,傳統家教瞬間變得跟百科全書一樣過時

這跟你的工作有關嗎

語音介面設計師

整個會變不一樣
為什麼會這樣

GPT-4o 的即時音訊處理讓喚醒詞、指令結構,還有那些我們忍受多年的笨重語音互動全部變成多餘的東西

你可以怎麼做

現在就開始學對話式 AI 的設計邏輯吧——未來是自然對話,不是那種機械式的語音指令

技術支援專員

整個會變不一樣
為什麼會這樣

當 AI 可以看到你的螢幕、聽懂你的問題、馬上用完美的上下文回應時,整個客服產業會重新洗牌,變成以人類同理心為主而不是技術排除法

你可以怎麼做

趕快轉向複雜問題解決和情感智能的技能吧——那些例行公事的工作馬上就要消失了

內容創作者

好消息
為什麼會這樣

GPT-4o 可以處理你粗糙的影片素材、理解你的旁白,然後在你還在錄製的時候即時幫你剪輯

你可以怎麼做

在你下一個企劃裡試試看跟 AI 即時協作——你的創意工作流程要升級了

相關標籤

GPT-4 Omniaudiovisiontextreal-timeflagship model

這些詞是什麼意思

Multimodal AI(多模態人工智慧)
AI 可以同時處理多種輸入類型——就像 GPT-4o 能同時理解你的聲音、看到你的螢幕、讀懂文字,而不是像舊系統那樣一次只能處理一種。
Real-time Processing(即時處理)
可以立刻分析和回應輸入,完全沒有明顯延遲——這就是為什麼 GPT-4o 聊天起來自然到不行,而不是像傳統語音助手那樣有那種尷尬的停頓。
Omni(全能)
「無所不在」的縮寫——OpenAI 用來說這個模型什麼都能做,所以 GPT-4o 可以無縫切換聽、看、說,完全不會漏掉任何東西。