OpenAI GPT-4o 模型登場,同時整合文字、語言和圖像的輸入輸出
OpenAI 在稍早發表了一款名為「GPT-4o」的全新 AI 模型。新模型可以接受包含文字、音訊和圖像的任意組合作為輸入,並可以生成所有這三種格式的輸出。這當中最大的進展自然是在語音的部份,除了能由輸入的語音中識別情緒外、它還允許你在說話的中途打斷它,並且在對話過程中可以有幾乎和像人類一樣迅速地的反應。OpenAI 表示,這向「更自然的人機互動」又邁進了一大步。
OpenAI 首席技術官 Mira Murati 在直播中說道:「GPT-4o 的特別之處在於它將 GPT-4 級別的 AI 帶給所有人,包括免費用戶。這是 OpenAI 首次在易用性方面取得重大進展。」在演示過程中,OpenAI 展示了 GPT-4o 可以即時進行英語和義大利語的互譯、幫助研究人員即時地解線性方程式,以及僅僅通過聆聽某位 OpenAI 高管的呼吸聲,就能為他提供深呼吸的指導等。
GPT-4o 中的「o」代表「全方位(omni)」,指的是該模型的可以同時處理多種輸入輸出模式的能力。OpenAI 表示,GPT-4o 在訓練的過程中就已經整合了文字、視覺和音訊,這意味著所有這些不同模式的輸入和輸出,都依然由同一個神經網絡處理。這與該公司之前的 GPT-3.5 或 GPT-4 不同,兩者雖然允許用戶通過說話提問,但其實背後是將將語音轉錄成文字,再將文字回應轉成語音。這種方式法除了讓互動變得緩慢外,也剝離了語氣和情緒,讓 AI 的回應顯得呆板、機械。
OpenAI 將在未來幾周內向所有人開放新模型,包括免費的 ChatGPT 用戶。該公司同時還將發表一個桌機版的 ChatGPT,但最初僅推出 Mac 版本,付費用戶可以從今天開始試用。
OpenAI 的發表會恰好發生在 Google I/O 的前一天,頗有點「先聲奪人」的意味。至於 Google 的 Gemini 要如何回應,應該明天就會有答案了。