紫金財經(jīng)5月14日消息 Open AI又放大招了!
繼文生視頻模型Sora之后,OpenAI再一次給外界帶來驚喜。這一次,OpenAI向世人展現(xiàn)了強大且絲滑的語音對話等多模態(tài)能力。
北京時間5月14日凌晨,OpenAI在一則簡短的視頻介紹中發(fā)布了新一代AI模型GPT-4o,并將推出PC桌面版ChatGPT。
這款“全能的”大模型GPT-4o具備處理文本、音頻和圖像的能力。與前幾代模型相比,它增加了語音功能,且運行速度更快。
“感覺就像電影里的人工智能。”發(fā)布會結(jié)束后,Open AI創(chuàng)始人在社交媒體X上發(fā)文稱,“對我來說,與電腦對話從來都不是一件很自然的事,而現(xiàn)在卻很自然。”
最新多模態(tài)模型來了
OpenAI官網(wǎng)介紹,GPT-4o中的o代表意為全能的前綴omni,稱它向更自然的人機交互邁進了一步,因為它接受文本、音頻和圖像的任意組合作為輸入內(nèi)容,并生成文本、音頻和圖像的任意組合輸出內(nèi)容。
現(xiàn)場演示中,GPT-4o的表現(xiàn)仿佛一個人正坐在旁邊,和人類的對話節(jié)奏自然、融洽,完全聽不出是個AI,在短短的時間內(nèi),GPT-4o就能對音頻輸入做出反應。并且,它可以將文本、音頻、圖像任何組合作為輸入和輸出。
Open AI創(chuàng)始人Altman表示:“GPT-4o是OpenAI有史以來最好的模型,它很聰明,速度很快,是天然的多模態(tài)?!?/p>
在GPT-4o之前,用戶使用語音模式與ChatGPT對話時,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒,與之相比,GPT-4o可以在232毫秒內(nèi)對音頻輸入作出反應,與人類在對話中的反應時間相近。
在錄播視頻中,兩位高管作出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,并且指導他進行深呼吸,還可以根據(jù)用戶要求變換語調(diào)。
性能方面,根據(jù)傳統(tǒng)基準測試,GPT-4o在文本、推理和編碼等方面實現(xiàn)了與GPT-4 Turbo級別相當?shù)男阅?,同時在多語言、音頻和視覺功能方面的表現(xiàn)分數(shù)也創(chuàng)下了新高。
桌面版ChatGPT來了
除了推出新模型,在產(chǎn)品上,OpenAI也作出了諸多更新。
不同于此前OpenAI在推出模型新版本都會對特定付費用戶開放的做法,本次GPT-4o的新功能將向所有用戶敞開大門,可以免費運用模型進行更為復雜的數(shù)據(jù)分析,對圖像進行深入的解析,訪問GPT Store應用商店。
發(fā)布會上,OpenAI首席技術(shù)官MiraMurati表示,ChatGPT-4o 將免費向所有用戶開放,而付費和企業(yè)用戶,可以搶先獲得體驗。
另外,此前僅對ChatGPT Plus會員開放的視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼等高級功能也將對外開放免費使用。一系列普惠舉措,無疑將吸引大批用戶涌入OpenAI平臺,嘗試豐富的AI體驗。
除了新模型的普惠舉措,OpenAI發(fā)布了ChatGPT的桌面版本。
用戶可以直接在電腦桌面上使用ChatGPT,并且Mac Plus用戶將優(yōu)先體驗到這一功能。據(jù)悉,用戶可以通過快捷鍵即刻向ChatGPT提問,或者直接在ChatGPT內(nèi)截屏提問。這種直接在桌面上使用的便捷性,無疑將使用戶體驗得到大幅提升。
ChatGPT自2022年11月推出以來,便打破了當時最快增長消費類應用的歷史記錄,如今每周活躍用戶已接近1億。OpenAI表示,超過92%的《財富》500強企業(yè)都在使用該平臺。
有趣的是,GPT-4o一經(jīng)推出,OpenAI的競爭對手似乎坐不住了。
谷歌很快在社交媒體X平臺上發(fā)布了一段預覽Gemini大模型功能的視頻。在視頻中,這一AI模型能夠通過攝像頭來描述畫面中發(fā)生的情況,并實時提供語音反饋,就像OpenAI最新展示的那樣。
據(jù)悉,谷歌將在北京時間周三凌晨一點舉辦年度I/O開發(fā)者大會,屆時,谷歌將發(fā)表主題演講,介紹公司在各個軟件領(lǐng)域的重大進展,預計人工智能(AI)將成為整個主題演講的重點。