OpenAI發(fā)布新模型GPT-4o：絲滑如真人，免費開放使用

2024-05-14 來源：紫金財經(jīng) 分類：科技評論(0)

紫金財經(jīng)5月14日消息 Open AI又放大招了！

繼文生視頻模型Sora之后，OpenAI再一次給外界帶來驚喜。這一次，OpenAI向世人展現(xiàn)了強大且絲滑的語音對話等多模態(tài)能力。

北京時間5月14日凌晨，OpenAI在一則簡短的視頻介紹中發(fā)布了新一代AI模型GPT-4o，并將推出PC桌面版ChatGPT。

這款“全能的”大模型GPT-4o具備處理文本、音頻和圖像的能力。與前幾代模型相比，它增加了語音功能，且運行速度更快。

“感覺就像電影里的人工智能。”發(fā)布會結(jié)束后，Open AI創(chuàng)始人在社交媒體X上發(fā)文稱，“對我來說，與電腦對話從來都不是一件很自然的事，而現(xiàn)在卻很自然。”

最新多模態(tài)模型來了

OpenAI官網(wǎng)介紹，GPT-4o中的o代表意為全能的前綴omni，稱它向更自然的人機交互邁進了一步，因為它接受文本、音頻和圖像的任意組合作為輸入內(nèi)容，并生成文本、音頻和圖像的任意組合輸出內(nèi)容。

現(xiàn)場演示中，GPT-4o的表現(xiàn)仿佛一個人正坐在旁邊，和人類的對話節(jié)奏自然、融洽，完全聽不出是個AI，在短短的時間內(nèi)，GPT-4o就能對音頻輸入做出反應。并且，它可以將文本、音頻、圖像任何組合作為輸入和輸出。

Open AI創(chuàng)始人Altman表示：“GPT-4o是OpenAI有史以來最好的模型，它很聰明，速度很快，是天然的多模態(tài)?！?/p>

在GPT-4o之前，用戶使用語音模式與ChatGPT對話時，GPT-3.5的平均延遲為2.8秒，GPT-4為5.4秒，與之相比，GPT-4o可以在232毫秒內(nèi)對音頻輸入作出反應，與人類在對話中的反應時間相近。

在錄播視頻中，兩位高管作出了演示：機器人能夠從急促的喘氣聲中理解“緊張”的含義，并且指導他進行深呼吸，還可以根據(jù)用戶要求變換語調(diào)。

性能方面，根據(jù)傳統(tǒng)基準測試，GPT-4o在文本、推理和編碼等方面實現(xiàn)了與GPT-4 Turbo級別相當?shù)男阅?，同時在多語言、音頻和視覺功能方面的表現(xiàn)分數(shù)也創(chuàng)下了新高。

桌面版ChatGPT來了

除了推出新模型，在產(chǎn)品上，OpenAI也作出了諸多更新。

不同于此前OpenAI在推出模型新版本都會對特定付費用戶開放的做法，本次GPT-4o的新功能將向所有用戶敞開大門，可以免費運用模型進行更為復雜的數(shù)據(jù)分析，對圖像進行深入的解析，訪問GPT Store應用商店。

發(fā)布會上，OpenAI首席技術(shù)官MiraMurati表示，ChatGPT-4o 將免費向所有用戶開放，而付費和企業(yè)用戶，可以搶先獲得體驗。

另外，此前僅對ChatGPT Plus會員開放的視覺、聯(lián)網(wǎng)、記憶、執(zhí)行代碼等高級功能也將對外開放免費使用。一系列普惠舉措，無疑將吸引大批用戶涌入OpenAI平臺，嘗試豐富的AI體驗。

除了新模型的普惠舉措，OpenAI發(fā)布了ChatGPT的桌面版本。

用戶可以直接在電腦桌面上使用ChatGPT，并且Mac Plus用戶將優(yōu)先體驗到這一功能。據(jù)悉，用戶可以通過快捷鍵即刻向ChatGPT提問，或者直接在ChatGPT內(nèi)截屏提問。這種直接在桌面上使用的便捷性，無疑將使用戶體驗得到大幅提升。

ChatGPT自2022年11月推出以來，便打破了當時最快增長消費類應用的歷史記錄，如今每周活躍用戶已接近1億。OpenAI表示，超過92%的《財富》500強企業(yè)都在使用該平臺。

有趣的是，GPT-4o一經(jīng)推出，OpenAI的競爭對手似乎坐不住了。

谷歌很快在社交媒體X平臺上發(fā)布了一段預覽Gemini大模型功能的視頻。在視頻中，這一AI模型能夠通過攝像頭來描述畫面中發(fā)生的情況，并實時提供語音反饋，就像OpenAI最新展示的那樣。

據(jù)悉，谷歌將在北京時間周三凌晨一點舉辦年度I/O開發(fā)者大會，屆時，谷歌將發(fā)表主題演講，介紹公司在各個軟件領(lǐng)域的重大進展，預計人工智能(AI)將成為整個主題演講的重點。

捆绑调教sm免费专区,综合激情五月综合激情五月激情1,在线看片免费人成视频播,亚洲国产福利成人一区二区,亚洲一区二区三区四区五区六区