(本文首發(fā)于《紫金商業(yè)評論》,授權(quán)紫金財經(jīng)發(fā)布,轉(zhuǎn)載請注明來源)
谷歌的全新“大殺器”Gemini終于來了!
當(dāng)?shù)貢r間12月6日,谷歌宣布推出人工智能模型Gemini,谷歌方面表示,這是其迄今為止功能最強大、最通用的大語言模型。
按照谷歌的說法,它可以像人類一樣理解我們周圍的世界,處理代碼、文字、音頻、圖像和視頻等,通通不在話下。此外,它還可以完成復(fù)雜的數(shù)學(xué)、物理等科學(xué)領(lǐng)域任務(wù),并能理解和生成各種編程語言的高質(zhì)量代碼。
根據(jù)谷歌給出的基準(zhǔn)測試結(jié)果,Gemini 在許多測試中都表現(xiàn)出了“最先進(jìn)的性能”,甚至在大部分基準(zhǔn)測試中完全擊敗了OpenAI的GPT-4。
消息一出,社交媒體瞬間炸了鍋。英偉達(dá)AI科學(xué)家Jim Fan評論道:這是OpenAI王座的有力競爭者。
ChatGPT的挑戰(zhàn)者來了
過去幾年,谷歌一直把AI-first作為公司戰(zhàn)略,2016年打敗人類圍棋冠軍的AlphaGo便是出自谷歌之手。
自O(shè)penAI一年前推出ChatGPT以來,谷歌一直在努力開發(fā)能夠與這家公司相抗衡的人工智能軟件,證明自己在人工智能領(lǐng)域的實力。
在今年5月舉行的谷歌I/O全球開發(fā)者大會上,谷歌首次透露其正在開發(fā)的AI大模型Gemini,時隔7個月,Gemini終于來了。
據(jù)谷歌官方公眾號消息,Gemini是由谷歌大腦團(tuán)隊開發(fā)的全新大模型,它具有更強的生成能力以及更高的可靠性,是迄今為止構(gòu)建的最強大的AI大模型。
在谷歌發(fā)布的不同版本中,Gemini Ultra被描述為規(guī)模最大且功能最強大的模型,適用于高度復(fù)雜的任務(wù);Gemini Pro則被視為適用于各種任務(wù)的最佳模型;而Gemini Nano則是專門為手機等設(shè)備設(shè)計的最高效的模型。
現(xiàn)場演示中,測試者給Gemini展示了一張煎蛋卷在平底鍋中烹飪的圖片,并說話問它煎蛋餅是否已經(jīng)煮熟,它回答說:“它還沒做好,因為雞蛋還流著水。”
Gemini發(fā)布后,外界最關(guān)心的是其對OpenAI GPT4的挑戰(zhàn)。在采訪中,記者提問谷歌DeepMind產(chǎn)品副總裁Eli Collins(伊萊·柯林斯):“Gemini能打敗市面上包括GPT4在內(nèi)所有的大模型嗎?”
Eli Collins在回答中表示,團(tuán)隊一直在對Gemini模型進(jìn)行嚴(yán)格的測試并評估其在各種任務(wù)中的性能。從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,在大型語言模型(LLM)研究和開發(fā)中廣泛使用的32項學(xué)術(shù)基準(zhǔn)中,Gemini Ultra的性能有30項都超過了目前最先進(jìn)的水平。
為了證明自己的產(chǎn)品比OpenAI的ChatGPT更出色,谷歌更是甩出了數(shù)張成績單。
根據(jù)谷歌給出的數(shù)據(jù),在MMLU(大規(guī)模多任務(wù)語言理解)測試中,Gemini Ultra的得分率為90%,是第一個在 MMLU測試中超過人類專家的模型。作為對比,人類專家的得分率為89.8%,GPT4得分率為86.4%。
AI進(jìn)入多模態(tài)時代
現(xiàn)今,絕大部分多模態(tài)大模型都是在大語言模型LLM之上生長出多模態(tài)的應(yīng)用,而并非從頭開始訓(xùn)練的多模態(tài)的大模型。不同于一般通用大模型主打的窗口對話,業(yè)界的共識是,多模態(tài)大模型才是未來。
相比之下,Gemini是一個真正原生的多模態(tài)大模型。
在設(shè)計之初,多模態(tài)就是Gemini計劃的一部分,從最初的預(yù)訓(xùn)練數(shù)據(jù)開始,Gemini就在針對不同模態(tài)的模型進(jìn)行訓(xùn)練,因此其功能在每個重大領(lǐng)域都達(dá)到了SOTA(State of the art,特指領(lǐng)先水平的大模型)。
基于此,谷歌稱其多模態(tài)為原生多模態(tài)(natively multimodal),可以“無縫”理解、操作和組合不同類型的信息,擁有了強大的交互能力。
在推理方面,Gemini 1.0具有復(fù)雜的多模態(tài)推理能力,可幫助理解復(fù)雜的書面和視覺信息。這使得它具有獨特的技能,可以在海量的數(shù)據(jù)中發(fā)掘難以辨別的知識內(nèi)容。它擁有通過閱讀、過濾以及理解信息,從數(shù)十萬份文件中提取見解的卓越能力,將有助于在從科學(xué)到金融等多個領(lǐng)域以數(shù)字化速度實現(xiàn)新的突破。
而在編碼方面,Gemini 1.0能夠理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質(zhì)量代碼。
與此同時,Gemini 1.0經(jīng)過訓(xùn)練,可以同時識別并理解文本、圖像、音頻等,因此它能更好地理解具有細(xì)微差別的信息,回答與復(fù)雜主題相關(guān)的問題。這就讓它尤其擅長解釋數(shù)學(xué)和物理等復(fù)雜科目中的推理。
據(jù)悉,在Gemini 1.0版本中包含三個不同尺寸,分別是Gemini Ultra、Gemini Pro、Gemini Nano。
其中,Gemini最強大的滿血版Gemini Ultra,還需要等待幾個月才能和公眾見面。谷歌稱,Ultra版目前只會提供給部分客戶、開發(fā)者、合作伙伴以及安全與責(zé)任專家使用。