☰

截胡GPT-4o，谷歌開發者大會一夜發佈十幾款AI新品

一年一度的Google I/O開發者大會如期而至，在本場發佈會中，谷歌一口氣交出數個AI新品，輪番轟炸我們的視覺神經。

首先是真正意義上的全新產品——Google AI Overviews，這是一項基於大模型技術開發的全新搜索引擎，旨在以聊天的方式爲用戶提供精準、高效的搜索結果。沒錯，傳聞中OpenAI正集全力要打造的就是這玩意兒。

同樣與搜索有關的還有「Ask Photos」，相比起AI Overviews，它更專注於圖像理解與圖像信息捕捉，這意味着現在你可以通過文字描述的方式，找到藏在相冊裡的那些被遺忘已久的照片。

還記得前天晚上OpenAI發佈的GPT-4o在視覺與聽覺上的巨大提升嗎？谷歌也整了一個相似的AI工具——Project Astra。定位上，Project Astra和GPT-4o都是多模態AI項目，用戶可以利用手機攝像頭和麥克風與現實世界進行交互，例如幫助失明人士識別路上的風景等。

以上提到的，只是本場I/O開發者大會上谷歌公佈衆多AI新技術的冰山一角，還有更多新玩意值得我們深入探討。難怪，在這場發佈會後，不少媒體都表示認爲谷歌像是要用海量新品「圍剿」OpenAI，重樹谷歌在AI市場的地位。

對轟GPT，谷歌怒發數款AI新品

很顯然，Google I/O 2024最大主角就是「AI」，從硬件到軟件，從服務到功能，幾乎沒有任何一部分離得了AI這個關鍵詞。據不完全統計，這場發佈會上，谷歌至少提了121次「AI」。

既然聊到AI大模型，那還是先看看Gemini又有了哪些新變化。

Gemini Pro從前代的100萬Tokens升級到了200萬Tokens，與月之暗面的Kimi Chat長度相近，但這個模式並非面向所有用戶開放，需要單獨申請。Gemini 1.5推出了Flash版本，支持100萬Tokens，主打一個便宜量大，1M Tokens輸入僅0.35美元、1M Tokens輸出也僅需0.53美元。

另外，谷歌還宣佈Gemini Nano進入手機端，目前它能實現的功能是幫助用戶接打電話、識別電話詐騙和騷擾電話。實話說，Gemini Nano的手機端實用性還是略顯寒酸，甚至連文字處理都不支持，還不如小愛同學來得簡單粗暴。

假如你對Gemini Nano的功能表現不太滿意，也能試試谷歌即將推出的Gemini手機客戶端，它與前天發佈的GPT-4o一樣，都是AI多模態應用，能聽、會讀，還能提供情緒價值。只是從演示視頻來看，Gemini還不是太「擬人化」。

Gemma2也在這場發佈會上正式登場，作爲谷歌下一代開源模型，它升級到了27B規模，和Meta的Llama 3相近，但體積更小些。值得注意的是，Gemma2能夠在NVIDIA的GPU或Vertex AI的單個TPU主機上高效運行。Gemma還迎來了一位新成員：PaliGemma，這是一個開源的圖像輸入模型。

除了Gemini和Gemma的升級之外，基於大模型技術，谷歌還推出了三款全新的AI大模型應用：Imagen 3、Music AI Sandbox、Veo。

Imagen 3是谷歌最新的畫圖模型，你可以理解爲谷歌版本的stable diffusion，即文生圖模型。按照谷歌的說法，Imagen 3相比起前代，在生成速度、生成質量和理解能力上均有較大的提升。

Music AI Sandbox是一款音樂創作大模型，和之前火遍全網的suno差不多，而它的優勢在於創作完成後能夠一鍵上傳至Youtube，這何嘗不是一種生態優勢呢？至於Veo，這是谷歌首款文生視頻模型，對標GPT的Sora，但它時長支持到最高1分鐘、分辨率也支持到1080P，還支持更多濾鏡和電影風格，無論是哪一方面，看起來都比Sora靠譜得多。

不難看出，谷歌目前在AI領域的戰略還是相對穩健，例如模型性能升級，僅從100萬Tokens提升到200萬Tokens，和早前大衆的預期有些差距；而新的AI大模型應用部分，無論是新升級的文生圖模型，還是全新的音樂創作模型、文生視頻模型，都是「守擂」型產品，少了些創意和想象力。但谷歌天然的優勢在於生態，這纔是其與OpenAI叫板的底氣。

AI加入谷歌全家桶

作爲當前的互聯網巨頭之一，谷歌的軟件生態、服務生態自然是相當全面的，比如谷歌擁有當前最大用戶數量的瀏覽器Chrome，也擁有最完善的Google辦公套件，以及目前最大的移動操作系統生態。現如今，谷歌也正式將AI引入到「谷歌全家桶」中，徹底梭哈AI。

首先，谷歌發佈了全新側欄應用Side Panel，這是一項綜合了谷歌旗下服務的「側邊欄」，當你在Gmail中收到重要信息時，可以直接在Side Panel中呼出谷歌雲盤存儲信息，又或是啓動Google Map進行導航，還可以使用谷歌日曆記錄日程等。在谷歌的計劃中，Gmail很快會擁有自動處理重要信息的能力。

Gmail還加入了智能對話的特性，簡單來說，現在你能夠以對話的方式在郵箱中找到所需要的信息及相關郵件，還能讓Gemini幫你總結這些郵件說了什麼，甚至還可以讓它幫你智能回覆對方，並保持郵件所需的正式用語和語氣。

其次，前面提到了Gemini將推出手機客戶端，除了能夠和用戶進行普通的對話、文章總結、文字生成等，Gemini還擁有Gemini Live功能，即通過攝像頭和你直接對話。

最後，也是最重磅的——AI Overviews。作爲搜索引擎巨頭，谷歌要如何將大模型融入到搜索上，這一直是我們所好奇的，就在這場發佈會上，谷歌終於推出了首款AI搜索大模型AI Overviews。

與Perplexity或Arc Search相比，AI Overviews的優勢在於綜合搜索能力有了長足的進步，且得益於Gemini的推理能力提升，其獲得的搜索結果也會更符合用戶的需求。AI Overviews還支持Plan Ahead，即「爲你計劃」，儘管AI搜索只能幫用戶做搜索結果的總結，但基於推理能力和決策能力的升級，Plan Ahead能夠爲用戶生成各種計劃，例如飲食計劃、健身計劃、旅行計劃等。

AI Overviews不僅支持文字搜索，還能通過語音和圖片進行搜索，例如當你遇到不認識的植物，那麼僅需拍攝、上傳，就能讓谷歌幫你找出這種植物的相關資料。而這項功能也會與Pixel上的「劃圈即搜」功能相結合，在未來幾個月內上線。

可以說，AI已經成爲谷歌幾乎所有業務的核心，除了我們熟悉的大模型應用之外，還在辦公、娛樂領域提供基於Gemini大模型的AI功能，並互相之間有所串聯，提升綜合工作的效率。

One More Thing：神秘AI眼鏡曝光

在演示Project Astra的過程中，除了像OpenAI一樣使用iPhone進行功能展示，還使用了一款智能眼鏡。但與我們之前見到的Google Project Galass不同，這可能是一款全新的智能眼鏡產品。

初代Google Project Galass誕生於2012年，在那個智能手機還不算普及的年代裡，谷歌就將智能穿戴設備打造成平民化的消費級產品。但事實上，Google Project Galass受限於產品形態和產品性能，以及相對高昂的售價，一直都不受市場的歡迎，而谷歌也在前幾年宣告這個項目被取消。

Project Astra可能是最適合Google Project Galass的AI形態，一方面，它的交互簡單，無需太多傳感器進行輔助識別；另一方面，它利用大模型的學習、理解、推理能力，能夠簡單地幫助用戶判斷現實世界的物體、景色以及突發事件。

當然，谷歌並沒有真正發佈這款產品，但結合Apple Vision Pro重新帶動虛擬現實（空間計算）市場的熱議來看，谷歌極有可能搶先於蘋果，將AI大模型帶入到穿戴設備，以快速搶佔AR/VR市場。

眼花繚亂的I/O，谷歌真慌了神？

整場發佈會下來，谷歌發佈了非常多的AI新品，涉及到大模型技術的迭代、新AI應用的落地以及開源模型再一次進化。但長達數小時的發佈會加體驗環節，谷歌缺少了一款真正意義上的「爆品」來引起市場的高度關注。

比如，谷歌發佈了一款對標OpenAI Sora的Veo，無論是輸入內容的支持、生成視頻時長還是生成視頻的清晰度，都可以說是「吊打」Sora的存在，但Sora已經搶先於谷歌，引發了市場對文生視頻應用的討論，這就導致儘管Veo很牛，可討論度明顯不足。

又或者說，谷歌似乎不太懂如何抓住大家的眼球，這從其頻頻翻車的演示也能看出些端倪。還記得Bard首次出現時回答問題錯誤的情況嗎？是的，在這一次AI Overviews的演示上，又一次給用戶錯誤的建議，引起不小的爭議。

而谷歌在會上強調了Gemini的「優惠價格」，試圖想要以低價與頭部企業們競爭。但現實狀況是，百度文心一言、阿里通義千問早就開放了長文本閱讀、月之暗面的Kimi也加入了200萬Tokens的免費大戰，就連有些晚來的豆包，也在今日舉行的發佈會上公開了超低價的策略。

創意欠缺、低價拼不過，這就是谷歌在I/O開發者大會上給大家的印象。不過，谷歌最重要的殺手鐗仍然是它的AI搜索，而這項功能是否會讓谷歌實現逆風翻盤，或許還要等到AI Overviews正式上線後才能解答。

截胡GPT-4o，谷歌開發者大會一夜發佈十幾款AI新品

相關資訊