AI觀察 | Groq芯片爆火給我國AI芯片產業發展帶來的3個啓示

趙竹青、楊松

近日,硅谷初創企業Groq推出一款全新的AI芯片,聲稱實現了“地表最強推理”——在Groq上運行大模型的推理速度較英偉達GPU提高10倍甚至更高。該消息一出,迅速攻佔了各大科技媒體板塊頭條。這樣的推理速度無疑是AI芯片領域的一次技術飛躍,也爲國產AI芯片企業如何突圍發展帶來一些新啓示。

啓示一:可專注特定場景建立“比較優勢”

Groq芯片是一種LPU(語言處理單元),其優越的推理性能,再一次展示了專用AI芯片在特定場景中的應用價值。因此,參考Groq芯片在某個應用場景做到替代或者超過英偉達,將有可能是國產AI芯片現階段一條行之有效的發展路徑。

比如這款推理芯片主打一個“快”。常規生成式AI主要使用英偉達A100、H100芯片來進行訓練與推理工作,大模型推理過程中等待是相對比較正常的事情,字符一個個蹦出,半天才能回答完畢。但在Groq的演示平臺上,模型收到提示詞後,幾乎能夠立即生成答案。這些答案不僅相對質量較高,還附有引用,長度更是達到數百個單詞。更令人驚訝的是,它超過3/4的時間是用於搜索信息,而生成答案的時間卻短到只有幾分之一秒。

雖然暫時有着種種缺點,但是Groq芯片的優勢點太爲突出,足以在某些場景下完全替代英偉達,甚至能做得更爲優秀,自然而然吸引了大量關注及認可。可以想象,在Groq芯片的成本控制優化至合適區間後,將會有大量實際應用場景前來適配和使用。

啓示二:需重視應用場景中的“性能匹配”

Groq芯片憑藉推理速度脫穎而出,充分說明了其性能與應用場景之間的強相關性,這也再次提醒我們應用場景的重要性。國產AI芯片產業應當重視在實際應用場景中的性能匹配度,並在這一基礎上開展芯片的優化和創新。

語言推理賽道上,誰是冠軍也尚未一錘定音。目前來看,Groq芯片綜合素質仍有相當的不足。比如Groq芯片每張卡的內存是230MB,在運行Llama-2 70B模型時,需要305張Groq卡才足夠,而用H100則只需要8張卡。從目前的價格來看,這意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。另外,Groq芯片目前只能適配少數幾個大模型的推理工作,並且需要大量調試,廣泛應用性還相對較差。其中的差距,也是中國企業的創新機會。

最終,一種AI芯片產品能否勝出,和多種因素密切相關,包括芯片本身的技術路線、產品推出的時間點,以及大模型的成熟度,等等。對於大模型來說,目前有觀點認爲大模型已經開始趨向穩定了,在這個基礎上開發芯片是有機會的;也有觀點認爲大模型變化還很快,過兩年大模型一改,所有的投入又得重新開始。這些爭論還有待時間檢驗。

啓示三:藉助第三方評測體系“精準定位”

當前,美國政府對我國芯片出口管制的層層加碼對國產AI芯片行業既是挑戰又是機遇。從產業發展的整體視角來看,亟需構建一箇中立、客觀並具有權威性的評測體系,爲各種芯片提供一個公平競技的舞臺和場景匹配的渠道。

在2023年世界人工智能大會上,人民日報社傳播內容認知全國重點實驗室(人民網)與中國電子技術標準化研究院共同發起的“智越計劃”提出,要共同推動建立包含人工智能芯片性能評測、場景評測與綜合評測的整體評估評測標準體系。其中的場景評測就是測試不同人工智能應用場景中各款芯片的實際使用效果。

“智越計劃”將最終形成針對特定應用場景的綜合報告和產品推薦目錄,從而助力優化市場供需匹配,爲政府、企業和研究機構建設智算中心提供芯片選型的重要參考和決策依據。

隨着AI技術的飛速進步,市場對芯片產品的性能、穩定性和適用性有了更高要求。一個科學完善的評測體系將有效地指引企業研發方向,推動生態的繁榮發展和行業的整體進步。