DeepSeek:邁向全社會分享的普遍智能
近期,杭州深度求索人工智能(AI)基礎技術研究有限公司(DeepSeek)先後上線大語言基座模型DeepSeek V3,以及基於V3訓練、專爲複雜推理任務設計的DeepSeek R1模型,並同步開源。它們以卓越的性能超越或媲美了全球頂級的開源及閉源模型。
DeepSeek的開源之舉將使得AI像水和電一樣觸手可及,爲實現“時時、處處、人人可用的普遍智能”帶來曙光。它在模型算法和工程優化方面所進行的系統級創新,爲在受限資源下探索通用人工智能開闢了新的道路,併爲打破以“大模型、大數據和大算力”爲核心的生成式AI擴展定律天花板帶來了無限遐想。
過去幾周,DeepSeek應用登頂蘋果美國地區應用商店免費App下載排行榜,在美區下載榜上超越了ChatGPT。1月28日,美國“外交學者”(The Diplomat)網站發表題爲《中國的DeepSeek是美國人工智能的“斯普特尼克時刻”》的文章指出,DeepSeek此次的開源之舉延續了OpenAI的初心使命——爲了人類利益推動人工智能發展。
DeepSeek的出圈,再次印證了一個科技創新道理:贏得比賽的關鍵是精益求精、富有創造力的創新,而非單純的金融實力和一味的出口管制。
“大力出奇跡”並非AI唯一出路
2019年,人工智能領域強化學習鼻祖、Deepmind研究科學家,加拿大阿爾伯塔大學計算機學教授理查德·薩頓發表了一篇題爲《苦澀的教訓》的文章,認爲“縱觀過去70年的AI發展歷史,想辦法利用更大規模的算力總是最高效的手段”。
在“數據是燃料、模型是引擎、算力是加速器”這一深度學習理念支持下,以Transformer爲基本模型的生成式AI(如ChatGPT等)不再從互聯網中搜索和羅列已有匹配信息,而是從海量數據中洞悉單詞與單詞之間的共現概率,以組合意義下“昨日重現”方式合成衆所周知的語言內容。
Transformer是2017年穀歌公司提出的一種新型深度神經網絡,其核心在於通過自注意力機制讓每個單詞記住在不同語境下的“左鄰右舍”,然後以似曾相識之感來概率合成新的內容。“Transformer”這一名字或許受到了2007年於美國上映的電影《變形金剛》的英文名“Transformers”的啓發,因此可以將合成內容的生成式AI看成一個“魔鏡”,它能夠根據輸入內容猶如變換魔術般輸出與之對應的輸出內容。
由於每個單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數不斷增多而導致模型規模不斷增大,隨之出現了大模型的“擴展定律”(scaling law),即隨着模型規模、訓練數據和計算資源的增加, 模型性能會得到顯著提升, 並且這些關係遵循可預測的模式。
面對越來越大的模型,訓練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權開始左右人工智能的發展。英偉達創始人兼首席執行官黃仁勳就據此提出過“黃氏定律”:在計算架構改進的推動下,人工智能芯片的性能每年可提升1倍,速度遠超摩爾定律。
人工智能擴展定律雖然也需要算法和系統的創新,但是這一“無他、但手熟爾”的模式應該不是人工智能發展的唯一出路,因爲“化繁爲簡、大巧不工”纔是推動“機器學習”邁向“學習機器”的初衷。
萬物之始,大道至簡,衍化至繁,以簡單直接思路解決複雜問題纔是科學研究之道。1953年,獲得1938年諾貝爾物理學獎的恩利克·費米提到,馮·諾依曼曾對他說過,用四個參數就可以畫出一頭大象,用五個參數就可以讓大象鼻子動起來。英國數學家雅各布·布魯諾斯基也曾提到,馮·諾依曼認爲圍棋不是博弈,雖然因爲計算複雜而難以找到答案,但在理論上,下圍棋一定有個最佳落子方案。
這些故事告訴我們,用簡單方法解決複雜問題是科學研究基本思路之一,正如愛因斯坦所言,“所有科學中最重大的目標是就從最少數量的假設和公理出發,用邏輯演繹推理的方法解釋最大量的經驗事實”。由此可見,DeepSeek的研發初心切合了大模型發展的內在邏輯,爲遏制其“瘋長”勢頭提供了一劑良藥。
從“學而不思則罔”到“思而不學則殆”
能用衆力,則無敵於天下矣;能用衆智,則無畏於聖人矣。DeepSeek的精彩表現在於其對算法、模型和系統等進行的系統級協同創新,是衆智和衆力相互疊加的成果。
應該說,DeepSeek模型仍是基於美國谷歌公司於2017年提出的Transformer架構,沒有實現改變遊戲規則的顛覆性基礎理論創新。但是,它在模型算法和工程優化方面進行了系統級創新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集羣上完成訓練,打破了大語言模型以大算力爲核心的預期天花板,爲在受限資源下探索通用人工智能開闢了新的道路。其算法和工程創新主要包括了混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優化等工程創新。
混合專家稀疏模型與傳統大語言模型所採用“衆人拾柴、鹹與維新”不同,它另闢蹊徑採取了“術業有專攻”理念,每次讓若干個合適專家協作發揮各自能力,完成特定任務。
DeepSeek的基座模型V3採用了混合專家機制,每一個Transformer層包含256個專家和1個共享專家,V3基座模型總共有6710億參數,但是每次token僅激活8個專家、370億參數。這一創新算法與稠密模型相比預訓練速度更快,與具有相同參數數量的模型相比,則具有更快的推理速度。
實際上,人腦也是一個稀疏模型。雖然人腦由800多億個神經元和100萬億個突出連接而成,但它在完成識人辯物和舉手投足等任務時,每次只有一小部分神經元被激活。實現“弱水三千,只取一瓢飲”,且讓被選擇若干專家能夠以“十個指頭彈鋼琴”形式負載均衡地合作完成任務,而不是“三個和尚無水喝”——這正是DeepSeek所做出的難得的算法創新。
低秩注意力機制的引入使DeepSeek在保持模型性能的同時顯著降低了計算和存儲成本。
低秩注意力機制又被稱爲多頭潛在注意力機制。人類在對外界信息理解時,往往看到的是內嵌在信息中的本質結構。例如,我們在理解一篇文章,更關切單詞所刻畫的主題概念,而非單詞從頭到尾的羅列等。傳統大模型中的注意力機制由於需要記錄每個單詞在不同上下文中的左鄰右舍,因此其變得龐大無比。DeepSeek引入低秩這一概念,對巨大的注意力機制矩陣進行了壓縮,減少參與運算的參數數量,從而在保持模型性能的同時顯著降低了計算和存儲成本,把顯存佔用降到了其他大模型的5%-13%,極大提升了模型運行效率。
在強化學習推理方面,傳統大模型方法訓練時採用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數據,通過監督式微調來讓大語言模型仿照思維鏈完成相應任務。但DeepSeek這次在訓練推理模型中直接採用了一條前所未有的“純”強化學習路徑,僅根據模型輸出答案優劣以及輸出答案格式完整等簡單信息,對模型行爲進行獎懲。
這一做法如同讓一個天才兒童在沒有任何範例的指導下,完全通過“嘗試與試錯”來不斷探索未知空間,並利用已有經驗不斷取得進步,最終完成從“摸着石頭過河”到“先知後行”的蝶變。而且,DeepSeek進一步提出了讓模型從若干答案中進行比較的選擇方法,以實現自我提升。
這種直接訓練方法不僅完成時間更短、計算資源需求大幅減少,更讓模型學會了思考,而且是以見證“啊哈時刻(Aha Moment)”(指讓用戶眼前一亮時刻)的頓悟方式思考,並會用人類易懂的方式表達思維過程。
但值得注意的是,該方法難免導致推理過程難以被溯源和理解等侷限性。爲此,DeepSeek收集了一部分思維鏈數據,引入冷啓動和有監督微調等方法,對模型進行再次訓練,從而讓模型在保持強大推理能力的同時,還學會了用人類易懂的方式表達思維過程。
廣受關注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結果,來提升自身能力。比如,在對一篇文章分類時,大模型認爲該文章以85%、10%和5%的概率分別屬於正面、負面和中性等不同情感類別。小模型就從大模型輸出的結果中認真思考,不斷調整參數,以期望繼承大模型能力,從而輸出類似結果。
由於神經網絡有強大非線性映射能力,蒸餾學習不僅沒有導致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”蒸餾之術遷移到了小模型。這不禁讓人感嘆,對於大模型而言,“學而不思則罔”;對於小模型而言,“思而不學則殆”。
算法創新克服大語言模型擴展定律還需要工程創新。爲此,DeepSeek使用FP8混合精度加速訓練並減少GPU內存使用,使用DualPipe算法(即將前向和後向計算與通信階段重疊以最大限度地減少計算資源閒置)提升訓練效率,並進行了極致的內存優化。他們開發了一套完善的數據處理流程,着重於最小化數據冗餘,同時保留數據的多樣性。
“精彩一躍”開闢“普遍智能”新路徑
儘管DeepSeek模型基於Transformer架構,並非顛覆性基礎理論創新,但是DeepSeek的確是AI漫漫征途中精彩一躍,也爲AI未來發展帶來了深刻啓示。
事實上,AI迄今所取得的成就都是過往一次次“精彩一躍”所繪就而成。去年,諾貝爾物理學獎授予AI就是這樣一個註解:約翰·霍普菲爾德和傑弗裡·辛頓分別從物理學能量最小和玻爾茲曼分佈角度去優化神經網絡模型參數,爲當下深度學習的崛起打下了堅實的歷史樁基。
今年1月25日,《經濟學人》雜誌在《中國人工智能產業幾乎已追上美國》一文中使用了一幅圖片——一條龍出現在一輛車的後視鏡中,藉此暗指中美AI發展之間距離已經相當接近。不過,文章又用“穿着高跟鞋倒退跳舞的金傑·羅傑斯”來暗喻,在AI發展過程中,美國OpenAI等人工智能巨頭付出了更多努力或承擔了更多責任,而現在DeepSeek卻得到了更多讚譽或關注。
“夫水之積也不厚,則其負大舟也無力”,在爲DeepSeek成功喝彩同時,我們也要爲推動人工智能發展的所有努力而喝彩,每個人的努力均不可忽視。
長久以來,人們一直認爲,“從0到1”的理論創新是推動AI發展的引擎,但事實上工程創新也是不可或缺的推動力量。DeepSeek在架構設計和工程優化上進行的系統性創新,就是爲了實現在資源受限情況下完成對標一流大語言模型性能的任務,他們用創新改變了大語言模型依賴算力的固有路徑。
中國工程院院士、中國工程物理研究院研究員李幼平曾經講過一個故事:他曾請教我國“兩彈一星”元勳、兩院院士朱光亞先生,爲什麼九院稱“工程物理研究院”。朱光亞先生回答:“物理是深度,工程是規模——沒有規模,做不成大事。”
由此可見,在算力成本呈指數級增長的人工智能領域,通過算法優化、架構突破和工程創新降低大語言模型成本,這本身就是技術實力的體現,是難能可貴的大事。
更讓人激動的是DeepSeek將工程創新成果開源,以此加速技術落地和迭代升級。現在,任何人均可從DeepSeek網站自行下載與部署模型,網站提供了詳細說明訓練步驟與竅門的文檔。
可以預見,DeepSeek不同大小模型將被部署爲不同場景中的人工智能基座,大家都可通過行業自有數據、知識和經驗進行專業訓練和微調,從而創造無限可能。
如果說,傳統大模型遵循的是一條“由通到專”的人工智能發展思路,那麼DeepSeek的做法將推動形成一條“由專到通”的人工智能發展路徑,通過牽引人工智能技術生態形成,邁向全社會分享的普遍智能之路。
智能時代,教育何爲?
人工智能是一種類似於內燃機或電力的“通用目的技術”,天然具備“至小有內,至大無外”推動學科交叉的潛力,無論是從人工智能角度解決科學問題(AI for Science,如利用人工智能預測蛋白質序列的三維空間結構),還是從科學的角度優化人工智能(Science for AI,如從統計物理規律角度優化神經網絡模型),未來的重大突破都將源自於這種交叉領域的工作。
如果說過往的技術發明是從機械化增強角度在提升人類與環境的互動能力,那麼人工智能的出現卻對人類的這一根本能力和角色發起挑戰——生成式人工智能的出現使得智能機器成爲知識生產的輔助者,將深刻改變個體學習者的自主思考、判斷、學習能力,乃至倫理道德觀。
如何看待一項新技術的發展,這是進行技術預測一項必需的認知準備。遺憾的是,我們人類總是習慣於線性思維(這符合人類自然的認知模式:節省能量與快速計算)。但是,這種認知配置很容易出現認知偏差,其中最常見的就是對於技術近期與遠期影響的判斷出現不對稱性——短期內我們傾向於高估技術的影響,長期內我們低估技術的影響,即美國科學家羅伊·阿瑪拉提出的“阿瑪拉法則”。
那麼,隨着智能時代的來臨,如何通過教育體系的變革來應對這一時代之變?在浙江大學於2024年6月發佈的《大學生人工智能素養紅皮書》中,我們提出,大學生人工智能素養是由體系化知識、構建式能力、創造性價值和人本型倫理構成的有機整體,其中知識爲基、能力爲重、價值爲先、倫理爲本。
目前,浙江大學和復旦大學等高校已將人工智能作爲全校大學生通識必修課程。而且,浙江大學、復旦大學、上海交大、南京大學、中科大和同濟大學已在四年前共同推出“課程共建、學分互認、證書共籤”的AI+X微專業,今年還將推出升級版,進一步加強人工智能通識教育和交叉學科教育。
2024年春節,我爲文匯報撰寫《Sora“超級涌現力”將把AI引向何方》的文章,今年春節又爲DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全社會分享的普遍智能到來。
(作者爲浙江大學本科生院院長、上海高等研究院常務副院長、人工智能研究所所長)