☰

讓ChatGPT脫穎而出的秘密武器

OpenAI的GPT系列模型在數據集、模型構建、用戶互動以及其他關鍵優勢方面均表現出色，超越了Google、Meta等公司的大型模型。(圖/路透社)

在開發人工智慧的領域裡，使用深度學習的公司很多；而使用大型語言模型（LLM）來開發AI的公司也不只OpenAI一家。ChatGPT的脫穎而出，還因爲運用了另外兩種特別的學習機制和架構，而得以實現更高效的平行訓練：一個是基於自注意力的Transformer架構；另一個則是被稱爲MaskedSelf-Attention

的技術。

自注意力機制的一個重要特性，是它允許模型在一次操作中處理所有的輸入元素，這與前面提到的循環神經網絡（RNN）和長短期記憶（LSTM）的序列化處理方式形成對比。在RNN或LSTM中，模型必須逐步處理序列中的每個元素，並依賴於前步的狀態生成下一步的狀態。這使得RNN和LSTM難以有效地利用現代GPU（圖形處理器）的平行處理能力，並且在處理長序列時，會出現梯度消失－也就是導致遠距離的資訊在傳遞過程中權重被稀釋或被遺忘－的問題。

相反，Transformer架構下的GPT，可以同時處理所有的輸入元素，不需要依賴前一步的狀態來生成下一步的狀態，而得以充分利用現代GPU的計算能力，從而大幅度提升訓練速度和運算效率。而MaskedSelf-Attention機制則確保了模型在生成每個新元素時，只能使用到該元素之前的信息，這符合真實世界中的生成序列的情況，同時也保證了模型在訓練過程中的正確性。

除此之外，GPT的優勢有：

●數據集規模：GPT模型的運作，依賴於龐大且多元化的數據集，這是它超越其他模型的關鍵要素之一。GPT系列模型所取得的訓練數據，源於各式網路來源，如維基百科、各類書籍、網路頁面等，包含了各領域的豐富知識。同時，OpenAI對於資料進行嚴謹的清理與篩選，確保模型在訓練過程中能夠吸收高品質的知識，所以可以提升生成內容的精確度與信賴度。

●跨語言能力：GPT模型在多語言處理方面具有很強的能力，能夠理解和生成不同語言的文本，滿足全球範圍用戶的需求。相比其他模型，GPT在跨語言任務上表現更爲出色，如翻譯、跨語言摘要等。

●靈活的微調：GPT於微調策略上的卓越表現，正是超越其他語言模型的核心因素。在預訓練的基礎上，進行具有針對性的精細校準，讓GPT能迅速適應各式NLP任務，例如文本分類、情感分析等。

●知名投資者的支持：OpenAI得到衆多知名投資者的支持，如前期的ElonMusk及後期大舉投注的BillGates，這些投資者的背景和聲譽，爲GPT帶來背書與額外的品牌價值。此外，這些投資者的資源和網絡，也爲GPT的市場行銷與形象推廣提供有力的支持。

●迅速聚集大量用戶：GPT模型在短時間內吸引大量用戶，迅速擴大了市場規模。這得益於其出色的自然語言生成能力，使得GPT在各種場景下的應用更爲廣泛，在極短時間內達到一億用戶的門檻。

綜上所述，OpenAI的GPT系列模型在數據集、模型構建、用戶互動以及其他關鍵優勢方面均表現出色，超越了Google、Meta等公司的大型模型。這些優勢，使GPT其他的生成式人工智慧模型，同時包含文字、圖像、音樂、影像的處理，在許多應

用場景中展現出驚人的性能。不過，這場新AI戰爭纔剛剛開始，勝負仍然在未定之天。

(本文摘自《新AI與新人類》/大塊文化)

【作者簡介】

蘇經天

聯譜顧問股份有限公司創辦人、國鼎生物科技總經理、國光生物科技策略長、和鑫生技開發總經理、聯亞生技開發商務發展副總經理。

臺灣大學EMBA高階公共管理組企管碩士，霍華休斯醫學研究院、約翰霍普金斯醫學院神經科學研究所博士後研究，紐約州立大學石溪分校博士，康乃爾大學醫學院生物化學研究所博士班，臺灣大學化學系學士。

並曾任科技部審查委員、國家衞生研究院智財、技轉及育成中心評鑑委員、IBM, Research Center for Bioinformatics, Regional顧問、52 Club會長、臺灣生物發展協會秘書長。

畢生致力於系統化地解決複雜系統的問題，例如（與中央研究院資訊所合作）開發生物資訊模組、知識管理系統、科學文獻評估系統。近期試圖將閱讀書籍所萃取出的抽象概念產出AIGC，經由52 Club的平臺，協助忙碌的現代人仍能有效益地學習。

LinkingPros （高階創新醫藥從業人員的交流園地）

臉書 https://www.facebook.com/linkingpros

網頁 linkingpros.com

52 Club （複雜世界閃亮羽毛撿拾者的樂園）

https://www.facebook.com/52Club2022

《新AI與新人類》/大塊文化

讓ChatGPT脫穎而出的秘密武器

相關資訊