☰

Gartner&第四範式全球首發AutoML商業落地白皮書

2020年伊始，全球領先的研究和諮詢機構Gartner發佈了《2020年十大戰略性技術趨勢：民主化》報告，系統闡述了“AI民主化”在企業智能化轉型過程中的意義，以及AutoML對實現AI民主化的關鍵作用。在該份報告中，第四範式獲得了Gartner的認可，被列入了AutoML技術代表性廠商。爲此，第四範式聯合Gartner發佈了全球首個針對AutoML的系列白皮書——《AI for Everyone，AutoML引領AI民主化》以及《AutoML成就指數級增長：感知、認知、決策算法佈局提升企業決策水平》。

今天，AutoML正在幫助來自各行各業、處於不同技能水平和發展階段的企業落地AI應用。毫無機器學習經驗的醫生使用AutoML，提升了新生兒體重預測的準確率；第三方互聯網營銷平臺的科學家使用AutoML，相較專家規則進一步提升了廣告推薦點擊率；大型企業軟件開發人員使用AutoML實現了AI應用的規模化落地，將應用上線週期由6個月縮短至1個月。

《AI for Everyone，AutoML引領AI民主化》報告結合了Gartner對企業AI應用現狀的調查報告，針對企業AI應用過程中的兩大關鍵挑戰——高技能門檻和低開發效率，深入解析了支撐AI民主化的引領性技術AutoML，並提出實現AutoML落地的正確方式，旨在幫助企業從容面對智能化轉型中的機遇和挑戰。

AI人才供需嚴重失衡，深層原因是高人才門檻和低開發效率

近年來，成功應用AI所帶來的業務價值增長，使得企業對AI應用需求呈現井噴增長趨勢。Gartner預測，2022年企業平均部署人工智能和機器學習項目將達到35個。

2019-2022年企業AI/ML項目平均部署數量

面對即將到來的AI應用場景爆發，企業是否已經做好充足準備？答案是否定的。在Gartner調查中，56%的受訪企業都將“人才不足”作爲AI項目落地的首要挑戰。

阻礙企業應用AI的主要挑戰

AI人才不足體現在兩個方面，一是數量匱乏。以中國地區爲例，教育體系每年培養的AI高級人才數量只有千人級別，遠遠無法滿足每年達百萬級的AI場景數增長。二是分佈不均，全球AI科學家高度集中在美國硅谷和北京中關村，而絕大多數企業所在地都沒有足夠的AI科學家。

人才缺失阻礙企業享受AI帶來的紅利，究其背後原因，是過高的人才門檻和低下的開發效率，導致AI人才無法實現快速培養並有效產出價值。

首先是人才門檻過高。傳統機器學習模型構建通常由問題定義、數據收集、特徵工程、模型訓練、模型評估等環節組成。模型構建難度大、技術門檻高，往往需要具備專業知識的科學家完成。培養AI科學家的門檻極高，往往需要8-10年時間，即使是IT專業人員，沒有經過長時間的學習和實踐積累，也很難掌握模型構建、參數調整等關鍵技能。

其次是開發效率低下。即使那些投擲重金聘請科學家的企業，也並未收穫到所期望的業務價值。這背後的突出問題是，科學家大量時間都消耗在數據、特徵及模型選擇等重複性工作上。而真正用於定義業務問題、提供創新性解決方案的時間卻少之又少。這些工作佔用了科學家的寶貴時間，導致其建模效率不足，使其無法發揮出企業所期待的價值，企業AI應用落地進程嚴重滯後。

AutoML開啓企業AI民主化實踐，讓AI發展突破人的瓶頸

AI人才的高技能門檻和低開發效率，讓人工智能的發展受制於“人”。AutoML作爲支撐AI民主化發展的代表性技術，將賦予企業以低門檻、高效率實現AI規模化開發的能力。

AutoML通過自動化機器學習算法覆蓋建模全流程，減少人在數據準備、特徵工程、模型訓練和模型評估等環節重複性工作，釋放AI人才被浪費的寶貴時間，解決AI專業人才短缺和開發效率不足的難題。Gartner預測，到2023年，有40%的公民數據科學家（即企業的IT開發者或業務人員）將使用自動化機器學習來完成業務場景的建模，這將極大程度釋放AI帶來的價值。

AutoML自動化機器學習建模全流程

目前，頂級AutoML建模效果已經與頂尖的數據科學家水平相當。在全球知名的Kaggle機器學習競賽中，第四範式的AutoML算法在結構化和非結構化等挑戰項目中的建模效果戰勝了超過98%數據科學參賽選手，意味着每50位全球頂尖數據科學競賽選手，只有1位能戰勝第四範式的AutoML。

AutoML的大規模應用，需要以產品化形式輸出和投產

頂尖的AutoML算法相當於AI應用構建的“引擎”。而AI應用的開發是一項非常複雜的精細化工程，涉及諸多環節。假如沒有一套完整的AI開發工具，各個環節就會變成彼此割裂、互不兼容的“孤島”，不僅導致科學家在開發過程中疲於奔命，也會讓AI規模化變成“泡影”。只有打造基於AutoML算法“引擎”的“自動化工廠”，實現全面產品化，才能真正推動AI產業化落地。

爲此，第四範式將AutoML算法進行了產品化封裝，打造了一款低門檻、高效率、持續優化的自動化AI生產力平臺Sage HyperCycle ML。作爲一款成熟的企業級AutoML產品，Sage HyperCycle ML有三方面的優勢，首先通過領先AutoML算法加持，降低了使用人員的技能門檻，使得AI應用開發不再侷限於科學家，把企業IT開發者及業務人員轉變爲AI模型開發的生力軍；其次是AI建模的全流程自動化，提升落地效率，將AI應用上線週期從以半年爲單位縮短至周、天、乃至小時級別；此外，Sage HyperCycle ML的閉環自學習技術支持模型持續動態調優，實現小時、分鐘乃至秒級的數據更新和模型迭代，解決了模型上線後模型迭代頻率低、人力成本居高不下的問題。

極簡界面的第四範式Sage HyperCycle ML平臺

通過打造該平臺，將AutoML算法嵌入到平臺產品中，算法的“引擎”作用纔可能充分發揮，從而支撐AI的規模化落地。

AI產品和工具的落地，需要正確的方法論指導

AutoML的產品化，意味着機器學習項目取得了一半的成功。然而，模型應用上線過程中，錯誤的認知造成各種各樣的問題和挑戰。這些問題和挑戰影響模型效果，延長建模週期，帶來極大的人力和時間消耗，嚴重影響企業業務價值創造。

只有當AutoML產品被正確的使用，AI項目才能真正落地並創造業務價值。爲此，第四範式凝練出AI項目落地的方法論，解決模型構建與模型應用上線之間存在的割裂問題，幫助企業實現AI應用落地。

具體來看，第四範式針對企業落地AI過程中四個方面的誤區提出瞭解決辦法。首先，在系統構建方面，企業應當搭建閉環的數據治理架構，明確定義AI的目標、行爲和反饋，避免在數據治理過程中消耗大量不必要的精力；第二，在數據準備方面，企業應當基於線上的單一數據來源進行收集和處理，避免多來源數據的形式和邏輯不一致，導致模型效果與實驗室效果產生巨大差距乃至反轉；第三，在模型構建方面，企業應當利用自動化的機器學習平臺實現全流程自動化，讓業務人員也能開發AI模型，避免AI落地受制於“人”。第四，在模型上線後，企業應通過自學習技術保持模型效果的持續迭代，避免模型停滯不前，效果隨時間推移而衰減。基於正確的方法論，企業利用AI產品實現AI的規模化落地將從理想變爲現實。

總結來說，面對AI落地需求井噴和AI人才嚴重不足的失衡局面，AI民主化是實現AI規模化落地應用、創造更大商業價值的必然路徑。而AutoML技術是AI民主化的關鍵技術支撐。通過將AutoML技術進行產品化嵌套，配合正確的落地方法論，構成一套系統的AutoML落地解決方案和路徑，這將使更多的企業和人才有機會享受到AI帶來的效率，從而釋放巨大的商業價值。

Gartner&第四範式全球首發AutoML商業落地白皮書

相關資訊