WAIC 2021 AI決策的兩大技術支撐:強化學習、環境學習

(原標題:WAIC 2021 AI決策的兩大技術支撐:強化學習、環境學習)

7月7日,由世界人工智能大會(WAIC)主辦的首屆全球算法最佳實踐典範大賽(BPAA)總決賽暨算法峰會在滬舉辦。作爲全球前沿算法應用型賽事,BPAA面向來自中國、北美、歐洲、亞太賽區的國際參賽團隊,從七大區域、五大領域角逐出優秀頂尖算法項目,打造全球算法高地。

第四範式副總裁、主任科學家塗威威作爲大賽主評委出席此次峰會,並發表了題爲「數據驅動的決策智能:環境學習與強化學習」的主題演講,詳細闡述瞭如何通過兩大技術構建企業AI決策能力落地應用。

AI加持 智能決策轉向“人機協同

衆所周知,企業經營離不開決策,決策的質量決定了企業管理水平,進而深刻影響企業發展。此前,企業通過構建“以人爲中心”的分層決策體系來運作,例如高層決定公司重要戰略,業務負責人決定業務發展方向等。

決策過程可參考著名的OODA Loop決策週期理論,由“觀察(Observe)- 判斷(Orient)- 決策(Decide)- 行動(Act)”四個環節組成的相互關聯、相互重疊的循環週期。“觀察”,即需要企業全面觀察,爲決策提供充足的信息依據;“判斷”,基於觀察精準判斷所處現狀及未來發展,爲決策提供參考結論;“決策”是指制定較優的決策方案,爲整個決策流程走好關鍵一步;“行動”則是基於前三步的成果採取相應措施。在整個決策週期中,能否理想的完成觀察、判斷及決策環節,決定了業務決策的整體質量和效果

然而,企業依靠人做決策的過程中面臨多重挑戰。人的計算能力是有限的,只能通過抓大放小方式作出有限的判斷和決策,且龐大的企業組織帶來的決策效率問題,難以對瞬息萬變的商業環境快速反應。

因此,企業未來的決策體系將由“以人爲中心”走向“人機協同”,藉助AI不知疲倦、面面俱到的優勢,新的決策體系可以在海量的數據中全面學習,並在分秒間做出有效決策,提升企業決策效率,打通組織決策閉環

“人機協同”的體系主要分爲兩種模式:計算機輔助決策與計算機自主決策。

環境學習 讓計算機輔助決策變得“有理有據”

此前,輔助決策主要是藉助數字孿生、仿真模擬等技術讓機器來輔助人做決策。當前的數字孿生是利用傳感器、業務系統收集的數據,打造一個反映物理世界全生命週期的數字化系統。其核心價值在於能幫助企業更好的觀察業務發展,即解決了OODA的第一步。

然而,大多數數字孿生系統只解決了觀察的問題,各個業務節點的數據採集往往是孤立的,因此,數據之間互不相通,造成了孿生數據孤島。同時,由於實際業務決策非常複雜,如果要覆蓋所有可能的業務狀況與決策手段,所需要的數據是指數級的,當前採集的數據量級遠不足以支撐所有決策情況的全覆蓋,甚至可以說是永遠不夠的。此外,更爲關鍵的是,現有的數字孿生無法解決以下3類輔助決策的關鍵問題,從而限制了數字孿生的應用發展。

1.What – If類問題

覆盤:如果當時多儲備一些XX零件,訂單滿足率可以提高多少?

預測:如果未來多增加一個XX設備,工廠的產能可以提高多少?

2.預測類問題(一種特殊的What-If類問題)

未來銷量多少?

3.決策類問題

如何排產?

另一種方式是通過手工模擬器進行仿真模擬去輔助人做判斷,即OODA第二步。它可以一定程度上回答What – If類問題,應用在電路設計、物流系統、空氣動力學研究等領域。但是,由於其主要依託於人的經驗和知識,實際業務千差萬別,專家很難面面俱到,只能抓大放小,因此也存在精準度低、成本高、難以應對環境快速變化、難以模擬人的行爲等問題。

對此,第四範式將OODA中的“觀察”、“判斷”進行結合,融合了數據驅動的機器學習與專家知識驅動的機理模型,提出了新的計算機輔助決策技術「環境學習」,以此構成接近真實世界虛擬環境,很好的彌補了數字孿生和模擬仿真技術缺陷。

在數據方面,針對專家有限決策以及實際業務數據量不足以預測的問題,環境學習融合了專家經驗與大數據,打通數據孤島。同時,針對專家無法定量的分析問題,環境學習可以從現有的數據中學習,藉助機器學習以及大規模非梯度優化技術,補足虛擬環境定量細節且精確度高,並通過機器不斷的自學習,快速迭代,對環境變化做出及時反應,以更好地解決 What-If、預測類問題。同時,環境學習還會藉助如逆強化學習等技術手段,更好地學習決策環境中人的激勵模型,從而提升對決策環境中人的行爲預測泛化能力。

由於綜合了專家知識、機理模型和數據驅動的機器學習能力,「環境學習」能夠構建更爲精準的虛擬環境,因此可以爲人的決策提供更加精準的預判,定量推演在不同決策情況下的業務發展,從而使得人做決策不再“拍腦袋”,變得有據可依。

此前,爲了更好地輔助疫情防控,第四範式率先將「環境學習」技術應用在疫情防控系統中,爲追蹤傳播路徑、篩查高危人羣、推演疫情發展等疫情防控關鍵環節提供參考。相比經典的傳染病SEIR模型,基於「環境學習」的方案推演誤差降低超過90%。

環境學習+強化學習 加速計算機自主決策廣泛應用

「環境學習」解決了“觀察”、“ 判斷”,通過學習得到的虛擬環境,可以輔助人進行更好地決策,但仍然未實現機器的自主決策,即便有了環境學習,人做決策的時候往往也很難做到精準與實時。

首先,實際決策場景中影響因素複雜且繁多;其次,實際業務關注長期回報,需要連續決策而非單次決策,而且決策效果往往延遲體現;最後,實際業務需要精細化決策,決策量龐大,部分業務還需要實時決策(比如毫秒級響應)。諸如以上原因,讓現有的基於人和傳統運籌學的決策優化方式,很難有效解決實際業務中的大規模連續實時精準決策問題

業界較爲常見的做法,是利用「強化學習」技術,通過決策體與決策環境不斷的交互,形成反饋,從而在各種試錯中找到最大的收益方式。

相比於人和運籌學,強化學習更爲適合解決複雜實際決策問題。首先,得益於深度學習技術的發展,深度強化學習技術藉助深度學習,使得決策策略可以融合複雜場景的大量因素;其次,結合功勞分配(Credit Assignment),可考慮連續決策的長期影響;同時可以依靠計算機強大的計算能力,提供大量精細化決策,並依靠分層強化學習技術,實現不同決策層級的自主決策。不同於傳統運籌學技術依靠漫長複雜求解過程來響應實際決策需求,強化學習訓練得到的策略往往具有極強的實時響應能力。

然而,強化學習採用試錯方式學習,在實際應用中,強化學習的學習過程需要與真實環境有大量的交互,真實環境中的試錯代價往往是極其高昂的(比如無人駕駛產線調整等),且是不可逆的(比如新冠疫情防疫中,若嘗試封城那就無法獲知不封城的結果,若不封城就無法獲知封城的結果)。由於當前強化學習技術極低的樣本利用效率,企業難以支撐強化學習大規模的試錯成本與代價。

「環境學習」加速了「強化學習」落地應用,通過「環境學習」構建的虛擬環境可以幫助強化學習做低成本試錯和策略迭代,「環境學習」和「強化學習」的融合方案構建了機器的自主決策能力,從而打通了“觀察”、“ 判斷”、“ 決策”、“行動”四大決策環節,AI直接解決決策類問題。

該方案能夠充分發揮機器的優勢,實現數據驅動的定量決策,在實時決策的同時,快速跟上業務變化,做到面面俱到的“機器理性”。同時也可以成爲組織溝通媒介,提升協同效率,有助於打通組織決策閉環。

目前,第四範式基於「環境學習」與「強化學習」的方案已廣泛應用於產品研發、製造派工排產、博弈類、推薦系統與市場營銷等場景中,其中幫助某零售連鎖企業實現了精準銷量預測及智能補貨,供應鏈成本相較於基線降低20%以上,爲供應鏈補貨、調撥、進銷存計劃提供了科學參考依據。