智能駕駛疆場,海天瑞聲的「數據」縱橫論

(原標題:智能駕駛疆場海天瑞聲的「數據」縱橫論)

導語:數據已經成爲了一種生產要素

上海世博中心,2021世界人工智能大會剛剛落幕。

作爲人工智能的重要應用之一,自動駕駛也在這場一年一度的全球頂級會議期間大放異彩——

會議期間首次開展了面向大會觀衆基於開放道路的載人應用體驗,體驗路線總長2.8公里,共12個路口,途經世博中心。此外,特定區域自動駕駛應用展示也同步進行。

自動駕駛動態體驗線路

基於這些應用體驗,國內自動駕駛全產業鏈成就和最高技術水平得以展示,自動駕駛技術對於人們日常生活以及出行方式的改變可以窺見。

事實上,自動駕駛系統平穩運轉的背後,是一個大家都耳熟能詳的關鍵詞——數據。

"數據已經成爲了一種生產要素,前提是要把人類世界的信息轉化爲計算機可以識別的方式。"海天瑞聲的副總裁李科告訴新智駕。

想要打造真正安全可靠的量產自動駕駛產品、支持成千上萬輛同時交互的自動駕駛車輛,企業就必須想明白如何高效地收集以及有效利用海量數據。

那麼,具體該怎麼做呢?

智能駕駛的"幕後英雄"

儘管不像硬件一樣看得見摸得着,但無論是自動駕駛、輔助駕駛,還是智能座艙,這些被賦予智能屬性的駕駛體驗都離不開數據的驅動

在李科看來,通過訓練數據生產的各個環節(設計、採集、加工、質檢),可以收穫很多有益於智能駕駛算法模型迭代的規律和結論。

譬如關於駕駛員踩剎車的圖像數據

這個動作通常代表着判斷和決策的結果,那麼在這個動作之前發生了什麼?在這個動作之後發生了什麼?有沒有比較特殊的事情發生?

再譬如關於艙內語音交互的數據

語音交互時,哪些功能的啓動可能會對駕駛產生干擾?麥克風如何排列可以更好地滿足各個座位上的交互需求?回聲噪聲的情況如何、該怎樣解決?

於自動駕駛企業和主機廠而言,這些數據都值得重點關注,因爲它們後續可能有助於強化 Corner Case 的處理能力、優化用戶的乘坐體驗。

而計算機視覺和智能語音訓練數據正是海天瑞聲從事了近二十年的領域,且已向微軟、亞馬遜、阿里等國內外500多家知名企業提供從方案設計、數據採集、加工處理到質檢交付的全流程數據服務

其中,海天瑞聲在智能座艙的佈局,最早可以追溯到2005年。這些歷程無疑爲其積累了足夠多數據層面的 know-how,使得海天瑞聲可以基於自己的技術研發實力經驗沉澱從數據角度去加速客戶的算法模型訓練及商業化落地,相應的也得到了越來越多智能駕駛客戶的青睞。

思之深行之遠

事實上,除了數據採集、標註服務,一個實力雄厚、經驗豐富的數據合作伙伴最重要的是幫助玩家們較爲準確地預估投入產出比,找到與整體業務目標契合的解決方案。

對此,李科也嘗試通過一個例子來幫助理解。

在訓練算法模型時,玩家們希望獲得某一場景中所有可能碰到的情況並以數據的形式給到機器去學習,在智能駕駛業務中,這不僅包括常規的多種路況環境(擁堵、城市街道、高速路段),天氣狀況諸如大霧、暴風雨雪天氣,不同光線條件例如白天、黑夜、清晨傍晚,還包括交通事故、違規行爲等各種突發狀況

智能駕駛艙外採集環境多樣、複雜

這就要求包括海天瑞聲在內的數據服務商能夠深刻理解客戶的業務場景,在設計方案過程中考慮到算法對樣本多樣性的需求,以及不同樣本數據的佔比應該是怎樣的,同一類型場景的數據至少要達到多少才能滿足機器學習的需求,數據方案如何設計才能避免出現與模型的過擬合、欠擬合等諸多問題。

幫助客戶不在數據準備階段走彎路,加速模型訓練、產品落地和迭代是海天瑞聲堅守的初衷。

起於磚瓦的技術壁壘

隨着智能駕駛更進一步發展,在可預見的未來裡,玩家們對底層數據處理能力的要求會越來越高、對長尾場景數據的需求會越來越大、對高質量訓練數據的訴求會越來越強,智能駕駛的發展已成爲不可逆轉的大趨勢,並且具備了進一步落地應用的充分條件

然而這一領域鮮有高質量的一站式數據服務,整體的數據處理速度、精度、準度都還有待提升,尤其是3D 點雲數據。

因爲遠見,海天瑞聲早已開始思考如何將自己在數據處理方面的先發優勢最大化發揮,去幫助玩家們解決痛點。據瞭解,目前海天瑞聲的技術已經能夠支持3D 點雲標註、3D 點雲連續幀標註、3D 連續幀與2D 聯合的標註、3D 語義分割等。

譬如,針對同一物體在不同空間中的數據處理,海天瑞聲前期會對其進行多個座標系建模和配準,然後經過校準投影到同一個座標系中,最終保障不同空間中的標註結果的統一。

對於3D & 2D 的聯合標註,海天瑞聲能夠通過算法實現3D 標註結果自動投影到2D 平面,隨之自動生成對應目標的空間位置。

可以看到,得益於強勁的技術實力以及在數據服務領域耕耘的經驗,即便是在新興的且難度較大的3D 點雲數據處理方面,海天瑞聲也已經做得遊刃有餘。

在艙內場景,DMS 數據因爲涉及到光線、多角度同步等不同要求,大大加劇了採集的難度。海天瑞聲則基於自研的多通道桌面車載錄音工具,配合不同採集設備,從採集端實現多通道同步,且支持靈活參數設置和實時語音質檢,在提高採集效率的同時還能夠實時監控採集質量。

艙內多通道採集示例

種種這些,都是海天瑞聲區別於業內其他數據服務商的根源,也是在經年累月的努力下爲自己打造的深厚壁壘,使其得以領跑智能駕駛數據服務。

數據安全,立身之本

隨着行業的高速發展,千差萬別的需求背後,不變的是對數據合規及安全的要求。作爲行業的領路人,海天瑞聲穩步前行的同時也持續加碼在合規及安全方面的建設。

其業內首創科學的項目管理體系,從資源的合規性、數據存儲安全及流轉等方面制定了詳盡的措施:

比如,所有項目採集前必須獲得被採集人的書面授權,否則需要重新配置資源以保障合規性;

同時,海天瑞聲還專門設立了進行數據安全及合規性審覈的數據保護官(以下簡稱"DPO");並且通過完善的制度條例充分保障被採集人的權利,曾經有一位海外被採集人在項目結束後申請刪除個人數據信息並撤回相應授權,收到請求的DPO第一時間整理了相關資料後與客戶聯繫,協商操作,最終在24小時內完成了被採集人的訴求;

2018年5月由歐盟出臺的《通用數據保護條例》,被稱爲史上"最嚴數據保護法案",曾因爲數據信息保護失職對英航開出了15.8億人民幣的天價罰單。值得一提的是,此法案一經出臺,就被海天瑞聲納入了項目及技術研發人員的"必修課",組織學習並進行考覈;

除了制度上的嚴格規範,一向以技術嚴謹而著稱的海天瑞聲自然也有相應的"硬實力"去保障數據安全,即一體化數據處理平臺

該平臺是海天瑞聲基於自身近20年數據服務經驗,並融合了數十項核心技術及專利打磨而成。平臺內上千個自研標註工具聯合打通,不僅可以用來處理複雜的交叉業務場景數據,更重要的是保證了數據從採集到脫敏、清洗、標註、質檢等全流程不出平臺即可完成,與平臺內嚴格的人員權限管理、實時監控等功能一起,充分保障了數據的安全可控。

此外,還支持私有部署、駐場標註等一系列高級別數據安全處理請求。

以上種種舉措,使得海天瑞聲很早就通過ISO/IEC 27001管理體系認證,並於日前獲得具有"最嚴苛資質審覈"稱號的ISO/IEC 27701隱私保護標準認證。

數據的合規安全是客戶的重要訴求,也是海天瑞聲牢牢堅守的生命線。

行於未來之路

縱觀行業的發展,智能駕駛已經成爲了全球大多數國家和地區都在推進的主旋律,這個市場的規模還將呈倍數增大。

對此,李科向新智駕表示,現在一些造車新勢力發展勢頭迅猛,這會進一步帶動艙外感知的數據需求,我們今年在持續發力艙內的同時,會側重艙外的佈局。

事實上,無論艙內還是艙外,與這些場景結合的技術大多離不開智能語音、計算機視覺和自然語言理解——這些也是海天瑞聲一直在耕耘、也會堅持耕耘的方向。正如李科所介紹的,從2005年開始,海天瑞聲就開始在AI全核心領域進行深度的數據佈局。

如今十六年過去,海天瑞聲已然立於數據服務行業的高山之巔。

全球語言學家團隊、 超過160語種方言服務能力、覆蓋全球近1/2國家及地區的本地化項目經驗、760餘個自有知識產權的訓練數據產品等,這些均是海天瑞聲長期以來堅持創新和自主研發的果實——不僅可以助其在火熱的智能駕駛賽道大展身手,加速海內外自動駕駛以及智能座艙的應用落地;也能夠作爲海天瑞聲發展的核心代名詞,成爲自身多項業務延續和拓展的重要基礎。

無論從何種角度來看,用戶驅動、需求驅動、實戰驅動都是推動海天瑞聲持續穩步前進的動能。也只有通過這些方式打造出來的產品,才接地氣、才具有真正的生命力。(來源:雷鋒網)