火山引擎DataLeap:更強的數據目錄搜索能力,做到一步找數

(原標題:火山引擎DataLeap:更強的數據目錄搜索能力,做到一步找數)

隨着數據管理變得更加複雜,元數據的重要性呈指數級增加。

如今,Data Catalog(數據目錄)被看成是元數據管理的最佳工具,而一個通用的Data Catalog平臺,通常包含元數據管理,搜索,血緣,標籤,術語等功能。

其中,搜索是Data Catalog的入口功能,承擔着讓用戶“找到數”的主要能力。

通過彙總和組織各種元數據,火山引擎大數據研發治理套件DataLeap的Data Catalog系統,可以幫助企業梳理數據、查詢數據和理解數據的業務場景。而在DataLeap的Data Catalog系統中,每天有70%以上的用戶會使用搜索功能。

區別於需要指定具體資產類型,或在搜索結果頁對不同的資產分欄顯示的聯合搜索,爲了滿足個性化、多語言、秒級實時性等需求,火山引擎DataLeap的Data Catalog的系統採用了個性化綜合搜索的方案。

該綜合搜索方案允許用戶在同一個搜索框中進行搜索輸入,而無需指定搜索的資產類型;同時,搜索服務會在同一個搜索結果頁返回不同類型的相關資產,並根據匹配程度和用戶的個性化數據,進行混合排序。不僅可以給到不同用戶針對不同資產的搜索需求,提供高度統一的搜索體驗,同時還提供了跨類型圈定資產的能力。

圖:火山引擎DataLeap的Data Catalog系統整體架構

火山引擎DataLeap的Data Catalog搜索系統,採用了開源搜索引擎Elasticsearch,在海量數據下,其分佈式的實時文件存儲及實時分析搜索引擎,讓每個字段都可以被索引且可用於搜索,可達到近實時秒級響應。同時,Elasticsearch採用的Restful api架構,天生的兼容多語言開發,且擴展能力強,可以處理PB級結構化或非結構化數據。

除了個性化的搜索需求,火山引擎DataLeap也支持單純的列表模式,對於不要求精細度的查詢需求,用戶可以在此模式下,通過指定字段來對搜索結果進行簡單排序。

未來,火山引擎DataLeap團隊將進一步探索性能更完善的進階搜索功能,包括查詢語法功能的實現,以及血緣搜索和多租戶之間模型的遷移。

除此之外,火山引擎DataLeap還可以提供數據集成、開發、運維、治理、資產等能力,幫助用戶提升數據研發效率、降低管理成本,加速推動企業的數字化轉型,目前已經應用於泛互聯網、製造、新零售、汽車等領域,幫助數據團隊有效的降低工作成本和數據維護成本、挖掘數據價值、爲企業決策提供數據支撐。