網路資訊/六個關於巨量資料不能說的秘密

作/麥克

擁抱巨量資料前 先學會正確使用資料

《2013年巨量資料大調查》顯示出,當前並不缺乏可以深入爭論的事實數字工具。既然如此,我們又怎能以僅9%比例的上述依恃,便說明巨量資料將會對使用者造成極大的影響。

當只有31%的商業使用者存取資訊,以及只有20%的公司想要擴大其專屬分析團隊時,我們又該如何期望能有所改善呢?

揭露巨量資料沒說出口的真相

《資訊週刊》2013年巨量資料大調查顯示出一些好消息,亦即當前大部分的廠商在打造必要基礎設施,以及因應不同角色需求的工具提供上,都有不錯的表現。然而, 當被問及資料蒐集與實際使用率時,巨量資料之輪竟然隨即爆胎脫落了。

主要的鴻溝是在資料分析上,甚至是最常見並一直使用多年的資訊分析亦然;在此所指的是,平日常見的交易資料、系統日誌電子郵件客戶關係管理(CRM),甚至網站分析等資訊的分析。

但糟透的是,只有不到10%的調查對象表示,提出全新資料觀點之構想,主要是由企業組織內部協同團隊或跨部門小組來主導的。

在此先花個時間來看看這次問卷調查對象的基本資料。其中有接近半數的調查對象所管理的資料總量達到500TB,甚至更多容量,而有13%則更超過10PB(見圖1)。

所有企業的員工數至少都在50人以上,57%的填卷者皆屬執行長、資訊長等C級(C-level)或副總級管理階層總監經理級職位者。其中5營收皆在1億美金以上,而有28%的比例,其營收達到10億美金以上。透過IT能清楚地知道有問題存在,但卻只有9%的問卷對象,認爲他們公司擁有非常有效益的使用者資料。

然而,只有4%的調查對象勇於承認,他們並不擅於善用自家的資料。事實上,許多筆者所接觸的IT 組織,多半對業務充份授權自我感覺良好。所以在使用者採買更多儲存升級資料倉儲平臺,抑或加速巨量Hadoop實例之前,讓我們一同來個揭開真相的檢查吧!

以下列舉了CIO們自己提到的6大謊言,其中有多少是你聽過的呢?

謊言一:真正明白當前擁有多少資料

第一個對於本次調查的一大打擊就是,將近45%的調查對象表示, 其可納入管理範疇的資料總量爲500TB以上。這是真的嗎?

有鑑於本次調查對象資料池(Data Pool)中的最小分界點是50名員工,同時其中75%的調查對象擁有500名以上的員工,以此邏輯來看,他們的資料正在不斷遺失中。規模500人、營收2.5億美元的公司組織,通常每年有可能累積多達165TB以上可供分析之用的有效資料,這是最基本的數量(見表1)。資料管理並不僅止於所儲存的資料, 而應該包括所研究的資料在內纔對。

瞭解現有資料池的數量大小與組成結構非常重要。這不僅僅有助於瞭解當下最需要的基本工作要素爲何,例如,儲存或歸檔同時也有助於釐清出能搞懂一切所必需的工具及人力

絕大部分的調查對象都將伺服器磁碟陣列列爲儲存管理上的首要考量,但只有30%會考量雲端資料,同時只有11%的調查對象特別着重在供應鏈資訊的管理上。假如不將重大資料集(Data see)納入計劃中的一部分的話,那麼將會爲進行中的分析埋下最終失敗的伏筆

在進行方案商績效評量時,怎能沒有資料傳輸效能準確率成本差異等重大細節作爲依據呢?同樣的,在進行客戶行爲研究時,若沒有Web線上或雲端CRM的詳細資料做分析基礎,又怎能獲得確實的真相?

網路資訊.254.255期(新春號)