eBay將資料庫中的資料架構虛擬化,讓資料庫資源可彈性配置,也減少因分析造成的大量資料複製的資料量,各單位也可以透過自助服務申請所需要使用的資料超市(Data Mart)。

對於臺灣企業來說,巨量資料的分析與應用大多採取較為保守的態度,即便看到巨量資料的來臨,還是著重於結構性資料的應用。

這可能是受臺灣的市場規模所限,相對來說,國外的許多大型企業則是已經看到不少巨量資料的挑戰,並且試著用更好的效能或是管理來解決。比如以麥當勞來說,他們因為近年來在世界各地越來越多產品品項,每一個品項在各地的銷售狀況,都會再傳回美國母公司的資料庫進行分析,為了優化資料庫的效能,藉由管理工作負載的軟體來改善資料回應的速度。

但對擁有全世界最大資料倉儲系統的eBay來說,挑戰不僅於此。eBay近年來數據成長的腳步相當驚人。他們現在每天有50PB的新增資料,使用者平均每天對5萬種商品進行數百萬次的網上查詢。除此之外,eBay還有7,000多個商業用戶和分析人員,為了分析,每8秒鐘會產生1TB的資料量。這些加起來,eBay每天要處理的資料量高達100PB。

巨量資料最大的挑戰是要同時處理結構與非結構性資料

這麼驚人的數字對eBay 來說並不只是量的增加而已。eBay分析平臺高級總監Oliver Ratzesberger認為,近年來在分析資料領域最大的挑戰就是要同時處理結構化與非結構化的資料。

eBay的非結構化資料主要是來自行為分析的數據、以及網站點擊率的分析。Ratzesberger表示,這些資料都比過去還要複雜、多變許多。就拿追蹤點擊率來說,近年來大部分的網頁都是動態網頁,過去只要透過網址就能知道使用者正在看什麼網頁,但是現在一個網頁上的內容變多了,而且每一秒都在變化,這對於分析使用者行為來說,難度也就更高。

Ratzesberger認為,目前關聯式資料庫已經能夠將結構性資料處理的非常好,不過,在半結構性資料或非結構性資料的處理能力還不行,而這些點擊率資訊就是這一類的資料。

運用Hadoop技術將大塊資料打散,可讓資料模型更小

因此,eBay在4年多前另外建立了一個軟硬體整合的平臺Singularity,在這個平臺上他們開始開發壓縮技術與解決結構、半結構資料的技術。2年多前這個平臺上加入了Hadoop的技術,專門處理半結構與非結構性的資料。Ratzesberger表示,現在eBay在這個平臺上處理的結構與非結構性資料已經達到40PB。

這個平臺除了可以儲存大量的結構與非結構性資料外,藉由Hadoop 的技術處理大塊的非結構性資料,當資料庫引擎出現大量的請求與查詢時,就不需要將整個資料放到資料模型中,因此讓資料模型變得較小。

在eBay的作法上,他們先為點擊率中的共同特性設定欄位,像是IP位址、時間、URL、使用者所使用的瀏覽器等,再進行交叉分析。這些欄位仍舊保留,其他較複雜的非結構化訊息則集中在另一個欄位中,一旦出現查詢需求時,就可以經過相對應數值的匹配,找到符合的概念與資料,再應用到資料模型中。而這些資料都會放在同一個資料表中。

eBay充分運用所能蒐集到的資料加以分析,並不是IT技術上的變革而已,這些工作,也確實對eBay產生了不少正面的影響。比如說,頂級賣家的銷售額占所有賣家銷售額的百分比從2009年10月的22%,到2010年4月時成長為32%,一共上升了10個百分點。

Ratzesberger表示,從分析使用者行為中得出來的介面設計經驗,也優化了網頁結構,提高銷售額。

應用虛擬化的資料超市來減少重覆複製資料

其實分析本身就是資料量不斷增加的一個重要因素。每進行一次分析,用於分析的資料就會再被複製一次,使得資料量不斷成長。但是,企業也必須使用資料倉儲進行深度分析,惟有深度分析才能創造出與其他企業區隔的獨特之處。

為了減少資料不斷複製的情況,Ratzesberger就提出了分析作為服務(Analytics as a Service)的觀念。作法是提供虛擬化的資料架構,也就是將資料超市(Data Mart)虛擬化,這些資料超市就像是一種資料次集合。當eBay旗下各單位有資料分析需求時,可以用自助服務申請專屬的資料次集合。

Ratzesberger表示,過去當業務單位需要分析資料時,這些資料可能來自於不同的資料庫,而這些資料庫也不能共享,資料產出的分析會存在一個資料庫中,當另一個單位需要分析時,就要將類似的資料再複製一次,導致許多資料為了不同的分析目的而被一再地複製。

資料架構虛擬化之後所有的資料都儲存在統一的資料倉儲中,當任何單位有需要分析服務時,這些資料超市都是共享同一個資料倉儲中的資料,而不需要複製,只有特別具有保存價值的分析結果資料,才另外進行儲存。

這樣做也可以解決資料庫使用效率不彰的問題。Ratzesberger表示,過去不同部門的資料超市都各自儲存,使得有些資料庫的效能浪費掉,有的資料庫效能又不敷使用。「在資料架構虛擬化之前,資料庫有一半以上的性能都浪費掉了。」他說。

舉例來說,在早上9點時,是行銷與IT部門的使用率最高,10點時,又變成行銷、財務、搜尋的使用率最高,到了下午1點,詐欺跟客戶服務的使用率變得最高。利用資料架構虛擬化的作法,就能在不同時間彈性調配不同的資料庫運算資源給不同單位使用。

現在eBay還讓企業內部的員工可以自助服務,申請自己需要的資料超市。這個虛擬的資料超市可以隨時調配需求,也具有簡單的管理功能。

未來,eBay也關注於社群網站的言論分析,配合行動裝置銷售版圖的擴展進行更多行動應用的優化,像是藉由行動裝置拍攝逛街看到的衣服照片,就可以立刻搜尋拍賣網站是否有相同物件等功能。因此,從今年開始,eBay還要進一步把Hadoop的技術整合進資料倉儲中,協助分析大量的資料,以因應未來持續增加、越來越複雜的資料量,以及更即時的回應。

 

eBay分析平臺高級總監Oliver Ratzesberger認為,近年來在分析資料領域最大的挑戰就是要同時處理結構化與非結構化的資料,而傳統的關聯性資料庫無法解決非結構化資料。

 

分析結構與半結構化資料表範例

eBay的資料表同時存放結構與半結構資料,結構化資料的欄位不變,其他較複雜的非結構化訊息則集中在另一個欄位中,一旦出現查詢需求時,就可以經過相對應數值匹配。

 


相關報導請參考「PB級資料的挑戰:巨量資料來襲


熱門新聞

Advertisement