刪除冗餘,倍增儲存空間利用率
文/張明德 (記者) 2007-10-14

廣義的重複資料刪除技術,包含任何可縮減儲存容量的技術。而狹義的重複資料刪除技術,則專指可透過特定演算法,在區塊層級進行資料分解比對的De-Dupe技術。

De-Dupe,Data de-duplication
重複資料刪除技術,大幅降低儲存容量的消耗,讓儲存設備發揮遠超實體容量的儲存效果

數位資料的持續增加已是無可避免的趨勢,企業耗費在儲存媒體與網路頻寬上的資源越來越高。雖然儲存媒體與網路頻寬的成本日益降低,但無限制地購買硬體顯然不是合理的解決辦法。

一種應對方式就是從儲存端下手,透過虛擬方式讓一份實體資料代表邏輯上好幾份重複的資料,如此便可以刪除不必要留存的重複資料,但又不會影響資料的可用性。這也形同讓每一單位實體空間,具備原來好幾單位實體空間的儲存效果,這也就是重複資料刪除(Data de-duplication,簡稱De-Dupe)技術所要達到的目的。

廣義的重複資料刪除技術,包含任何可縮減儲存容量的技術,如傳統的檔案壓縮、單實例儲存(Single Instance Storage,SIS)、增量或差異備份等。而狹義的重複資料刪除技術,則專指可透過特定演算法,在區塊(Block)層級進行資料分解比對的De-Dupe技術。

傳統的檔案壓縮只能縮減單一檔案的容量,SIS雖能跨檔案比對,但比對只限於檔案層級,無法處理更低層次的資料冗餘,節省容量的效果相當有限。。

區塊層級的重複資料刪除,除了能像傳統壓縮技術般深入檔案底層,比對單一檔案內的重複外,也有SIS般的「跨檔案」比對能力。它可以區塊為單位分析整個磁碟區的資料底層結構,找出資料是由哪幾種資料排列結構所組成,接下來對每一種結構都只留下一份,刪除掉結構相同的重複部份,只留下一個索引,指明刪除前的結構。透過索引就能讓一份唯一的資料代表很多份重複的資料,儲存空間內只要留下不重複的資料與索引即可,因此大幅降低了資料占用的實體空間。文⊙張明德

De-duplication Ratio
重複資料刪除率

可有兩種算法:以「容量」為基準,是指以原始資料容量,與De-Dupe處理後磁碟實際存入資料量之比;以「時間」為基準,則是假設企業每天都對資料作全備份,比較以De-Dupe處理後磁碟實際消耗容量,與每日執行全備份所需容量。一般企業每天只有3~5%的新增或異動資料,如果「每天都做全備份」,備份中就有95%以上沒有異動的重複資料,以此為基準,De-Dupe將可算出數十倍以上的容量節省效果。

Source-based process

來源端處理

指在資料產生或送出的來源端執行De-Dupe運算,由於資料在前端伺服器上就已經過De-Dupe的處理,因此送到網路上的資料已經經過刪減,有節省網路頻寬的優點。不過刪減演算也會占用到前端主機的運算資源,通常還要在前端伺服器安裝代理程式。

Target-based processing

目標端處理

在儲存設備端執行De-Dupe運算,當資料被送到儲存設備寫入磁碟時,或是在寫入後,再執行De-Dupe處理。由於資料是以原始形態從前端被送到網路上,因此不能節省頻寬。但因前端不需執行De-Dupe處理,所以也不用安裝任何代理程式,主機的運算資源不會受到任何影響。

In-line process
線上處理

資料在執行備份、複製或寫入磁碟動作時,同步執行資料刪除演算。也就是說,在資料正準備經由網路送到後端,或是後端儲存設備經由網路收到前端資料,準備寫到磁碟時,同時進行內容比對與刪除演算。由於資料比對與刪除演算相當耗費處理器資源,因此線上即時處理將會拖累系統效能,影響備份速度。但因資料在寫入磁碟前就已經過刪減演算,故占用空間較小。

Post process
後處理

指資料在寫入磁碟後,再以指令啟動,或自訂排程啟動De-Dupe系統對存在磁碟上的資料進行刪除演算。寫入後再行處理。雖然不會影響到系統效能,可選擇離峰時間再啟動De-Dupe,但資料在寫入磁碟時還是維持未經刪除的原始形態,還是會占用和前端一樣大的空間,直到啟動De-Dupe後才有縮減效果,因此對寫入後再處理的De-Dupe產品,用戶必須準備較大的「暫存」儲存空間。

Data signature/redundant identification algorithm
資料特徵/冗餘辨識演算法

De-Dupe的關鍵在於如何分析資料,從而判斷資料的重複。考慮到資料量的龐大,顯然不可能每個位元組地逐一掃描整個磁碟區,再交叉比對每個位元的資料是否相同。實務上通常都是把資料以區塊或區段為單位,並透過SHA-1等特定演算法來執行資料分析與比對的工作。把不同長度的資料經運算後得出一個「特徵值」或「指紋」,只要是特徵值相同的資料,就能視為是「重複」。

SIS,Single Instance Storage
單實例儲存

一種縮減儲存容量的技術,原理與De-Dupe相似,SIS並非實際去比對檔案的每個位元組,而是對每一檔案以特定演算法求取一個特徵值,在新檔案寫入前,系統也會先求出特徵值。再與已存在於磁碟區中的所有檔案特徵值做比對,若特徵值相同,則代表檔案重複,只會留下一個指向已有資料的索引連結,而不實際儲存。但SIS判斷冗餘的層級是「檔案」,而De-Dupe則能處理更低階區塊層級的冗餘。

File Compression
檔案壓縮

傳統縮減容量的作法,透過特定演算法比對檔案內的位元組,重複的元素將會被刪除,只留下一個指標,如ZIP即是利用一份檔案中「短語重複」以及「單位元組重複」加以壓縮。但壓縮演算的重複樣本比對範圍固定在一個小範圍(如8KB),對某些經過壓縮編碼的資料如圖形、影音等幾乎沒有效果,也只能比對單一檔案,無法跨不同檔案比對內容。

Incremental Backup
增量備份

一種縮減備份容量與時間的備份策略,增量備份只會備份從上一次任何一種備份後,所新增或異動的資料,因此占用的容量與時間較全備份大幅降低。又分為檔案級(file-based)與區塊級(block-based)兩種,不同之處在於偵測異動的單位是檔案或區塊。檔案級是檢查檔案保存位元(Archive bit)來判斷檔案是否異動,而區塊級則能偵測到區塊層級的異動,只傳輸異動過的區塊,頻寬占用或空間消耗都更小。

 

from http://www.ithome.com.tw/itadm/article.php?c=45711

arrow
arrow
    全站熱搜

    luishsu 發表在 痞客邦 留言(0) 人氣()