刪除冗餘，倍增儲存空間利用率 @ Luis國際資訊事務所

刪除冗餘，倍增儲存空間利用率

文/張明德 (記者) 2007-10-14

廣義的重複資料刪除技術，包含任何可縮減儲存容量的技術。而狹義的重複資料刪除技術，則專指可透過特定演算法，在區塊層級進行資料分解比對的De-Dupe技術。

De-Dupe，Data de-duplication
重複資料刪除技術，大幅降低儲存容量的消耗，讓儲存設備發揮遠超實體容量的儲存效果
數位資料的持續增加已是無可避免的趨勢，企業耗費在儲存媒體與網路頻寬上的資源越來越高。雖然儲存媒體與網路頻寬的成本日益降低，但無限制地購買硬體顯然不是合理的解決辦法。

一種應對方式就是從儲存端下手，透過虛擬方式讓一份實體資料代表邏輯上好幾份重複的資料，如此便可以刪除不必要留存的重複資料，但又不會影響資料的可用性。這也形同讓每一單位實體空間，具備原來好幾單位實體空間的儲存效果，這也就是重複資料刪除（Data de-duplication，簡稱De-Dupe）技術所要達到的目的。

廣義的重複資料刪除技術，包含任何可縮減儲存容量的技術，如傳統的檔案壓縮、單實例儲存（Single Instance Storage，SIS）、增量或差異備份等。而狹義的重複資料刪除技術，則專指可透過特定演算法，在區塊（Block）層級進行資料分解比對的De-Dupe技術。

傳統的檔案壓縮只能縮減單一檔案的容量，SIS雖能跨檔案比對，但比對只限於檔案層級，無法處理更低層次的資料冗餘，節省容量的效果相當有限。。

區塊層級的重複資料刪除，除了能像傳統壓縮技術般深入檔案底層，比對單一檔案內的重複外，也有SIS般的「跨檔案」比對能力。它可以區塊為單位分析整個磁碟區的資料底層結構，找出資料是由哪幾種資料排列結構所組成，接下來對每一種結構都只留下一份，刪除掉結構相同的重複部份，只留下一個索引，指明刪除前的結構。透過索引就能讓一份唯一的資料代表很多份重複的資料，儲存空間內只要留下不重複的資料與索引即可，因此大幅降低了資料占用的實體空間。文⊙張明德

De-duplication Ratio
重複資料刪除率
可有兩種算法：以「容量」為基準，是指以原始資料容量，與De-Dupe處理後磁碟實際存入資料量之比；以「時間」為基準，則是假設企業每天都對資料作全備份，比較以De-Dupe處理後磁碟實際消耗容量，與每日執行全備份所需容量。一般企業每天只有3～5%的新增或異動資料，如果「每天都做全備份」，備份中就有95%以上沒有異動的重複資料，以此為基準，De-Dupe將可算出數十倍以上的容量節省效果。

Source-based process

來源端處理
指在資料產生或送出的來源端執行De-Dupe運算，由於資料在前端伺服器上就已經過De-Dupe的處理，因此送到網路上的資料已經經過刪減，有節省網路頻寬的優點。不過刪減演算也會占用到前端主機的運算資源，通常還要在前端伺服器安裝代理程式。

Target-based processing

目標端處理
在儲存設備端執行De-Dupe運算，當資料被送到儲存設備寫入磁碟時，或是在寫入後，再執行De-Dupe處理。由於資料是以原始形態從前端被送到網路上，因此不能節省頻寬。但因前端不需執行De-Dupe處理，所以也不用安裝任何代理程式，主機的運算資源不會受到任何影響。

In-line process
線上處理
資料在執行備份、複製或寫入磁碟動作時，同步執行資料刪除演算。也就是說，在資料正準備經由網路送到後端，或是後端儲存設備經由網路收到前端資料，準備寫到磁碟時，同時進行內容比對與刪除演算。由於資料比對與刪除演算相當耗費處理器資源，因此線上即時處理將會拖累系統效能，影響備份速度。但因資料在寫入磁碟前就已經過刪減演算，故占用空間較小。

Post process
後處理
指資料在寫入磁碟後，再以指令啟動，或自訂排程啟動De-Dupe系統對存在磁碟上的資料進行刪除演算。寫入後再行處理。雖然不會影響到系統效能，可選擇離峰時間再啟動De-Dupe，但資料在寫入磁碟時還是維持未經刪除的原始形態，還是會占用和前端一樣大的空間，直到啟動De-Dupe後才有縮減效果，因此對寫入後再處理的De-Dupe產品，用戶必須準備較大的「暫存」儲存空間。

Data signature/redundant identification algorithm
資料特徵/冗餘辨識演算法
De-Dupe的關鍵在於如何分析資料，從而判斷資料的重複。考慮到資料量的龐大，顯然不可能每個位元組地逐一掃描整個磁碟區，再交叉比對每個位元的資料是否相同。實務上通常都是把資料以區塊或區段為單位，並透過SHA-1等特定演算法來執行資料分析與比對的工作。把不同長度的資料經運算後得出一個「特徵值」或「指紋」，只要是特徵值相同的資料，就能視為是「重複」。

SIS，Single Instance Storage
單實例儲存
一種縮減儲存容量的技術，原理與De-Dupe相似，SIS並非實際去比對檔案的每個位元組，而是對每一檔案以特定演算法求取一個特徵值，在新檔案寫入前，系統也會先求出特徵值。再與已存在於磁碟區中的所有檔案特徵值做比對，若特徵值相同，則代表檔案重複，只會留下一個指向已有資料的索引連結，而不實際儲存。但SIS判斷冗餘的層級是「檔案」，而De-Dupe則能處理更低階區塊層級的冗餘。

File Compression
檔案壓縮
傳統縮減容量的作法，透過特定演算法比對檔案內的位元組，重複的元素將會被刪除，只留下一個指標，如ZIP即是利用一份檔案中「短語重複」以及「單位元組重複」加以壓縮。但壓縮演算的重複樣本比對範圍固定在一個小範圍（如8KB），對某些經過壓縮編碼的資料如圖形、影音等幾乎沒有效果，也只能比對單一檔案，無法跨不同檔案比對內容。

Incremental Backup
增量備份
一種縮減備份容量與時間的備份策略，增量備份只會備份從上一次任何一種備份後，所新增或異動的資料，因此占用的容量與時間較全備份大幅降低。又分為檔案級（file-based）與區塊級（block-based）兩種，不同之處在於偵測異動的單位是檔案或區塊。檔案級是檢查檔案保存位元（Archive bit）來判斷檔案是否異動，而區塊級則能偵測到區塊層級的異動，只傳輸異動過的區塊，頻寬占用或空間消耗都更小。

from http://www.ithome.com.tw/itadm/article.php?c=45711

luishsu

Luis國際資訊事務所

luishsu 發表在痞客邦留言(0) 人氣()

E-mail轉寄

Luis國際資訊事務所

國際局勢千變萬化，經濟與政治的重要性越來越跟我們息息相關，關注Luis伯豪國際資訊事務所，帶給您最新的國際大事，最快速的經濟訊息，最有效的應對方式，與最有趣的觀點探討。歡迎關注與訂閱我的部落格。

公告版位