作者 主題: 超大型網站淘寶網的1800TB分散式儲存架構  (閱讀 19889 次)

0 會員 與 1 訪客 正在閱讀本文。

thx

  • 鑽研的研究生
  • *****
  • 文章數: 510
    • 檢視個人資料
    • http://www.osslab.com.tw

原文請看這
http://storage.it168.com/a2010/0829/1096/000001096373.shtml

http://www.taobao.com/ 淘寶目前在alexa  全球網站排名 15名上下

2006 時 淘寶網所需空間容量 約為200TB ,平均都是20K bytes 左右圖片檔
大量小檔案對於多機共用的 Cluster Storage Disk I/O會是不小挑戰

再加上每年2~3 倍在成長... 原有的頂級Netapp 也無法兼具系統效能與成長性.
(像台灣"有名"當初買了Sun StorageTek ...其實整體規劃不是好架構)

因此Taobao 便自行研發Cluster Storage system
名為:TFS (Taobao File System)
同類型opensources 專案還有 hdfs http://hadoop.apache.org/hdfs/


分散式儲存架構 等於將DATA 用普通Server 多台分散存放

Taobao 目前約有600台一般 x86 Server .1800TB 空間
並沒有額外買昂貴Storage Server做主力儲存

TFS file  block 在別台Server 都有多一份備份 本身不太依賴Raid做安全備份
我是有點懷疑這樣佔用空間會怎樣..2倍?

TFS 原理請看link ,大體上是將原有file +屬性 拆成block level file  放在server 內

不過 Sources code近期會公開..到時就可更瞭解其架構

參考資料
1.http://doulexiang.com/redirect.php?tid=220&goto=lastpost&sid=P7T37S

2.
Taobao CDN 架構
http://storage.it168.com/a2010/0829/1096/000001096374.shtml
« 上次編輯: 2010-09-15 02:54 由 thx »

rainday

  • 鑽研的研究生
  • *****
  • 文章數: 738
  • 性別: 男
  • enhancing and optimizing
    • 檢視個人資料
這倒是值得瞧瞧
幾種cluster filesystem都還在觀望中
<0  =_=  Don't learn to hack , hack to learn.

Luke Lin

  • 活潑的大學生
  • ***
  • 文章數: 244
  • 性別: 男
  • 家裡的少爺
    • 檢視個人資料
當好人叫行善  當壞人叫造孽 當爛好人叫自做孽

thx

  • 鑽研的研究生
  • *****
  • 文章數: 510
    • 檢視個人資料
    • http://www.osslab.com.tw

TFS source 已放出
http://code.taobao.org/project/view/366/

HP HP StorageWorks P4000 G2 是由二台DL180 G6 組起來 +軟體
機器正規貨 約30 萬..軟體 50  萬? ..............$%@#

這並不是真正 "分散式"  儲存設備.

比較有名分散式儲存硬體設備 就是最近被HP and Dell搶著買的3 Par


如果Taobao 當初繼續購買 商業設備.. 很容易要將舊設備砍掉從練 並且花費 4-5倍..............



netman

  • 管理員
  • 俺是博士!
  • *****
  • 文章數: 17463
    • 檢視個人資料
    • http://www.study-area.org
前一陣子有 survey 過 lustre :
http://www.lustre.org

看裡面的規格,可以到 50G/per second 的速度!
挺嚇人的!
架構跟 TFS 很類似...

Luke Lin

  • 活潑的大學生
  • ***
  • 文章數: 244
  • 性別: 男
  • 家裡的少爺
    • 檢視個人資料
是否有人試名NetAPP FAS產品…
前端採二台實體主機+VMWare ESX,後端為NETAPP FAS
1、實體主機與後端採iscsi方式連結
2、而vmware的OS image放在後端,實體主機各二個虛擬主機並做HA
3、虛擬主機服務為:File System或Mail System(online),儲存資料都在後端。
4、使用人數若為500人

這樣架構是否其它網友有相似架構的實際感想

ps.是蠻好奇HP的網路raid,效能上…如何
當好人叫行善  當壞人叫造孽 當爛好人叫自做孽

thx

  • 鑽研的研究生
  • *****
  • 文章數: 510
    • 檢視個人資料
    • http://www.osslab.com.tw
想了一下 HP StorageWorks P4000 G2 應該還是算Cluster  Storage System
只是效能不太理想

單機 x86 Storage OS 我已整理在這
http://www.osslab.org.tw/Storage/Enterprise/Blocklevel/SAN/Storage


Cluster Storage OS 整理
TFS
http://code.taobao.org/project/view/366/

HDFS
http://hadoop.apache.org/hdfs/
Lustre
http://www.lustre.org/

HP StorageWorks P4000 Virtual SAN Appliance
http://h18006.www1.hp.com/products/storage/software/vsa/index.html

cluster 分散儲存架構並不適用於一般公司服務 虛擬化應用環境
主要是給大型網路服務商  ,超過數萬Client .成長需求驚人服務
至於一般公司內部用服務系統  或是一般網站服務  ,ERP ,EIP 等 單純虛擬化的儲存 需求主要在

1.速度夠快

2.備份機制完整

3.好維護

4.穩定度

如果用的都是新機器 沒必要太Cluster 化  一般服務很難把現在單x86主機資源跟I/O給撐暴開
某台  storage 軟硬體再做Failover or CDP 或replication到第二Storage Server 看狀況再第二第三 備援設備 會最簡單管理
如果要做分散式Cluster Storage  維護技術跟費用可不低

高檔 NETAPP FAS這類跟市面上Server +open-e 軟體功能沒啥二樣
只是會多了多機Storage設備 擴容與管理功能

« 上次編輯: 2010-12-03 13:28 由 thx »

Luke Lin

  • 活潑的大學生
  • ***
  • 文章數: 244
  • 性別: 男
  • 家裡的少爺
    • 檢視個人資料
大部份的主機管理員應該都遇過容量不足必須要資料移轉、主機只有一台沒有另一台備援…等等問題
而增加備援主機(HA、Cluster、虛擬主機方案)解決了主機服務上的問題
而資料呢?
容量不足是有很多方式排除,但必須找一個最簡單、快速、等待時間最短、1~2台Storage故障不影響運作(新設備準備上線時間短)。
或許想法很天真…但,每次的處理都是MIS的痛…且,處理過程中…還不能發生問題

也許我找到的資訊不足,所以只能列出部份的方案:
1、HP StorageWorks P4000 G2:也聽過其它廠商說…效能是個問題。
2、類似HDFS的產品:目前我還沒有找到可行性的產品。
3、NetApp FAS
4、EMC

向往著類似HDFS的架構,不用煩惱資料存放在那,容量不夠便再加一台主機上去就可以馬上擴充。
Cluster架構已經玩了很多年了…,在尋找減少資料移轉時間過長的方案…
« 上次編輯: 2010-12-01 11:58 由 Luke Lin »
當好人叫行善  當壞人叫造孽 當爛好人叫自做孽