淺談大數據實驗室的建設
時間:2025-04-09 06:00:45 點擊次數:
中人教儀廠
1建造設計目標
建造設計云實驗平臺,在該平臺上完成了編程教學實驗、數值庫實驗以及網盤應用系統;該平臺技術上應用服務器虛擬化技術經過云管理平臺完成了實驗環境的快速部署;虛擬化平臺基于磁盤陣列集中存儲,應用FC SAN互聯網架構。
現規劃建造設計一個Hadoop 大數值實驗室,使用已經建造設計好的平臺,經過拓展資源池的方法部署,運用現有服務器虛擬化平臺虛擬出大量虛擬機用來組建Hadoop 集群,主要用來學生實驗以及科研用途。假定建造設計目標和規模如下:
建造設計目標:建造設計成校級實驗室,適用學生做大數值實驗和教師大數值科研。
建造設計規模:系統支持100個左右的虛機同時運行,功能適用學生大數值實驗需求。
拓展性需求:系統需具備良好拓展能力,可以便利拓展系統容量(KV)和功能,以適用更多實驗和科研需求。
2配備方案
本章節對組建大數值實驗室所需要的硬件資源實行配備,從大數值實驗資源需求出發來解析組建大數值實驗室需要對現有物理服務器、磁盤陣列、FC交換機、IP互聯網交換機的資源做哪些擴容。
2.1已有資源
云實驗平臺已經部署了10多臺2路物理服務器,經過1臺FC交換機與1臺磁盤陣列連接;現有物理計算資源可以支撐同時運行200個虛機(1個LCPU、4GB內部存儲、30GB虛擬磁盤),現有磁盤陣列的存儲資源主要提供虛機存儲空間和網盤存儲空間。
2.2擴容資源需求
對資源需求實行估算是虛擬化系統硬件配備的基礎依據。在大數值實驗室中,資源可分為兩大類:一類是運行時系統需要的資源,它決定了系統能支持同時運行多少個虛機,該情形主要關注物理服務器的CPU 資源、內部存儲資源和磁盤陣列的IOPS 資源,磁盤IOPS資源在大數值實驗中需求相對較高;另一類是系統可以"放置"多少個虛機,這主要關注磁盤陣列的存儲容量(KV)。
運行資源
假定虛機規格如下表中所示,該規格適用大數值實驗環境下對功能的需求;則200個虛機同時運行,需提供下表中所需資源。
|
Linux虛機規格 |
同時運行虛機數量 |
虛擬資源池大小需求 |
|
CPU大小 |
2個邏輯CPU、2.0GHZ |
100 |
CPU資源 |
200個邏輯CPU、200GHz |
|
內部存儲大小 |
4GB |
內部存儲大小 |
400GB |
|
磁盤IOPS |
100 |
磁盤IOPS |
10000 |
當然,對于Hadoop集群中的Master虛機應當配備大些內部存儲,比如8GB。
存儲容量(KV)
磁盤陣列存儲空間由需要多少個虛機和虛機磁盤大小決定,假定虛機磁盤規格如下表所示、需要放置500個虛機,總共需要約210TB的存儲空間。
|
Linux虛機規格 |
虛機總數 |
磁盤陣列存儲空間需求 |
|
磁盤1(系統盤)大小 |
15GB |
500 |
磁盤空間 |
107500GB(100TB) |
|
磁盤2(數值盤)大小 |
200GB |
2.3物理服務器擴容配備
作為虛擬化主機的物理服務器,目前可選用的配備主要有2路和4路,綜合考慮CPU運用率、互聯網成本等因素,我們建議選用2路服務器作為虛擬化主機,2路較4路將提供更好的性價比。
首先計算總共需要多少物理的CPU資源和內部存儲資源,計算以上述"運行資源"為基礎依據,并考慮物理資源的80%用作運行虛擬機。
|
虛擬資源池大小 |
比例 |
物理資源池大小需求 |
|
CPU資源 |
200個邏輯CPU、200GHz |
80% |
CPU資源 |
250個邏輯CPU 250GHz |
|
內部存儲資源 |
400GB |
內部存儲資源 |
500GB |
物理服務器規格和所需數量如下表所示。
|
新增物理資源池大小 |
物理服務器規格 |
物理服務器數量 |
|
CPU資源 |
250個邏輯CPU 、250GHz |
CPU |
2路10核、超線程(40個邏輯CPU)、2.0GHz |
7 |
|
內部存儲資源 |
500GB |
內部存儲 |
128GB |
4 |
|
|
|
|
磁盤 |
1*240GB SSD盤 |
|
|
|
|
網口 |
4*1gb |
|
|
|
|
FC口 |
1*8gb |
按照估算,需要新增7臺2路物理服務器即可適用計算功能需求,本項目中我們實際配備上述規格的物理服務器8臺。
2.4磁盤陣列擴容配備
磁盤陣列作為虛擬化系統后端共享存儲,主要考慮IOPS功能和存儲空間的要求。存儲空間顯然容易配備,而IOPS存在諸多變數,這是個無法準確估算的指標,為了使系統具備良好的功能,我們實行了仔細考量。
依據2.2節所估算的IOPS功能要求和存儲空間要求,估算系統需要多少塊SAS磁盤。
|
存儲資源需求 |
單塊SAS盤 |
需配備SAS磁盤數量 |
|
IOPS |
10000 |
IOPS |
200 |
50塊 |
|
存儲容量(KV) |
107500GB |
容量(KV) |
900GB |
120塊 |
同時適用IOPS功能和容量(KV)需求需要新增約120塊SAS盤,這個投資顯得過高。為了降低存儲上的投資,我們采取如下配備和部署的策略:
第1:使用高功能SSD盤集合SAS盤,提供較SAS盤更好的功能;該部分的空間主要用來虛機的系統盤。
第2:使用高功能SSD盤集合大容量(KV)SATA盤,主要適用系統容量(KV)的需求,并提供了接近SAS盤的功能;此部分存儲空間主要用來虛機的數值盤。
現有磁盤陣列擴容配備配備如下表:
|
磁盤陣列擴容配備 |
可提供的規格、功能 |
|
控制器 |
(雙活冗余控制器) |
IOPS |
大于12000 |
|
緩存 |
(32GB) |
存儲容量(KV) |
120TB裸容量(KV) |
|
SSD盤 |
新增:4*200GB |
SSD緩存 |
支持 |
|
SAS盤 |
新增:12*900GB |
精簡置備 |
支持 |
|
SSD盤 |
新增:4*400GB |
存儲快照 |
支持 |
|
SATA盤 |
新增:28*4TB |
|
|
|
|
|
|
|
2.5FC SAN互聯網擴容配備
由于新多加了8臺物理服務器,FC交換機需要新多加激活端口和相應模型塊,數量為8個。
2.6IP互聯網擴容配備
原交換機為48個千兆網口,從端口數量上來說資源是夠的,但是在大數值實驗環境中,虛機之間存在大量的東西向數值流量,因此我們設計多加一臺24口的千兆交換機用來大數值集群后端互聯網流量通道。
2.7擴容配備表單
組建適用100個虛機同時運行的大數值實驗平臺,需要對現有云實驗平臺物理資源實行擴容,擴容含有概括:新增8臺物理服務器、磁盤陣列添加SSD/SAS/SATA盤、FC交換機多加激活端口、新增1臺24口IP交換機,詳細擴容配備表單如下表:
|
序號 |
名稱 |
品牌/型號 |
擴容配備描述 |
數量 |
單位 |
|
一 |
云實驗平臺硬件擴容配備 |
|
1-1 |
虛擬化主機 |
云創cServer |
2U機架式服務器帶機架裝配套件;CPU:2顆Xeon E5-2670 V3,內部存儲:128GB;4個千兆網口;Disk:1塊240GB SSD,板載支持Raid0,1,5 ,FC口:單口8Gb; |
8 |
臺 |
|
1-3 |
磁盤陣列 |
云創
rStor 7000 |
擴容新增:4*200GB SSD,4*400GB SSD,12*900GB SAS盤、28*4TB SATA盤,SSD緩存功能、精簡配備功能、快照功能 |
0 |
臺 |
|
1-4 |
光纖交換機 |
Brocade 300B |
擴容新增:8個端口激活許可,8個端口8gb模型塊; |
0 |
臺 |
|
1-5 |
千兆交換機 |
華為 S5700-28C-SI |
24個10/100/1000Base-T,可插拔交流ACAC電源,交流ACAC供電 |
1 |
臺 |
|
二 |
Hadoop教學培訓服務 |
|
2-1 |
|
|
|
1 |
套 |
|
三 |
其他相關費用 |
|
3-1 |
機儲物儲物柜 |
|
|
1 |
臺 |
|
3-2 |
定制研發 |
|
|
|
|
|
3-3 |
裝配調節測試 |
|
|
|
|
|
3-4 |
培訓服務 |
|
|
|
|
3部署方案
3.1系統架構
系統架構在擴容前后基礎沒有改變,擴容后的整個虛擬化系統部署架構如下圖所示。
與原先區別主要是資源池擴充了,新增的物理服務器包括一個新的集群,并而且經過新多加一臺千兆交換機包括大數值實驗虛機后端互聯網流量通道。
3.2IP互聯網部署
本項目中對于IP互聯網的部署設計,除了考慮vSphere環境下一般性的部署注意事項外,還需要注意由虛機包括的Hadoop集群對IP互聯網的需求。
上圖是一臺物理服務器的虛擬互聯網和物理互聯網連接示意圖。
每個虛機配備2個虛擬千兆網口,一個用來虛機前端業務流量,一個用來Hadoop集群后端流量,虛擬交換機vSwitch1和vSwitch2技術上可以使用一臺、可以配備為標準虛擬交換機或分布式虛擬交換機,為了清晰和降低難度,建議配備為2個標準虛擬交換機;vSwitch0和vSwitch1上行鏈路可以互為備份,vSwitch1和vSwitch2的上行鏈路可以互為備份;物理服務器4個網口連接到2臺堆疊的物理交換機。這種部署設計完成了IP互聯網全冗余,提供了故障變換和互聯網負載均衡功能。
3.3Hadoop集群部署
經過虛機部署Hadoop集群,當然需要評估虛機資源的需求,即使評估有誤也無關系,虛擬化的一大好處就在于資源可以靈活調節。
在部署和使用虛機時,我們可以集合使用虛機模板、虛機克隆、虛機快照等技術為創建和使用實驗環境提供便利。
Hadoop集群含有了Master節點和Slave節點,可以實行Hadoop部署實驗、HDFS實驗、MapReduce實驗、HBase實驗、Hive實驗等。下表是節點虛機配備參考。
|
Master節點配備參考 |
Slave節點配備參考 |
|
CPU |
2*LCPU |
CPU |
1-2*LCPU |
|
MEM |
8-16GB |
MEM |
2-8GB |
|
Disk1(sda) |
15GB |
Disk1(sda) |
15GB |
|
Disk2(sdb) |
20GB |
Disk2(sdb) |
50-200GB |
|
虛擬網卡1 |
千兆 |
虛擬網卡1 |
千兆 |
|
虛擬網卡2 |
千兆 |
虛擬網卡2 |
千兆 |
本項目部署時,需要注意一個細節點是:我們應該盡量將一個Hadoop集群內的全部虛機運行在一臺物理服務器上,避免IP流量流出物理服務器。
3.4部署計劃
下表給出本項目部署實施的一些主要任務和時間預估。
|
任務 |
時間 |
|
IP地址規劃,VLAN規劃 |
4H |
|
Fabric Zone規劃 |
1H |
|
存儲LUN規劃 |
2H |
|
虛機資源規劃 |
1H |
|
設備上架,完成物理裝配 |
1D |
|
磁盤陣列初始裝配 |
2H |
|
FC交換機配備 |
2H |
|
IP互聯網配備(交換機、路由器) |
2H |
|
存儲完成配備 |
2H |
|
vSphere裝配配備 |
1.5D |
|
虛機資源規劃 |
2H |
|
系統ISO導入,虛機模板創建 |
1H |
|
第一個大數值集群建立 |
1D |
|
使用測量試驗,調節 |
2D |
|
創建其他大數值集群 |
|
常見問題:
1、如果我要購買淺談大數據實驗室的建設,是否有安裝、培訓服務呢?
答:我們的設備如果沒有特別注明“不含安裝”“裸機價”“出廠”等字樣的,都是提供安裝、培訓服務的。
2、你們的淺談大數據實驗室的建設是否能開增值稅專用發票?
答:可以的,我們是正規企業,并且已經升級到一般納稅人,可以開具增值稅專用發票,如果您需要開淺談大數據實驗室的建設的發票,您需要提供開票資料。
3、你們的淺談大數據實驗室的建設都是自己生產的嗎?都有什么產品資質?
答:我們公司是專業生產教學設備的企業,完全自主生產,并通過了最新版ISO9001認證,擁有多項專利與著作權。
本文來自網絡,不代表本站立場,圖片為參考圖片,轉載請注明出處:淺談大數據實驗室的建設