機房搬遷整體方案是為了平穩遷移所有業務,在有限的資源和有限的切換時間(甚至秒鐘級別時間內)完成搬遷(銀行、ATM之類的公司不能比,在不提供新資源或者提供基礎幾臺資源的情況下搬遷), 保證機房業務和數據能夠安全、可靠、快速的搬遷。

二、 背景
現今IDC跟10年前IDC不同,第一是數量開始增多,第二是價格下降,第三是很多公司使用公有云替換了IDC,當然也有使用公有云+IDC的公司??傊F在因為需求的不同,各種方案都有。(使用公有云替換自己租IDC的公司,主要考慮自己維護管理機房、采購服務器、后期維保服務器等不是專業的,專業的事交給專業的公司干,將公司的精力集中到公司業務,當然關鍵的還能提升運維效率,如,一個項目立馬上線,如果普通中小企業無備用服務器的情況下,就需要立即購買,可能會有選型、招標過程,這樣整個采購周期就很長,項目上線可能延遲。如果使用云幾分鐘就完成任務)。
三、 遷移前的考慮
(其實這里搬遷到云上已經包含其中,當然有一些沒法搬遷的后面補充)
1、 機房標準:環境了解,機柜位置了解,機房動環系統,pda插口是否滿足需求。
2、 一般租用的機房公司,他們是否給巡檢,是否有基本的上架,梳理線纜服務(實際工作中,上架、拉線、綁線很浪費時間,最后還不是很美觀。)
3、 機房專線進入是否方便,進園區是否收費,機房所在公司是否在收端口費用,端口費用有多貴?
4、 網絡如何規劃,需要多少個接入交換機,路由器、防火墻,是否滿足高可用,是使用大二層還是3層網絡?是使用基于單個主機冗余(交換機浪費,但是適用于中小企業),還是基于整個機柜甚至整排機柜的冗余?我們曾經的機房是基于主機冗余(單臺主機雙網卡綁定),現在新機房是使用基于機柜冗余(允許宕機一個機柜)
如果是公有云:考慮網絡規劃、網段、安全組等基礎環境配置,然后考慮專線跟IDC打通。
四、 搬遷團隊(運維人員+開發+業務)
1、 是否雇傭專業搬遷公司,還是自己搬遷+雇傭車。原則上是重要設備、高端存儲之類的設備雇傭專業公司進行搬遷,普通x86服務器,多節點的業務,自己搬遷即可。(可以節省很大的成本)
2、 一般情況下搬遷團隊是由公司運維部門擔任,當然一般搬遷都是公司大事,必須知會各個開發部門領導和產品,甚至開專門的動員會,這樣開發才會配合支持。
五、 原機房注意事項
1、 統計搬遷的數據:機器數量、分別每個機器的u數,分類搬遷。
2、 準備打包箱子、標簽紙、扎帶等
3、 小型機鏈接線務必輕拔輕放,包裝好。
4、 根據業務類型劃分搬遷次序,分配到責任人,責任人務必包含運維、開發、產品。比如:支付系統、營銷等
5、 識別特殊系統,比如:有停機先后順序的,帶存儲的,掛載有nfs的系統,帶狗的系統,有物理機授權等。
六、 針對每套系統具體方案編寫
1、 按照具體業務列出具體系統中的每個模塊,如營銷系統中的優惠券、活動,采銷系統中的訂單、主數據等,越細越好。
2、 按照每套系統的每個模塊編寫文檔,內容包含原主機ip、部署內容、部署路徑或者目錄、緩存ip、數據庫連接ip,zk地址等等,所有詳細信息均要列出。
3、 與開發溝通編寫api部分模塊,具體到調用接口和http接口,所有接口都要列出(后期用于驗證)
4、 網絡層面權限查看,是否有特殊限制,比如分支機構或者分公司是否有權限訪問。
5、 域名查看,是否有公網。
6、 注意點:如tomcat是否有用戶限制,最好方式是將tomcat直接打包原路徑解壓。即使是平臺管理也可以這樣操作。
7、 數據庫連接查看,是否有共用庫的情況,是否有大數據抽數,是否有其他特殊權限。
七、 具體切換方案
1、 網關或者負載均衡按照原配置配置即可,后面切換dns即可。
2、 Web層大部分系統為基于互聯網的多web或者多模塊系統,1:1部署即可,按照第六步統計結果進行部署即可。
3、 Redis、mysql、mongodb采用數據同步
4、 Es采用加入集群同步數據方式,完成后把老機器踢出集群。
5、 如果有Oracle,采用OGG或者DG同步到新機房,提前配置應用JDBC鏈接,當數據追平時,重啟應用即可生效。這步說來簡單,實際辦起來可能因為數據大小,或者每天產生的數據過多,會導致性能問題。當然還有一些其他的問題,細節上要注意,多想問題。
6、 最難的就是一些老系統,比如一些win系統,開發走了無人維護,甚至一些系統是購買的商業軟件,但是這個商業軟件公司已經倒閉。這種系統最麻煩,一般采用硬搬,當然要備份相應的數據。
7、 小型機和存儲搬遷也是麻煩事,注意上面拆除小型機,一些連接線要保存好,存儲這個該買保險買保險。
八、 具體切換
1、 按照上面7個步驟該準備的準備,越細越好。
2、 提前將新環境部署好,只等待dba同步數據,等到數據同步完畢,每套系統按照具體的修改代碼提交,發布,鏈接到新機房的庫。
3、 數據庫檢查鏈接正常,即可驗證業務。
4、 產品通知業務一起驗證業務。
5、 回顧切換過程中的問題,形成總結文檔。
九、 總結
以上幾點均是我在搬遷工作中形成的一些經驗,越細越不容易出問題,一般遷移切換選擇閑時進行,比如晚上或者半夜遷移切換,往往第二天早上因為一個配置疏忽造成業務受影響,所以重要系統,重要配置最好雙人檢核,避免出現事故。