系統運維 | 游戲公司的自動化運維建設
2020-05-23 20:41 作者:艾銻無限 瀏覽量:
一、建設自動化系統運維體系的原因
先來看一下我們為什么要建設一個自動化
系統運維體系。首先來看
系統運維遇到的一些挑戰。
第一個是游戲的需求。它表現為三個方面:
· 一是游戲數量多,我司現在運營的游戲多達近百款。
· 二是游戲架構復雜。游戲公司和一般的互聯網公司有一個很大的區別,就是游戲的來源可能有很多,比如有國外的、國內的,有大廠商的、小廠商的;每個游戲的架構可能不一樣,有的是分區制的,有的是集中制的,各種各樣
的需求。
· 三是操作系統種類多,這與剛才的情況類似,游戲開發者的背景與編程喜好不一樣,會有Windows、Linux等。
第二個是在硬件環境方面,主要表現為服務器數量多、服務器型號多。因為公司從建立到現在有十幾年的時間了,在這個過程中分批、分期采購的服務器幾乎橫跨各大OEM廠商的各大產品線,型號多而雜。
最后是人的因素。我們在建設自動化
系統運維體系過程中,有一個比較重要的考慮點是人的因素。如果大家的技術能力都很強,很多時候一個人可以完成所有工作,可能也就不需要自動化
系統運維體系了。正是因為每個
系統運維人員的能力不一樣,技術水平參差不齊,甚至是運維習慣和工具也不一樣,導致我們必須要創建一套規范的自動化
系統運維體系,來提升工作效率。
二、建設自動化系統運維體系的目標
再看一下建設這套自動化
系統運維體系的目標,也就是說我們的原則是什么?筆者將自動化
系統運維體系的建設目標總結為四個詞。
· 第一個是“完備”,這個系統要能涵蓋所有的運維需求。
· 第二個是“簡潔”,簡單好用。如果系統的操作流程、操作界面、設計思想都比較復雜,運維人員的學習成本就會很高,使用的效果是會打折扣的,系統的能力、發揮的效率也會因此打折扣。
· 第三個是“高效”,特別是在批量處理或者執行特定任務時,我們希望系統能夠及時給用戶反饋。
· 第四個是“安全”,如果一個系統不安全,可能導致很快就被黑客接管了。所以安全也是重要的因素。
三、自動化系統運維體系的結構和運作方式
下面我們來看一下每個子系統是如何設計和工作的。
1、自動化安裝系統
2、自動化運維平臺
3、自動化安檢系統
4、自動化客戶端更新系統
5、自動化服務器端更新系統
6、自動化數據分析系統
7、自動化數據備份系統
8、自動化監控報警系統
總結
我們一直在做自動化
系統運維體系,對過去進行總結,我覺得有3個方面可以供大家參考。
第一是循序漸進的原則,特別是中小公司或者初創公司,很多時候并不需要一個“高大上”的系統。聚焦當前的問題,把當前的問題處理好,后面的問題也就迎刃而解。如果一開始設計的系統很龐大、功能特別豐富,會導致一些無法控制的局面。比如這個系統可能最后做不下去了,或者因為耦合性太強,開發控制不了了,或者項目因為經費問題擱淺了。但是如果一開始的目標是解決一些特定的問題,有針對性,那么推進起來也會比較簡單。在我司的自動化運維體系建設過程中,我們首先構建的是一個基礎的服務器批量操作平臺,先把一部分需要重復執行的工作搬到平臺上來,再依據運維的需求豐富這個操作平臺的功能和提升效率,最后把周邊的系統打通,相互對接,形成完整的自動化
系統運維體系。
第二是考慮可擴展性。設計系統的時候,功能或者設計方面可能不用考慮那么多,但是要考慮當服務器數量發生比較大的擴張時,系統是否還能支撐,比如數量級從十到百,或者上千了,這個系統是否還是可用的。
第三是以實用為目的。這在我們系統中也是有體現的。很多情況下,市面上可能已經有比較成熟的協議和工具,拿來評估看看它們在生產環境里面是否可用,如果能用就直接用,沒必要自己再去做一套。自己做的這一套工具,
很多方面沒有經過驗證,可能會帶來安全問題?;诔墒斓膮f議和框架去做,可以提升效率,保證穩定性和安全性。
以上內容由北京艾銻無限科技發展有限公司整理