IT運維 | IT運維下一個趨勢AIOps
2020-06-22 16:47 作者:艾銻無限 瀏覽量:
“工欲善其事,必先利其器”,運維工具是我們實現(xiàn)各種運維操作的有效幫手,它解放了
IT運維人員,讓他們可以更多更好地維護各種IT系統(tǒng)。
IT運維體系的發(fā)展當(dāng)然也離不開運維工具的發(fā)展。
手工運維
二十多年前,企業(yè)IT信息化剛剛起步,
IT運維基本還處于刀耕火種的時代,沒有所謂運維工具也沒有意識其存在必要性。幾個小姑娘定時在終端上敲些命令,并在紙質(zhì)的表格上一絲不茍地記錄著讀數(shù),這還是當(dāng)時比較規(guī)范運維做法。原因是當(dāng)年那個年代需要維護IT系統(tǒng)的量很少,單靠人也看得過來。在IOE架構(gòu)統(tǒng)治的時代,運維團隊的人工維護還是占絕大部分。當(dāng)然其中也不乏一些人,開始總結(jié)他們的運維操作,將一些常用的操作寫成大量的腳本以便于從事一些機械、重復(fù)的事情時候可以“偷個懶”。但是,在這個階段手工運維還是占了絕大部分的工作量。
ITOM
在IOE架構(gòu)時代的后期以及互聯(lián)網(wǎng)架構(gòu)開始普及,也同時伴隨著企業(yè)IT信息化的不斷深入,企業(yè)中IT設(shè)備量呈現(xiàn)爆發(fā)性的增長,單靠人力開始逐漸管不過來。以我們服務(wù)過的某運營商客戶為例,最初的業(yè)務(wù)支撐部門負責(zé)維護其核心系統(tǒng),當(dāng)時只有區(qū)區(qū)20來臺主機,幾個數(shù)據(jù)庫。然而其后數(shù)年,維護系統(tǒng)規(guī)模上升了十?dāng)?shù)倍,
IT運維團隊規(guī)模只增加了不到一倍。維護規(guī)模和運維團隊能力只會形成了事實上的越來越明顯的剪刀差,這成為運維管理中最核心的矛盾。而后到了企業(yè)開始嘗試引入互聯(lián)網(wǎng)架構(gòu),系統(tǒng)的復(fù)雜度更是陡然上升、維護目標(biāo)更是迅速增長,按照傳統(tǒng)的手工或者半自動維護來做,就更是走不通。因此,企業(yè)為解決這種問題,嘗試引入各種運維工具通過自動化的手段解決運維人手和能力不足的問題,IT運營管理也就應(yīng)運而生。IT運營管理(ITOM)是指對IT基礎(chǔ)設(shè)施以及軟件應(yīng)用等對象的運營進行實時監(jiān)控管理并提供反饋的服務(wù),為監(jiān)測對象保持最佳運行狀態(tài)提供保障。ITOM領(lǐng)域的工具分為三大類別,分別是:
·
監(jiān)控類:各種提供應(yīng)用性能監(jiān)控、基礎(chǔ)軟件服務(wù)監(jiān)控、主機存儲設(shè)備、網(wǎng)絡(luò)設(shè)備等自動化監(jiān)控和告警的軟件服務(wù),例如,商用軟件中的Tivoli、開源軟件中的Zabbix等為代表。
·
管理類:各種提供
IT運維支撐服務(wù)以及配置管理等方式的軟件服務(wù),例如,各種ITSM系統(tǒng)和CMDB軟件系統(tǒng),例如,HP的OpenView之類。
·
自動化類:各種提供自動化運維手段的工具和軟件,例如,開源的Ansible、Puppet之類。
IT 運維管理(ITOM)將從原有的人工加被動響應(yīng),轉(zhuǎn)變?yōu)楦咝?、更為自動化的運維體系。
AIOps
通過大數(shù)據(jù)和人工智能技術(shù)分析日志和運維數(shù)據(jù),發(fā)掘更多運維人員尚未覺察的潛在的系統(tǒng)安全和運維問題。
Gartner在2016年發(fā)布的報告中首先提出了基于大數(shù)據(jù)及算法(Algorithmic IT Operations)的
IT運維概念。隨著人工智能的快速興起,Gartner將AIOps的概念從原本的基于數(shù)據(jù)分析,擴充為基于人工智能,期望通過大數(shù)據(jù)、現(xiàn)代機器學(xué)習(xí)及更多高級分析技術(shù),提供具備主動性、人性化及動態(tài)可視化的能力,直接或間接地提升目前傳統(tǒng)IT運維(監(jiān)控、自動化、服務(wù)臺)的能力。AIOps真正應(yīng)用和落地時間還很短,從目前的應(yīng)用而言主要是在運維數(shù)據(jù)集中化的基礎(chǔ)上,應(yīng)用機器學(xué)習(xí)算法進行各種數(shù)據(jù)分析和挖掘的工作。主要的應(yīng)用場景包括:
·
異常告警:根據(jù)歷史監(jiān)控指標(biāo)數(shù)據(jù),運用基于時序的相關(guān)算法對監(jiān)控指標(biāo)異常分析,并對出現(xiàn)異常的監(jiān)控指標(biāo)發(fā)出精準(zhǔn)告警。
·
告警收斂:根據(jù)歷史事件和告警數(shù)據(jù),發(fā)現(xiàn)這些事件和告警之間的關(guān)系,整合頻繁一起出現(xiàn)的事件和告警,并將其認(rèn)看作同一類故障的告警,從而把多個告警和指標(biāo)合并,推送給運維人員,做到精細化告警,避免傳統(tǒng)監(jiān)控工具因一故障而導(dǎo)致的告警風(fēng)暴,生產(chǎn)告警噪音。
·
故障分析:通過運維數(shù)據(jù)及事件、告警,結(jié)合以前發(fā)現(xiàn)問題的經(jīng)驗知識庫和模型,建立故障樹分析,結(jié)合決策樹等相關(guān)算法,通過推導(dǎo)路徑使運維人員對于問題的定位更加快速、直觀,使得問題的解決更加容易。
·
趨勢預(yù)測:進行歷史數(shù)據(jù)擬合等算法,進行資源趨勢/容量預(yù)測。例如,主機CPU,交換頁不足、內(nèi)存不足、存儲不足會逐漸導(dǎo)致系統(tǒng)故障或應(yīng)用故障,該系統(tǒng)建立關(guān)聯(lián)模型,提醒用戶可能后繼可能發(fā)生系統(tǒng)故障或應(yīng)用故障。在故障產(chǎn)生真正業(yè)務(wù)影響前,告知運維人員事先解決問題。
·
故障畫像:通過采集多維度運維數(shù)據(jù),構(gòu)建多元結(jié)構(gòu)化底層運維數(shù)據(jù)模型,配合各類運維場景,并在場景里對故障進行畫像,通過各種故障畫像標(biāo)準(zhǔn)形式來輔助企業(yè)進行IT運維 決策和處理過程。
當(dāng)然,AIOps的應(yīng)用場景遠不止于此,正是由于這個概念出現(xiàn)的時間比較短,也就有更多的發(fā)揮空間容我們?nèi)ゼ毤毎l(fā)掘??傮w而言,從手工運維、ITOM、ITOA、AIOps的發(fā)展路徑體現(xiàn)了運維自動化、數(shù)據(jù)化到智能化這一主要發(fā)展趨勢。
以上內(nèi)容由北京艾銻無限科技發(fā)展有限公司整理