一、有關故障監控與告警的基礎知識
智能貨柜同一般的軟件有較大的區別,軟件只涉及服務應用層面的交互,而智能貨柜則既涉及到軟件應用的交互,還涉及到硬件和軟件的交互,因此智能貨柜的故障和監控要比普通的APP以及系統要更加復雜,下面就故障監控與告警相關的背景和知識做相應的介紹。
1. 什么是故障?
百度百科對于故障的解釋如下:
故障是系統不能執行規定功能的狀態。通常而言,故障是指系統中部分元器件功能失效而導致整個系統功能惡化的事件。
而對于智能貨柜來說,故障即是任何會影響設備正常售賣的事件,包括硬件上的故障,也包括軟件上的故障。
故障的種類有可能是非常多的,對于產品而言只能在最開始系統設計的時候,盡可能的窮舉出越多的故障,只有明確了故障的種類,才能監控到這些故障。
那我們為什么要做故障監控與告警系統呢?
對于智能貨柜來說,每一個運營都需要負責非常多的設備,而不能時時刻刻守在設備旁邊,也就無法及時知道設備發生了故障,因此故障監控與告警系統將會產生如下價值:
監控與告警的區別:其實本質上監控是告警的基礎,只有具備了監控的信息,才能針對監控的信息去指定相應的規則和策略來進行告警。監控的信息是非常全和雜的,但是對于接受故障的用戶來說,雜和全的信息會干擾用戶的判斷和決策,因此只有在監控信息基礎上,針對相應的規則篩選出需要告警的信息來進行觸達和展示,才能最大效率和準確的解決相應的故障。
監控和告警的目標則是一致的,即:
既然是從0到1的系統,那自然不免會涉及到非常多的工作需要去找。前期用戶調研、競品調研以及市場背景都要去了解。
用戶調研:因為系統做出來不是給產品用的,因此必須要了解該系統使用對象的想法。一般來說針對公司自己軟硬件的故障監控系統,都是給公司內部相關部門的人使用的,因此用戶調研上相對來說會比較容易,需要了解使用對象的使用習慣、對于哪些故障類型比較關注,盡可能多的收集故障類型。
競品調研:一般來說對于陌生的產品和系統,為了避免更少的踩坑,還是需要多多體驗市場上存在的產品,包括成熟和不成熟的系統都可以去參考,能夠產生許多的靈感。
以上2點是做該系統比較簡單的工作,以下內容則涉及到故障監控與告警系統具體的產品設計方案。
1. 故障監控與告警系統的基礎
首先要做故障的監控,就必須要了解和清楚怎么去監控設備硬件和軟件的相關信息,主要通過如下方式去監控故障:
只有以上工作做到位后,才能具備監控和告警的基礎,不然沒有這些信息,后面也沒辦法實現故障的監控和告警。
2. 故障監控的類型
前期在故障類型較少的時候,有可能是通過開發代碼定義故障類型,但是為了后續系統的拓展和兼容性,建議還是通過頁面配置的方式來實現故障類型定義。
以下通過智能硬件的故障類型來給大家詳細說明,故障類型的編輯可能涉及到如下字段來區分故障:
以上字段是對一個故障最基礎的編輯和定義,當上報一個故障id時,則可以通過故障id去拉取該故障的其他信息。不同的業務可能對于故障的定義字段都不盡相同,需要根據業務去靈活制定。
3. 故障告警的規則和策略
正如上文提到的,故障監控和告警是兩個不同的事情,監控是把所有上報的信息都會記錄下來,所以信息一定是多而雜的,這些過多的信息如果都推送給相應的人員,那很可能是大大提高了用戶處理錯誤信息的工作量,所以是需要規則和策略去篩選準確的故障信息進行推送。
那么告警規則和策略包含哪些信息呢?簡單粗暴的來說,一個告警規則和策略需要包含告警的統計指標,告警推送的條件、告警的收斂規則。
舉例如下:
比方說針對網絡故障的告警,則對應的監控項為網絡速度,那么創建一個告警規則需要定義如下信息:
那么當某臺設備30分鐘內上報網速小于20kb/s大于等于3次時,就需要通過告警推送到對應的人員。告警規則也是可以通過前端頁面去靈活配置的,這也大大提高了系統的拓展性和廣泛使用性,可以及時跟進數據情況修改和新增相應的告警規則。
4. 故障告警的方式和渠道
當系統監控到需要推送告警信息時,需要通過什么渠道推送告警信息呢?這里也涉及到前期用戶調研的一些內容,一定是需要通過最簡單、高效的渠道去推送到運維人員手中,主要有以下方式和渠道來進行推送告警信息:
以上列了主要的幾種告警推送的方式和渠道,其實還包括一些其他的方式,比方說釘釘群、微信群、短信等,至于需要通過哪種方式去推送告警信息,一般都是需要根據業務來確定,也不一定是只通過一種方式去觸達。為了保證告警的效果,可以多種方式同時推送,但是前期也需要平衡開發的成本和收益,選擇一種最高效、開發難度最小的進行觸達。
三、故障監控和告警系統總結
故障監控和告警系統其實相對來說還是一個比較簡單的系統,但是如果需要從0到1的去搭建這樣一個系統也是需要注意比較多的情況,盡可能系統化、模塊化的去設計這樣一個系統。
來源:機房動力環境監控 http://www.u88-cn-zhifuxiaoxiangmu.cn 本文采集于網絡,如有問題有聯系刪除
專線:劉剛 13911133352
E-mail:[email protected]
北京金恒智能系統工程技術有限責任公司 版權所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律聲明:未經許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利!
電話:86+10-62104277/2248/4249 傳真:86+10-62104193-819 京ICP備10010038號-2網站XML
智慧機房
在線體驗