歡迎來(lái)到鄭州創(chuàng )之匯電子科技有限公司官方網(wǎng)站!
企業(yè)名稱(chēng):鄭州創(chuàng )之匯電子科技有限公司
聯(lián)系人:楊經(jīng)理
手機:138 3712 4461
聯(lián)系人:鄒經(jīng)理
手機:130 1767 4377
聯(lián)系人:楊經(jīng)理
手機:177 0371 4034
E-mail:403830632@qq.com
地址:鄭州市金水區文化路128號院1號樓1306
網(wǎng)址: h5160.cn
提到服務(wù)器宕機檢測,大家會(huì )想到,宕機能夠很快知道,這個(gè)有什么可做的?鄭州hp服務(wù)器的小編提醒實(shí)際上,很多時(shí)候服務(wù)器宕機,并不總是被及時(shí)感知。服務(wù)器宕機,ping或者ssh這是最簡(jiǎn)單的做法,但真正的工程實(shí)踐,沒(méi)這么簡(jiǎn)單。
想要獲知服務(wù)器宕機怎么辦?可以通過(guò)服務(wù)器宕機實(shí)時(shí)檢測:
1)發(fā)現宕機。
2)提前告警。
3)告知宕機的詳細原因,如硬件故障,內核bug,網(wǎng)絡(luò )異常等等。
4)自動(dòng)報修生成工單。
那么,如何可以準確發(fā)現宕機,減少誤報呢?我們可以有以下操作,比如:
心跳源檢測異常
顧名思義,通過(guò)心跳源,初步發(fā)現異常。鄭州hp服務(wù)器的小編了解到通常心跳變化會(huì )有三類(lèi)消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長(cháng)連接,每數秒緩存一次心跳,每幾分鐘打包上報一次,但當NC異常時(shí),長(cháng)連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。
update消息,在有心跳發(fā)生變化情況下都會(huì )有,心跳異常和心跳恢復正常時(shí)都會(huì )發(fā)起,是主要的心跳來(lái)源。
delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(cháng)。
insert消息,在新增加機器, 或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現價(jià)值不大,配合uptime使用。
心跳源檢測任務(wù)邏輯,主要是監聽(tīng)并緩存uptime消息,同時(shí)避免時(shí)間窗內多次消息沖突,導致信息被覆蓋。
異常排除
排除非物理機器,將系統中暫時(shí)不關(guān)注的VM等產(chǎn)生的異常信息排除掉。
排除非業(yè)務(wù)狀態(tài)的機器,如裝機狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷(xiāo)毀中,重啟中,無(wú)管控狀態(tài),只監控正常狀態(tài)的機器。
排除非正在工作的機器,如非working狀態(tài)機器。
網(wǎng)絡(luò )干擾排除
宕機分析中,較多誤報是由于網(wǎng)絡(luò )問(wèn)題干擾,無(wú)法準確判斷出物理機是否宕機,有可能是網(wǎng)絡(luò )問(wèn)題。
排除上聯(lián)網(wǎng)絡(luò )設備異常導致的誤報,包括機房斷網(wǎng)演練,小面積網(wǎng)絡(luò )故障,上聯(lián)網(wǎng)絡(luò )故障,如通過(guò)探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò )問(wèn)題。
服務(wù)器本身未丟包的誤報,除了需要過(guò)濾出網(wǎng)絡(luò )問(wèn)題,還要通過(guò)丟包數據分析,過(guò)濾掉SA誤報問(wèn)題, SA異常會(huì )上報心跳異常,被誤理解為宕機。
icmp及tcp丟包分析,icmp采集頻率為固定數秒,tcp采集頻率固定數秒,包括多個(gè)不同大小包(16,32,64,128,256等)的丟包情況,根據分析時(shí)間窗內兩項數據的丟包情況
特殊情況干擾排除
個(gè)別機房有時(shí)候會(huì )出現大面積風(fēng)暴式的無(wú)故心跳異常,同時(shí)網(wǎng)絡(luò )ping包異常,但上聯(lián)網(wǎng)絡(luò )設備ping包正常,這種誤報,一般根據具體case具體進(jìn)行針對性的分析。如根據監控每個(gè)機房的上報頻率,排除干擾。
以上就是鄭州hp服務(wù)器的小編帶來(lái)的相關(guān)內容,希望可以幫助到你,更多詳情請聯(lián)系鄭州創(chuàng )之匯電子科技有限公司