K8S節(jié)點異常怎么辦,k8s 哪個節(jié)點是master節(jié)點,k8s查看節(jié)點剩余資源-ESG跨境

K8S節(jié)點異常怎么辦,k8s 哪個節(jié)點是master節(jié)點,k8s查看節(jié)點剩余資源

來源網(wǎng)絡(luò)
來源網(wǎng)絡(luò)
2022-04-30
點贊icon 0
查看icon 1001

K8S節(jié)點異常怎么辦,k8s 哪個節(jié)點是master節(jié)點,k8s查看節(jié)點剩余資源K8S節(jié)點異常怎么辦節(jié)點健康檢測的意思是在K8S集群運行過程中,由于運行時組件問題、內(nèi)核死鎖、資源不足等各種原因,節(jié)點經(jīng)常不可用。默認情況下,Kubelet會監(jiān)控PIDPressure、MemoryPressure、DiskPressure......

K8S節(jié)點異常怎么辦,k8s 哪個節(jié)點是master節(jié)點,k8s查看節(jié)點剩余資源




K8S節(jié)點異常怎么辦

節(jié)點健康檢測

的意思是

在K8S集群運行過程中,由于運行時組件問題、內(nèi)核死鎖、資源不足等各種原因,節(jié)點經(jīng)常不可用。默認情況下,Kubelet會監(jiān)控PIDPressure、MemoryPressure、DiskPressure等節(jié)點的資源狀態(tài),但當Kubelet報告這些狀態(tài)時,節(jié)點可能已經(jīng)很長時間不可用,Kubelet可能已經(jīng)啟動了驅(qū)逐Pod的操作。所以原生K8S對node 健康的檢測機制在某些場景下是不完善的。我們需要能夠提前發(fā)現(xiàn)節(jié)點的問題,需要更詳細的指標來描述節(jié)點的健康狀態(tài),并采取相應(yīng)的恢復策略,實現(xiàn)智能運維,減輕開發(fā)者和運營商的負擔。

節(jié)點問題檢測器

NPD(NodeProblemDetector)是一個開源的Kubernetes社區(qū)集群節(jié)點檢測組件。NPD提供了通過定期匹配系統(tǒng)日志或文件來發(fā)現(xiàn)節(jié)點異常的功能。用戶可以通過自己的運維經(jīng)驗,配置可能產(chǎn)生異常問題日志的正則表達式,選擇不同的上報方式。NPD將解析用戶的配置文件。當有日志可以匹配用戶配置的正則表達式時,它可以通過NodeCondition、Event或Promethues度量報告檢測到的異常狀態(tài)。除了日志匹配功能,NPD還接受用戶自己編寫的自定義檢測插件。用戶可以開發(fā)自己的腳本或可執(zhí)行文件,并將其集成到NPD的插件中,這樣NPD就可以定期執(zhí)行檢測程序。

TKE 節(jié)點健康檢測

在TKE,NPD以擴展組件的形式集成,NPD的能力增強,稱為nodeployment detector Pulse(NPD Plus)擴展組件。用戶可以一鍵將NPDPlus擴展組件部署到現(xiàn)有集群,也可以選擇在創(chuàng)建集群時同時部署NPDPlus。在騰訊云容器團隊K8S集群的長期運維經(jīng)驗中,提取了一些能夠發(fā)現(xiàn)特定形式節(jié)點異常的指標,并將其部分集成到NPDPlus中。比如檢測NPDPlus容器中Kubelet和Docker的systemd狀態(tài),檢測主機的文件描述符和線程數(shù)壓力。具體指標如下:

TKE使用NPDPlus的目的是提前發(fā)現(xiàn)節(jié)點可能的不可用狀態(tài),而不是在節(jié)點不再可用之后報告狀態(tài)健康。當用戶在TKE集群中部署NPDPlus時,使用命令kubectl describe node會發(fā)現(xiàn)更多的節(jié)點情況。例如,F(xiàn)DPressure指示該節(jié)點上已經(jīng)使用的文件描述符的數(shù)量是否達到了機器所允許的最大值的80%;ThreadPressure表示一個節(jié)點上的線程數(shù)量是否達到了機器允許數(shù)量的90%,依此類推。用戶可以監(jiān)控這些情況,并在出現(xiàn)異常情況時提前采取規(guī)避措施。

同時,K8S目前認為node NotReady的機制取決于kubecontrollermanager的參數(shù)設(shè)置。當節(jié)點的網(wǎng)絡(luò)被完全阻斷時,K8S很難發(fā)現(xiàn)第二級節(jié)點的異常,這在某些場景下(比如直播、在線會議等)是不可接受的。).針對這種場景,NPDPlus繼承了分布式node 健康檢測功能,可以在幾秒內(nèi)快速檢測出一個節(jié)點的網(wǎng)絡(luò)狀態(tài)以及是否可以與其他節(jié)點通信,同時不依賴于與K8S主組件的通信。

節(jié)點自我修復

收集節(jié)點的健康狀態(tài)是為了在service Pod不可用之前提前發(fā)現(xiàn)節(jié)點的異常,以便運維或開發(fā)人員對Docker、Kubelet或節(jié)點進行修復。在NPDPlus中,為了減輕運維人員的負擔,提供了根據(jù)收集到的節(jié)點狀態(tài)進行不同自愈動作的能力。集群管理員可以根據(jù)節(jié)點的不同狀態(tài)配置相應(yīng)的自愈能力,比如重啟Docker、重啟Kubelet或者重啟CVM節(jié)點。同時,為了防止集群中的節(jié)點雪崩,在進行自愈動作之前進行嚴格的限流,防止節(jié)點大規(guī)模重啟。同時,為了防止集群中的節(jié)點發(fā)生雪崩,在進行自愈動作之前進行了嚴格的電流限制。具體戰(zhàn)略是:

集群中同時只允許有一個節(jié)點自愈,兩次自愈行為間隔至少1分鐘。

當一個新節(jié)點添加到集群中時,它將給予該節(jié)點2分鐘的容錯時間,以防止由于剛添加到集群中的節(jié)點的不穩(wěn)定性而導致的錯誤自愈。

當節(jié)點在觸發(fā)CVM自愈操作重啟后仍處于異常狀態(tài)時,節(jié)點將在3小時內(nèi)不再執(zhí)行任何自愈操作。

NPDPlus將記錄節(jié)點事件中執(zhí)行的所有自愈操作,以便集群管理員可以方便地了解節(jié)點上的事件。

用戶指南

1.登錄騰訊云容器服務(wù)控制臺,點擊要創(chuàng)建NPDPlus的集群。

2.點擊集群詳細信息頁面左側(cè)的組件管理,在組件管理中選擇NodeProblemDetectorPlus。

3.配置NodeProblemDetectorPlus參數(shù),可以根據(jù)具體節(jié)點的狀態(tài)選擇執(zhí)行不同的自愈動作。

4.選擇“確定”,然后單擊“完成”,一鍵創(chuàng)建它。

在集群形成管理中,可以看到NPDPlus正在成功運行:


文章推薦
海關(guān)報關(guān)流程講解
Lazada聯(lián)盟營銷推廣技巧新手指南,lazada聯(lián)盟推廣技巧,lazada聯(lián)盟推廣技巧
惠州哪家國際物流公司物流旺季時效有保證,惠州高品質(zhì)物流服務(wù)聯(lián)系方式
寄國際快遞中可能會面臨哪些風險,可以往中風險地區(qū)寄快遞嗎


特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國平臺交流群
加入
韓國平臺交流群
掃碼進群
歐洲多平臺交流群
加入
歐洲多平臺交流群
掃碼進群
美國賣家交流群
加入
美國賣家交流群
掃碼進群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
ESG獨家招商-PHH GROUP賣家交流群
加入
ESG獨家招商-PHH GROUP賣家交流群
掃碼進群
《法國Fnac平臺知識百科》
2025跨境電商營銷日歷
《2024年全球消費趨勢白皮書——美國篇》
《2024TikTok出海達人營銷白皮書》
《Coupang自注冊指南》
《eMAG知識百科》
《TikTok官方運營干貨合集》
《韓國節(jié)日營銷指南》
《開店大全-全球合集》
《TikTok綜合運營手冊》
通過ESG入駐平臺,您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運營實操指導
運營提效資源福利
平臺官方專屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問

平臺顧問

平臺顧問 平臺顧問

微信掃一掃
馬上聯(lián)系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機入駐更便捷

icon icon

返回頂部

国第一产在线无码精品区,aaa无码视频在线观看,久久强奷乱码老熟女,国产一级aⅴ无码毛片