摘要:集群三步安裝概述應(yīng)當(dāng)是使用監(jiān)控系統(tǒng)的最佳實(shí)踐了,首先它一鍵構(gòu)建整個(gè)監(jiān)控系統(tǒng),通過(guò)一些無(wú)侵入的手段去配置如監(jiān)控?cái)?shù)據(jù)源等故障自動(dòng)恢復(fù),高可用的告警等。。
kubernetes集群三步安裝 概述
prometheus operator應(yīng)當(dāng)是使用監(jiān)控系統(tǒng)的最佳實(shí)踐了,首先它一鍵構(gòu)建整個(gè)監(jiān)控系統(tǒng),通過(guò)一些無(wú)侵入的手段去配置如監(jiān)控?cái)?shù)據(jù)源等
故障自動(dòng)恢復(fù),高可用的告警等。。
不過(guò)對(duì)于新手使用上還是有一丟丟小門檻,本文就結(jié)合如何給envoy做監(jiān)控這個(gè)例子來(lái)分享使用prometheus operator的正確姿勢(shì)
至于如何寫(xiě)告警規(guī)則,如何配置prometheus查詢語(yǔ)句不是本文探討的重點(diǎn),會(huì)在后續(xù)文章中給大家分享,本文著重探討如何使用prometheus operator
prometheus operator安裝sealyun離線安裝包內(nèi)已經(jīng)包含prometheus operator,安裝完直接使用即可
配置監(jiān)控?cái)?shù)據(jù)源原理:通過(guò)operator的CRD發(fā)現(xiàn)監(jiān)控?cái)?shù)據(jù)源service
apiVersion: apps/v1 kind: Deployment metadata: name: envoy labels: app: envoy spec: replicas: 1 selector: matchLabels: app: envoy template: metadata: labels: app: envoy spec: volumes: - hostPath: # 為了配置方便把envory配置文件掛載出來(lái)了 path: /root/envoy type: DirectoryOrCreate name: envoy containers: - name: envoy volumeMounts: - mountPath: /etc/envoy name: envoy readOnly: true image: envoyproxy/envoy:latest ports: - containerPort: 10000 # 數(shù)據(jù)端口 - containerPort: 9901 # 管理端口,metric是通過(guò)此端口暴露 --- kind: Service apiVersion: v1 metadata: name: envoy labels: app: envoy # 給service貼上標(biāo)簽,operator會(huì)去找這個(gè)service spec: selector: app: envoy ports: - protocol: TCP port: 80 targetPort: 10000 name: user - protocol: TCP # service暴露metric的端口 port: 81 targetPort: 9901 name: metrics # 名字很重要,ServiceMonitor 會(huì)找端口名
envoy配置文件:
監(jiān)聽(tīng)的地址一定需要修改成0.0.0.0,否則通過(guò)service獲取不到metric
/root/envoy/envoy.yaml
admin: access_log_path: /tmp/admin_access.log address: socket_address: protocol: TCP address: 0.0.0.0 # 這里一定要改成0.0.0.0,而不能是127.0.0.1 port_value: 9901 static_resources: listeners: - name: listener_0 address: socket_address: protocol: TCP address: 0.0.0.0 port_value: 10000 filter_chains: - filters: - name: envoy.http_connection_manager config: stat_prefix: ingress_http route_config: name: local_route virtual_hosts: - name: local_service domains: ["*"] routes: - match: prefix: "/" route: host_rewrite: sealyun.com cluster: service_google http_filters: - name: envoy.router clusters: - name: service_sealyun connect_timeout: 0.25s type: LOGICAL_DNS # Comment out the following line to test on v6 networks dns_lookup_family: V4_ONLY lb_policy: ROUND_ROBIN hosts: - socket_address: address: sealyun.com port_value: 443 tls_context: { sni: sealyun.com }使用ServiceMonitor
envoyServiceMonitor.yaml:
apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: labels: app: envoy name: envoy namespace: monitoring # 這個(gè)可以與service不在一個(gè)namespace中 spec: endpoints: - interval: 15s port: metrics # envoy service的端口名 path: /stats/prometheus # 數(shù)據(jù)源path namespaceSelector: matchNames: # envoy service所在namespace - default selector: matchLabels: app: envoy # 選擇envoy service
create成功后我們就可以看到envoy的數(shù)據(jù)源了:
然后就可以看到metric了:
然后就可以在grafana上進(jìn)行一些配置了,promethues相關(guān)使用不是本文討論的對(duì)象
告警配置 alert manager配置[root@dev-86-201 envoy]# kubectl get secret -n monitoring NAME TYPE DATA AGE alertmanager-main Opaque 1 27d
我們可以看到這個(gè)secrect,看下里面具體內(nèi)容:
[root@dev-86-201 envoy]# kubectl get secret alertmanager-main -o yaml -n monitoring apiVersion: v1 data: alertmanager.yaml: Imdsb2JhbCI6IAogICJyZXNvbHZlX3RpbWVvdXQiOiAiNW0iCiJyZWNlaXZlcnMiOiAKLSAibmFtZSI6ICJudWxsIgoicm91dGUiOiAKICAiZ3JvdXBfYnkiOiAKICAtICJqb2IiCiAgImdyb3VwX2ludGVydmFsIjogIjVtIgogICJncm91cF93YWl0IjogIjMwcyIKICAicmVjZWl2ZXIiOiAibnVsbCIKICAicmVwZWF0X2ludGVydmFsIjogIjEyaCIKICAicm91dGVzIjogCiAgLSAibWF0Y2giOiAKICAgICAgImFsZXJ0bmFtZSI6ICJEZWFkTWFuc1N3aXRjaCIKICAgICJyZWNlaXZlciI6ICJudWxsIg== kind: Secret
base64解碼一下:
"global": "resolve_timeout": "5m" "receivers": - "name": "null" "route": "group_by": - "job" "group_interval": "5m" "group_wait": "30s" "receiver": "null" "repeat_interval": "12h" "routes": - "match": "alertname": "DeadMansSwitch" "receiver": "null"
所以配置alertmanager就非常簡(jiǎn)單了,就是創(chuàng)建一個(gè)secrect即可
如alertmanager.yaml:
global: smtp_smarthost: "smtp.qq.com:465" smtp_from: "[email protected]" smtp_auth_username: "[email protected]" smtp_auth_password: "xxx" # 這個(gè)密碼是開(kāi)啟smtp授權(quán)后生成的,下文有說(shuō)怎么配置 smtp_require_tls: false route: group_by: ["alertmanager","cluster","service"] group_wait: 30s group_interval: 5m repeat_interval: 3h receiver: "fanux" routes: - receiver: "fanux" receivers: - name: "fanux" email_configs: - to: "[email protected]" send_resolved: true
delete掉老的secret,根據(jù)自己的配置重新生成secret即可
kubectl delete secret alertmanager-main -n monitoring kubectl create secret generic alertmanager-main --from-file=alertmanager.yaml -n monitoring郵箱配置,以QQ郵箱為例
開(kāi)啟smtp pop3服務(wù)
照著操作即可,后面會(huì)彈框一個(gè)授權(quán)碼,配置到上面的配置文件中
然后就可以收到告警了:
prometheus operator自定義PrometheusRule crd去描述告警規(guī)則
[root@dev-86-202 shell]# kubectl get PrometheusRule -n monitoring NAME AGE prometheus-k8s-rules 6m
直接edit這個(gè)rule即可,也可以再自己去創(chuàng)建個(gè)PrometheusRule
kubectl edit PrometheusRule prometheus-k8s-rules -n monitoring
如我們?cè)趃roup里加一個(gè)告警:
spec: groups: - name: ./example.rules rules: - alert: ExampleAlert expr: vector(1) - name: k8s.rules rules:
重啟prometheuspod:
kubectl delete pod prometheus-k8s-0 prometheus-k8s-1 -n monitoring
然后在界面上就可以看到新加的規(guī)則:
探討可加QQ群:98488045
公眾號(hào):文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/27643.html
摘要:集群三步安裝概述應(yīng)當(dāng)是使用監(jiān)控系統(tǒng)的最佳實(shí)踐了,首先它一鍵構(gòu)建整個(gè)監(jiān)控系統(tǒng),通過(guò)一些無(wú)侵入的手段去配置如監(jiān)控?cái)?shù)據(jù)源等故障自動(dòng)恢復(fù),高可用的告警等。。 kubernetes集群三步安裝 概述 prometheus operator應(yīng)當(dāng)是使用監(jiān)控系統(tǒng)的最佳實(shí)踐了,首先它一鍵構(gòu)建整個(gè)監(jiān)控系統(tǒng),通過(guò)一些無(wú)侵入的手段去配置如監(jiān)控?cái)?shù)據(jù)源等故障自動(dòng)恢復(fù),高可用的告警等。。 不過(guò)對(duì)于新手使用上還是有一...
摘要:,托管于騰訊云容器平臺(tái)容器編排工具。適配我們目前的服務(wù)部署在騰訊云托管,節(jié)點(diǎn)使用核的網(wǎng)絡(luò)增強(qiáng)型機(jī)器,所有的后端服務(wù)都以部署,集群外部署高可用支持集群內(nèi)服務(wù)發(fā)現(xiàn),數(shù)據(jù)庫(kù)以為主,消息隊(duì)列采用。 距離2017年的見(jiàn)聞技術(shù)架構(gòu)調(diào)整接近2年,隨著業(yè)務(wù)線的發(fā)展,見(jiàn)聞技術(shù)部的項(xiàng)目數(shù)量、項(xiàng)目架構(gòu)類型、基礎(chǔ)設(shè)施規(guī)模、服務(wù)變更頻率都在不斷地增長(zhǎng),帶給SRE的挑戰(zhàn)是如何能更快地助力于開(kāi)發(fā)人員更快更穩(wěn)定地部署...
摘要:同時(shí)有權(quán)限控制日志審計(jì)整體配置過(guò)期時(shí)間等功能。將成為趨勢(shì)前置條件要求的版本應(yīng)該是因?yàn)楹椭С值南拗频暮诵乃枷胧菍⒌牟渴鹋c它監(jiān)控的對(duì)象的配置分離,做到部署與監(jiān)控對(duì)象的配置分離之后,就可以輕松實(shí)現(xiàn)動(dòng)態(tài)配置。 一.單獨(dú)部署 二進(jìn)制安裝各版本下載地址:https://prometheus.io/download/ Docker運(yùn)行 運(yùn)行命令:docker run --name promet...
摘要:在第三部分中,我們將了解如何在服務(wù)網(wǎng)格中啟用分布式跟蹤。在此部署模型中,被部署為服務(wù)的在本例中為客戶端。會(huì)在服務(wù)調(diào)用之間添加一些追蹤,并發(fā)送到或您的跟蹤提供商目前支持和。這些示例的上游服務(wù)是。 本博客是深入研究Envoy Proxy和Istio.io 以及它如何實(shí)現(xiàn)更優(yōu)雅的方式來(lái)連接和管理微服務(wù)系列文章的一部分。 這是接下來(lái)幾個(gè)部分的想法(將在發(fā)布時(shí)更新鏈接): 斷路器(第一部分) ...
摘要:如果你是學(xué)生,計(jì)劃參加,現(xiàn)在是審查項(xiàng)目構(gòu)想,并與導(dǎo)師開(kāi)始討論的最佳時(shí)機(jī)。和大會(huì)日期會(huì)議日程通告日期年月日會(huì)議活動(dòng)舉辦日期年月至日和贊助方案和多元化獎(jiǎng)學(xué)金現(xiàn)正接受申請(qǐng)和即將首次合體落地中國(guó)和購(gòu)票窗口,立即購(gòu)票 showImg(https://segmentfault.com/img/bVbpnJA?w=1280&h=545); Google Summer of Code(GSoC)是面向...
閱讀 643·2023-04-26 02:08
閱讀 2666·2021-11-18 10:02
閱讀 3471·2021-11-11 16:55
閱讀 2354·2021-08-17 10:13
閱讀 2913·2019-08-30 15:53
閱讀 694·2019-08-30 15:44
閱讀 2560·2019-08-30 11:10
閱讀 1765·2019-08-29 16:57