Skip to content

Commit d28c168

Browse files
committed
feature. feature. refactoring alert system using tks-api
1 parent 50d7082 commit d28c168

File tree

8 files changed

+1
-481
lines changed

8 files changed

+1
-481
lines changed

aws-msa-reference/lma/site-values.yaml

Lines changed: 0 additions & 60 deletions
Original file line numberDiff line numberDiff line change
@@ -277,66 +277,6 @@ charts:
277277
ruler.alertmanagers:
278278
- http://alertmanager-operated:9093
279279
ruler.persistence.size: 8Gi
280-
ruler.config:
281-
groups:
282-
- name: "tks"
283-
rules:
284-
- alert: "PrometheusDown"
285-
expr: absent(up{prometheus="lma/lma-prometheus"})
286-
- alert: node-cpu-high-load
287-
annotations:
288-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}})
289-
description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다.
290-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다.
291-
summary: Cpu resources of the node {{ $labels.instance }} are running low.
292-
discriminative: $labels.taco_cluster, $labels.instance
293-
expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0?
294-
for: 3m
295-
labels:
296-
severity: warning
297-
- alert: node-memory-high-utilization
298-
annotations:
299-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}})
300-
descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다.
301-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다.
302-
summary: Memory resources of the node {{ $labels.instance }} are running low.
303-
discriminative: $labels.taco_cluster, $labels.instance
304-
expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2
305-
for: 3m
306-
labels:
307-
severity: warning
308-
- alert: node-disk-full
309-
annotations:
310-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨
311-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다.
312-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
313-
summary: Memory resources of the node {{ $labels.instance }} are running low.
314-
discriminative: $labels.taco_cluster, $labels.instance
315-
expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0
316-
for: 30m
317-
labels:
318-
severity: critical
319-
- alert: pvc-full
320-
annotations:
321-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨
322-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC)
323-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
324-
summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low.
325-
discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim
326-
expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes
327-
for: 30m
328-
labels:
329-
severity: critical
330-
- alert: pod-restart-frequently
331-
annotations:
332-
message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회)
333-
description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드)
334-
Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요.
335-
discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace
336-
expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지?
337-
for: 30m
338-
labels:
339-
severity: critical
340280

341281
- name: thanos-config
342282
override:

aws-reference/lma/site-values.yaml

Lines changed: 1 addition & 61 deletions
Original file line numberDiff line numberDiff line change
@@ -277,67 +277,7 @@ charts:
277277
ruler.alertmanagers:
278278
- http://alertmanager-operated:9093
279279
ruler.persistence.size: 8Gi
280-
ruler.config:
281-
groups:
282-
- name: "tks"
283-
rules:
284-
- alert: "PrometheusDown"
285-
expr: absent(up{prometheus="lma/lma-prometheus"})
286-
- alert: node-cpu-high-load
287-
annotations:
288-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}})
289-
description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다.
290-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다.
291-
summary: Cpu resources of the node {{ $labels.instance }} are running low.
292-
discriminative: $labels.taco_cluster, $labels.instance
293-
expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0?
294-
for: 3m
295-
labels:
296-
severity: warning
297-
- alert: node-memory-high-utilization
298-
annotations:
299-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}})
300-
descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다.
301-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다.
302-
summary: Memory resources of the node {{ $labels.instance }} are running low.
303-
discriminative: $labels.taco_cluster, $labels.instance
304-
expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2
305-
for: 3m
306-
labels:
307-
severity: warning
308-
- alert: node-disk-full
309-
annotations:
310-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨
311-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다.
312-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
313-
summary: Memory resources of the node {{ $labels.instance }} are running low.
314-
discriminative: $labels.taco_cluster, $labels.instance
315-
expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0
316-
for: 30m
317-
labels:
318-
severity: critical
319-
- alert: pvc-full
320-
annotations:
321-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨
322-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC)
323-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
324-
summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low.
325-
discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim
326-
expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes
327-
for: 30m
328-
labels:
329-
severity: critical
330-
- alert: pod-restart-frequently
331-
annotations:
332-
message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회)
333-
description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드)
334-
Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요.
335-
discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace
336-
expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지?
337-
for: 30m
338-
labels:
339-
severity: critical
340-
280+
341281
- name: thanos-config
342282
override:
343283
objectStorage:

byoh-reference/lma/site-values.yaml

Lines changed: 0 additions & 60 deletions
Original file line numberDiff line numberDiff line change
@@ -285,66 +285,6 @@ charts:
285285
ruler.alertmanagers:
286286
- http://alertmanager-operated:9093
287287
ruler.persistence.size: 8Gi
288-
ruler.config:
289-
groups:
290-
- name: "tks"
291-
rules:
292-
- alert: "PrometheusDown"
293-
expr: absent(up{prometheus="lma/lma-prometheus"})
294-
- alert: node-cpu-high-load
295-
annotations:
296-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 idle process의 cpu 점유율이 3분 동안 0% 입니다. (현재 사용률 {{$value}})
297-
description: 워커 노드 CPU가 과부하 상태입니다. 일시적인 서비스 Traffic 증가, Workload의 SW 오류, Server HW Fan Fail등 다양한 원인으로 인해 발생할 수 있습니다.
298-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행 되는 pod중 CPU 자원을 많이 점유하는 pod의 설정을 점검해 보시길 제안드립니다. 예를 들어 pod spec의 limit 설정으로 과도한 CPU자원 점유을 막을 수 있습니다.
299-
summary: Cpu resources of the node {{ $labels.instance }} are running low.
300-
discriminative: $labels.taco_cluster, $labels.instance
301-
expr: (avg by (taco_cluster, instance) (rate(node_cpu_seconds_total{mode="idle"}[60s]))) < 0 #0.1 # 진짜 0?
302-
for: 3m
303-
labels:
304-
severity: warning
305-
- alert: node-memory-high-utilization
306-
annotations:
307-
message: 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 Memory 사용량이 3분동안 80% 를 넘어서고 있습니다. (현재 사용률 {{$value}})
308-
descriptioon: 워커 노드의 Memory 사용량이 80%를 넘었습니다. 일시적인 서비스 증가 및 SW 오류등 다양한 원인으로 발생할 수 있습니다.
309-
Checkpoint: 일시적인 Service Traffic의 증가가 관측되지 않았다면, Alert발생 노드에서 실행되는 pod중 Memory 사용량이 높은 pod들에 대한 점검을 제안드립니다.
310-
summary: Memory resources of the node {{ $labels.instance }} are running low.
311-
discriminative: $labels.taco_cluster, $labels.instance
312-
expr: (node_memory_MemAvailable_bytes/node_memory_MemTotal_bytes) < 0.2
313-
for: 3m
314-
labels:
315-
severity: warning
316-
- alert: node-disk-full
317-
annotations:
318-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 노드({{ $labels.instance }})의 root 볼륨은 24시간 안에 Disk full이 예상됨
319-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰 것으로 예상됩니다.
320-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
321-
summary: Memory resources of the node {{ $labels.instance }} are running low.
322-
discriminative: $labels.taco_cluster, $labels.instance
323-
expr: predict_linear(node_filesystem_free_bytes{mountpoint="/"}[6h], 24*3600) < 0
324-
for: 30m
325-
labels:
326-
severity: critical
327-
- alert: pvc-full
328-
annotations:
329-
message: 지난 6시간동안의 추세로 봤을 때, 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.persistentvolumeclaim }})가 24시간 안에 Disk full이 예상됨
330-
description: 현재 Disk 사용 추세기준 24시간 내에 Disk 용량이 꽉 찰것으로 예상됩니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.persistentvolumeclaim }} PVC)
331-
Checkpoint: Disk 용량 최적화(삭제 및 Backup)을 수행하시길 권고합니다. 삭제할 내역이 없으면 증설 계획을 수립해 주십시요.
332-
summary: Disk resources of the volume(pvc) {{ $labels.persistentvolumeclaim }} are running low.
333-
discriminative: $labels.taco_cluster, $labels.persistentvolumeclaim
334-
expr: predict_linear(kubelet_volume_stats_available_bytes[6h], 24*3600) < 0 # kubelet_volume_stats_capacity_bytes
335-
for: 30m
336-
labels:
337-
severity: critical
338-
- alert: pod-restart-frequently
339-
annotations:
340-
message: 클러스터({{ $labels.taco_cluster }})의 파드({{ $labels.pod }})가 30분 동안 5회 이상 재기동 ({{ $value }}회)
341-
description: 특정 Pod가 빈번하게 재기동 되고 있습니다. 점검이 필요합니다. ({{ $labels.taco_cluster }} 클러스터, {{ $labels.pod }} 파드)
342-
Checkpoint: pod spec. 에 대한 점검이 필요합니다. pod의 log 및 status를 확인해 주세요.
343-
discriminative: $labels.taco_cluster, $labels.pod, $labels.namespace
344-
expr: increase(kube_pod_container_status_restarts_total{namespace!="kube-system"}[60m:]) > 2 # 몇회로 할 것인지?
345-
for: 30m
346-
labels:
347-
severity: critical
348288

349289
- name: thanos-config
350290
override:

0 commit comments

Comments
 (0)