Огоҳиҳо ва огоҳиномаҳо: PagER Duty, Opsgenie
Огоҳиҳо ва огоҳиномаҳо: PagER Duty, Opsgenie
1) Чаро платформаи алоҳидаи огоҳиҳо
Ҳадаф расонидани сигнали фаврӣ ва дахлдор ба шахси/дастаи дуруст ва оғози раванди ҳодиса: шинохтан (акк), шиддат, иртибот, постмортем. PagER Duty ва Opsgenie медиҳанд:- Масир аз рӯи хидматҳо/барчаспҳо/муҳитҳо.
- Афзоиш ва ҷадвалҳо (аз рӯи вазифа, пайгирии офтоб).
- Deduplication/таносуби ҳодиса.
- Тирезаҳои ором (нигоҳдорӣ/яхкунӣ) ва қоидаҳои мусиқӣ.
- Интегратсия бо мониторинг, CI/CD ва Chat-Ops.
Дастгирӣ: SLO-остонаи → ҳушдордиҳӣ → шахс/мошин → runbook → runbook → rollback/fix → postmortem.
2) Модели сигнал ва вазнинӣ
Ҷадвали тавсияшуда:- интиқодӣ (саҳифа) - вайронкунии SLO/хатои роҳи пулӣ (пасандоз/бозхонд), коҳиш ёфтани дастрасӣ, меъёри сӯзондан.
- баланд (саҳифа/чипта) - таназзули назаррас бидуни тақсимоти SLO.
- миёна (чипта) - зарфият, таназзули қафо, бозпас гирифтан.
- паст (иттилоъ) - тамоюлҳо, огоҳиҳо.
Қоида: саҳифа аз ҷониби SLO ё танҳо триггери тиҷорати возеҳ.
3) Меъмории масир
1. Сарчашма (Prometheus/Alertmanager, Grafana, мониторинги абр, вебхукҳои худ).
2. Шлюз (Хадамоти Pager/Opsgenie/ҳамгироӣ).
3. Сиёсатҳо: хатсайрҳо аз рӯи барчаспҳо ('хидмат', 'env', 'минтақа'), вазнинӣ, сарборӣ.
4. Афзоиш: пайдарпаии сатҳи вазифаҳо (L1 → L2 → menedzher).
5. Алоқа: Каналҳои Chatops, саҳифаҳои вазъ, почтаҳо.
Намунаи барчаспҳои калидӣ (стандартизатсия)
'service', 'env', 'минтақа', 'версия', 'runbook', 'release _ id', 'маршрут', 'иҷорагир' (агар B2B/бисёр иҷорагир).
4) Ҷадвалҳои занг ва шиддат
Ҷадвалҳо: ибтидоӣ/миёна, роли (SRE, DBRE, Sec).
Гардишҳо: рӯз/шаб, пайгирии офтоб, истироҳат.
Аз ҳад зиёд: Тарк/беморӣ.
Афзоиш: ack-timeout 5-10 дақ қабати навбатӣ. Бо вақти корӣ - ба шӯъбаи профил; берун - платформаи занг.
Маслиҳат: Қадамҳои кӯтоҳтари шиддатро шабона (хастагӣ камтар) ва рӯзона дарозтар нигоҳ доред (контекст вуҷуд дорад).
5) Ҳамгироӣ бо Alertmanager (шакли асосӣ)
yaml receivers:
- name: pagerduty pagerduty_configs:
- routing_key: ${PAGERDUTY_ROUTING_KEY}
severity: '{{ if eq. Labels. severity "critical" }}critical{{ else }}error{{ end }}'
class: '{{.Labels. service }}'
component: '{{.Labels. env }}'
group: '{{.Labels. region }}'
description: '{{.Annotations. summary }}'
details:
service: '{{.Labels. service }}'
env: '{{.Labels. env }}'
runbook: '{{.Annotations. runbook }}'
release: '{{.Annotations. release }}'
route:
receiver: pagerduty group_by: ["service","env","region"]
group_wait: 30s group_interval: 5m repeat_interval: 2h
Opsgenie (webhook)
yaml receivers:
- name: opsgenie opsgenie_configs:
- api_key: ${OPSGENIE_API_KEY}
responders:
- name: "SRE Primary"
type: team priority: '{{ if eq. Labels. severity "critical" }}P1{{ else }}P3{{ end }}'
details:
trace: '{{.Labels. trace_id }}'
runbook: '{{.Annotations. runbook }}'
6) Ғавғо, марг ва таносуб
Калиди Dedup: истифодаи изи ангуштони устувор (масалан, хидмат + масир + рамз).
Гурӯҳбандӣ: 'group _ by' аз рӯи хидмат/муҳит, то ки каскади 5xx даҳҳо саҳифаро паҳн накунад.
Тирезаҳои хомӯш/ором: ҳангоми муҳоҷират/релизҳо/санҷишҳои сарборӣ.
Фишор бо як сабаб: агар аллакай як ҳодисаи P1 барои 'api-gateway @ prod' рух дода бошад, P2/P3 кӯдакро пахш кунед.
Анти-намуна: Саҳифа аз ҷониби CPU/Хотира бидуни таъсири тасдиқшуда ба SLO.
7) Пайвастшавӣ бо релизҳо ва амалҳои худкор
Бо депрессияи канарӣ, Pager Duty/Opsgenie аз дарвозаи SLO → webhook дар CI/CD → таваққуф/бозгашт ҳушдор медиҳад (Argo Rollouts/Helm).
Ҳушдор дорои: 'release _ id', 'тасвир. барчасп ', истинод ба қубур ва дафтарчаи такрорӣ.
Намунаи истиноди дафтар дар эзоҳҳо
runbook: https://runbooks. company/rollback/api-gateway#canary
8) Чатҳо ва коммуникатсия
Худкори сохтани канали ҳодиса дар Slack/Teams, пайваст кардани чипта.
Слаш-команды: 'ack', 'таъин @ user', 'status set', 'postmortem start'.
Саҳифаи ҳолат - Навсозиҳо ба таври худкор дар P1/P2.
9) Мӯҳлати ҳодиса (ҳадди аққал)
1. Триггер (ҳушдор аз SLO/сенсорҳо).
2. Саҳифа (занги аввал).
3. Акк (тасдиқ, TTA).
4. Муошират (канал/ҳолат).
5. Сабук кардан (бозгашт/хусусият-парчам/ҷудокунӣ).
6. Ҳал кунед (TTR).
7. Постмортем (ҷадвал, сабабҳо, амалҳо, дарсҳо, соҳиби вазифа).
Маҷмӯаи нақш: IC (фармондеҳи ҳодиса), роҳбари Ops, Comms, Scribe.
10) Майдонҳои сарборӣ (муқаррарӣ)
json
{
"service": "payments-api",
"env": "prod",
"region": "eu-central-1",
"severity": "critical",
"event_class": "slo_burn",
"summary": "Withdraw 5xx > 0. 5% for 10m",
"runbook": "https://runbooks/payments/withdraw-5xx",
"release_id": "rel-2025-11-03-14-20",
"image": "ghcr. io/org/payments:1. 14. 2",
"trace_id": "8a4f0c2e9b1f42d7",
"annotations": { "canary": "25%" }
}
11) Ҳамгироии манбаъҳои сигнал
Prometheus/Alertmanager манбаи асосии SLO/RED мебошад.
Grafana Alerting барои панели панелҳо/ченакҳои тиҷорат осонтар аст.
Open-Telemetry/Span-Metrics - таъхир/хатогӣ аз рӯи масир.
K8s ҳодисаҳо - нокомии кластер (назорати ҳавопаймо, вайронкунии PDB).
DB/Queues - ақибмонӣ/қуфлҳо/нусхабардорӣ.
Webhooks барнома - сигналҳои домейн (хатои PSP, афзоиши қаллобӣ).
12) Сиёсатҳо ва мувофиқат
RBAC барои эҷод/тағир додани сиёсатҳо, ҷадвалҳо, мутас.
Аудит: кӣ вазъро эътироф/таъин/тағир додааст, мӯҳлатҳо.
Кам кардани PII дар сарборӣ (ID чипта ба ҷои почтаи электронӣ/телефонии корбар).
Нақшаи DR: Мо чӣ кор мекунем, вақте ки дастнорас будани Pager-Duty/Opsgenie (канали афтанда).
13) Омӯзиши парвандаҳо (PagER Duty vs Opsgenie)
14) Тирезаҳо ва сардиҳои ором
Яхкунӣ: Манъи пейджинг дар тирезаҳои ба нақша гирифташуда, танҳо P1-ро тарк мекунад.
Хотираи барчасп: 'env = марҳила', 'минтақа = др', 'хидмат = партия'.
Хомӯшии муваққатӣ: ҳангоми интиқоли пойгоҳи додаҳо/санҷишҳои сарборӣ - бо соҳиби возеҳ.
15) Нишондиҳандаҳои иҷро (SRE/DORA барои огоҳӣ)
MTTA/MTTR (аз ҷониби гурӯҳҳо/хидматҳо/бастҳо тақсим шудааст).
% огоҳиҳо бо дафтарчаи корӣ (ҳадаф ≥ 95%).
Ҳиссаи огоҳиҳои саҳифа аз ҷониби SLO (ҳадаф ≥ 90%).
Таносуби муфид/ғавғо (ҳадаф ≥ 3:1).
% амалҳои худкор (таваққуф/бозгашт тавассути webhook) - афзоиш меёбад.
Объекти амали постмортемаи сӯхтан дар 14/30 рӯз.
16) Анти-намунаҳо
Саҳифа аз рӯи сахтафзор (CPU, диск) бидуни таъсир ба корбар.
Набудани 'group _ by' → "тӯфони" огоҳиҳо.
Тирезаҳои ором вуҷуд надоранд - релизҳо ҳама чизро сурх мекунанд.
Боркашонӣ бе 'service/env/runbook' - иҷро карда намешавад/иҷро карда намешавад.
Ягон миқёс ва қоидаҳои ягонаи вазнинӣ вуҷуд надоранд (ҳар як манбаъ гуногун аст).
Огоҳии "абадӣ", ки ҳеҷ кас таъмир намекунад (қарзи ҳушдор).
17) Рӯйхати назорати амалисозӣ (0-45 рӯз)
0-10 рӯз
Ҷадвали вазниниро ҳамоҳанг созед ва барчасбҳо/эзоҳҳоро стандартӣ кунед.
Эҷод кардани хидматҳо дар Pager-Duty/Opsgenie, ҷадвалҳо ва шиддатёбии асосӣ.
Alertmanager/Grafana-ро бандед, 'group _ by' -ро фаъол созед ва бимиред.
11-25 рӯз
Огоҳиҳои SLO-ро ворид кунед (сӯзондани бисёр равзана), илова кардани дафтарчаи пайванд.
Конфигуратсияи чатҳо: каналҳои худкор, фармонҳои ack/таъин.
Фаъол кардани тирезаҳои ором дар релизҳо/муҳоҷират.
26-45 рӯз
Интегратсияи худкори таваққуф/бозгашт барои канарейкаҳо (webhooks).
Гузоришҳои MTTA/MTTR ва гигиенаи ҳушдорро ворид кунед (тоза кардани садо).
Стандартикунонии постмортема ва назорат аз болои объектҳои амал.
18) Пораҳои тайёр
Grafana Alerting → PagER Duty (харитасозии бадан JSON)
json
{
"routing_key": "${PAGERDUTY_ROUTING_KEY}",
"event_action": "trigger",
"payload": {
"summary": "{{.RuleName }}: {{ index. Labels \"service\" }}",
"severity": "{{ if eq (index. Labels \"severity\") \"critical\" }}critical{{ else }}error{{ end }}",
"source": "grafana",
"component": "{{ index. Labels \"env\" }}",
"group": "{{ index. Labels \"region\" }}"
},
"links": [
{ "href": "{{.DashboardURL }}", "text": "Dashboard" },
{ "href": "{{ index. Labels \"runbook\" }}", "text": "Runbook" }
]
}
Вебҳук аз ҳушёрӣ → Таваққуфи Argo Rollouts
bash curl -X POST "$ARGO_API/rollouts/pause" \
-H "Authorization: Bearer $TOKEN" \
-d '{"name":"api-gateway","namespace":"prod"}'
Opsgenie - Қоидаи масир (псевдо)
yaml if:
tags: ["service:payments","env:prod"]
severity: ["P1","P2"]
then:
route_to: "SRE-Payments"
notify: ["Primary OnCall","Secondary"]
19) Хулоса
Контури қавии огоҳиҳо ин раванд + интизом мебошад: стратификатсияи ба SLO нигаронидашуда, масирёбӣ ва авҷгирии салоҳиятдор, барчаспҳо ва сарбории ягона, тирезаҳои ором, Chatops ва амалҳои автоматӣ (таваққуф/бозгашт). Аз рӯи буҷа ва UX Pager-Duty ё Opsgenie-ро интихоб кунед, аммо ба ҳамон қоидаҳои садо, вазифа ва масъулият риоя кунед - он гоҳ саҳифа нодир, дақиқ ва муфид хоҳад буд ва ҳодисаҳо кӯтоҳ ва идорашаванда хоҳанд буд.