Ашыкча коркунучтардын алдын алуу
1) көйгөй жана максаты
Alert fatigue системасы өтө көп тиешеси жок же actionable билдирүүлөрдү жиберет. Жыйынтык - пейджерлерди четке кагуу, MTTA/MTTR өсүшү жана чыныгы окуяларды өткөрүп жиберүү.
Максаты: сигналдарды сейрек, маанилүү жана аткарылуучу кылуу, аларды SLO жана playbuks менен байланыштыруу.
2) Сигналдардын таксономиясы (канал = кесепеттери)
Page (P0/P1) - адамды ойготот; гана кол иш-аракет азыр талап кылынат жана runbook бар.
Ticket (P2) - асинхрондук иш саат/күн; ойготпойт, бирок SLAда.
Dash-only (P3) - активдүү иш-аракет жок байкоо/тренд; ызы-чуу жаратпайт.
Silent Sentry - арткы метрика/аудит (RCA/Post-Mortems үчүн).
3) "Туура" Алерт долбоорлоо
Ар бир алерт төмөнкүлөргө ээ болууга милдеттүү:- Максат/гипотеза (биз коргойт: SLO, коопсуздук, акча, комплаенс).
- Иштөө шарттары (босого, терезе, булактардын кворуму).
- Runbook/Playbook (кыска ID кадам + шилтеме).
- Ээси (команда/ролдук топ).
- Аяктоо критерийлери (качан жабуу, авто-резол).
- Алсыздык классы (user-impact/platform/security/cost).
4) SLO багытталган мониторинг
SLI/SLO → баштапкы сигналдар: жеткиликтүүлүк, жашыруун, бизнес-операциялардын ийгилиги.
Burn-rate алерт: эки терезе (кыска + узун), мисалы:- Кыска: 5% бюджеттин 1 саат → Page.
- Узун: 2% бюджет 6 саат → Ticket.
- Когорта: региондор/провайдерлер/VIP-сегменттер боюнча алерталар - жалган глобалдык тынчсыздануулар азыраак.
5) Ызы-чууну азайтуу ыкмалары
1. Кворум зонд: эгерде ≥ 2 көз карандысыз булактар (ар кандай аймактар/провайдерлер) маселени тастыктаса гана ишке киргизүү.
2. Дедупликация: бирдей окуяларды топтоо (aggregation keys: service + region + code).
3. Гистерезис/узактыгы: "кызыл зонада ≥ N мүнөт" тикенектерди чыпкалоо үчүн.
4. Rate-limit: көп эмес X эскертүү/саат/кызмат; ашып кетсе - бир пейдж + кыскача.
5. Auto-snooze/акылдуу басуу: T терезеде кайталануучу алерт → түп жок чейин Ticket котормосу.
6. Окуялардын корреляциясы: ондогон симптомдордун ордуна бир "мастер-алерт" (мисалы, "БД жок" микросервистерден 5xx өчүрөт).
7. Maintenance терезелер: пландаштырылган иш автоматтык күтүлгөн сигналдарды басат.
8. Anomaly + guardrails: Аномалиялар - SLO сигнал ырастоо жок болсо, бир гана Ticket болуп саналат.
6) Багыттоо жана артыкчылыктары
Артыкчылыктары: P0 (Page, 15 мин), P1 (Page, 30 мин), P2 (Ticket, 4-8 ч), P3 (байкоо).
Тегдер боюнча роутинг: service/env/region/tenant → тиешелүү on-call.
Убакыттын эскалациясы: 5 мүнөттө ACK жок → P2 → Duty Manager/IC.
Quiet Hours: оор эмес үчүн түнкү саат; Page P2/P3 тыюу салынат.
Fatigue-саясат: инженер болсо> N пейджер/нөөмөт - P2ге кайра бөлүштүрүү, сигналдардын булганышын күчөтүү.
7) Алерт сапаты: макулдашуулар
Actionability ≥ 80%: Пейджерлердин басымдуу көпчүлүгү runbook боюнча иш алып барат.
False Positive ≤ 5% Page сигналдары үчүн.
Time-to-Fix-Alert ≤ 7 күн - кемчилик alert туура/алынып салынышы керек.
Ownership 100% - ар бир alert анын аныктамасы менен ээси жана кампа бар.
8) Alert жашоо цикли (Alert as Code)
1. PR түзүү (максаты, шарттары, runbook, ээси, сыноо планы).
2. Sandbox/Shadow: көлөкө alert чат/журналга жазган, бирок пейджет эмес.
3. Канарейка: on-call чектелген аудитория, FP/TP өлчөө.
4. Прод: rate-limit менен киргизүү + 2-4 жума байкоо.
5. Жумалык review: сапат метрика, оңдоо/алып салуу.
6. Депрекейт: сигнал жогору же actionable эмес, кайталап болсо.
9) Жетилүү метрика (Дашборддо көрсөтүү)
Alerts per on-call hour (mediana/95-перцентил).
% actionable (аткарылган кадамдар бар) жана false-positive rate.
MTTA/MTTR пейджер жана үлүшү page → ticket айланасында (жогорку болушу керек).
Top-talkers (20% ызы- ≥ жараткан кызматтар/эрежелер).
Mean time to fix alert (эрежени өзгөртүүгө биринчи FP чейин).
Burn-rate coverage: эки терезеде SLO-алерт менен кызматтардын үлүшү.
10) "Алерт гигиенасы" чек тизмеси
- Алерт SLO/SLI же бизнес/коопсуздук менен байланышкан.
- Runbook жана ээси бар; байланыш жана war-room каналы көрсөтүлгөн.
- Эки терезе (кыска/узун) жана кворум булактары орнотулган.
- Дедуп, rate-limit, auto-resolve жана auto-snooze кирет.
- бошотуу/көчүрүү учурунда терезелер жана suppression maintenance көрсөтүлгөн.
- Өткөн Shadow/Canary; өлчөнгөн FP/TP.
- Алерттердин сапатынын көрсөткүчтөрү боюнча отчет камтылган.
11) Mini үлгүлөрү
Алертанын өзгөчөлүгү (YAML идеясы)
yaml id: payments-slo-burn severity: P1 owner: team-payments@sre purpose: "Защитить SLO успеха платежей"
signal:
type: burn_rate sli: payment_success_ratio windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
confirmations:
quorum:
- synthetic_probe: eu,us
- rum: conversion_funnel routing:
page: oncall-payments escalate_after: 5m controls:
dedup_key: "service=payments,region={{region}}"
rate_limit: "1/10m"
auto_snooze_after: "3 pages/1h"
runbook: "rb://payments/slo-burn"
maintenance:
suppress_when: [ "release:payments", "db_migration" ]
Текст стандарттык (ызы-чууну азайтуу үчүн)
Импакт: падение success_ratio платежей в EU (-3.2% к SLO, 20 мин).
Диагностика: подтвержден кворумом (EU+US синтетика), RUM — рост отказов на 2 шаге.
Действия: переключили 30% трафика на PSP-B, включили degrade-UX, след. апдейт 20:30.
12) жараяндар: жума сайын "Alert Review"
Күн тартиби (30-45 мин):1. Top-ызы-чуу эрежелери (top-talkers) → туура/алып салуу.
2. Page сигналдар боюнча FP/TP → босоголор/терезелер/quorum тууралоо.
3. Каналды кыскартуу үчүн талапкерлер (Page → Ticket) жана тескерисинче.
4. "Time-to-Fix-Alert" статусу - кечигүүлөр сервистердин ээлерине күчөйт.
5. SLO-alerts coverage текшерүү жана runbook's бар.
13) Релиздер жана операциялар менен байланыш
Релиздердин аннотациялары автоматтык түрдө убактылуу басууларды кошот.
Өзгөртүү Windows: бошотулгандан кийин алгачкы 30 мүнөт - бир гана SLO сигналдар.
Playbook тамыры боюнча топтоо үчүн бир кадам "төмөндөтүү/ачкыч эмес тобокелдиктерди басуу" бар.
14) Коопсуздук жана комплаенс
Security сигналдары (хакерлик/агып чыгуу/анормалдуу кирүү) - өзүнчө каналдар, эч кандай quiet hours.
Аудит-журнал бардык басуу/тынч терезелер: ким, качан, эмне үчүн, мөөнөтү.
Критикалык алармалар үчүн өзгөрбөстүк талабы (иш-чаранын кол тамгасы).
15) Анти-үлгүлөрү
"Ар бир график = алерт" → кар көчкү.
Порог "! = 0 каталар" прод.
чындык булагы катары бир зонд/бир аймак.
Page runbook/ээси жок.
Түбөлүк "убактылуу басуу" мөөнөтү жок.
"Кийин оңдойбуз" деген кемчиликтери бар алерталар - жылдар бою топтолуп келет.
Өндүрүш инциденттери менен релиздик ызы-чууну аралаштыруу.
16) Жол картасы киргизүү (4-6 жума)
1. Инвентаризация: бардык алерттерди түшүрүп, ээлерин жана каналдарын коюу.
2. SLO ядро: критикалык кызматтар боюнча кош терезелер менен burn-rate эрежелерин киргизүү.
3. Ызы-Control: кворум, дедуп жана rate-limit, weekly review баштоо.
4. Runbook-каптоо: жабуу 100% Page-сигналдар playbook.
5. Fatig саясаты: Пейдж/нөөмөт чектери, Quiet Hours, жүктү кайра бөлүштүрүү.
6. Автоматташтыруу: Alert-as-Code, Shadow/Canary, сапат көрсөткүчтөрү боюнча отчеттуулук.
17) Жыйынтык
Унчукпай - мониторинг жоктугу эмес, SLO жана жараяндар менен байланышкан сапаттуу иштелип чыккан сигналдар. Кворум, кош терезелер, дедуп жана катуу багыттоо алерттерди сейрек кездешүүчү, так жана аткарылуучу абалга айландырат. Команда уктап жатат, колдонуучулар ыраазы, окуялар көзөмөлдө.