Билдирүүлөр жана алерттер системасы
(Бөлүк: Операциялар жана башкаруу)
1) Максаты жана принциптери
Максаты - жеткирүү аз, бирок акылдуу: гана тиешелүү сигналдар, өз убагында жана жоопкерчиликтүү адам/робот түшүнүктүү кийинки кадам менен.
Принциптери:- Actionable by default: ар бир алерт ээси бар, артыкчылык, жооп мөөнөтү жана аракет баскычы.
- SLO-биринчи: Алерталар SLI/SLO айланасында курулган, жана эркин метриктер айланасында эмес.
- Noise-control: дедуп, байланыштар, бороон басуу.
- Context-rich: метадеректер (аймак, тенант, версия, trace_id) жана runbook шилтеме.
- Audit-ready: Бардык алерттерди жана жооп кабыл алынат жана өзгөрүлбөгөн журналда сакталат.
2) Сигналдардын булактары
Тех. телеметрия: жеткиликтүүлүк, p95/p99, error-rate, кезек артта, ресурстук лимиттер.
Бизнес иш-чаралар: PriceMismatch, WebhookLag, RTP Drift, Frod сигналдары.
Коопсуздук/комплаенс: SoD-бузуулар, PII-жетүү, ачкычтарды/күбөлүктөрдү колдонуу.
Пландоочу: мөөнөтү өтүп кеткен SLA милдеттери, DLQ-көчкү, retry-storms.
3) Классификация жана артыкчылыктар
Guardrails: Алерталар SLO/бюджет каталар (burn rate) карата түзүлгөн.
4) Роутинг жана эскалация 24 × 7
контекстинде роутинг: 'region/tenant/product/provider/severity'.
Эскалация тепкич: On-call инженер → командалык лидер → Duty Manager → Exec/Legal (PII/каржы үчүн).
Нөөмөт: ролдорду ротациялоо (SRE, App, Data, Security, Payments), резервдик байланыштар (чат/үн/SMS).
Жымжырттык терезелер: түнкү, релиз, маркетинг; P1 үчүн өзгөчөлүктөр.
5) Ызы-чууну азайтуу жана корреляция
Дедупликация: по '(fingerprint, region, tenant, route)' и 'trace _ id'.
"Бороондун" кысымы: активдүү P1 менен дубликаттарды убактылуу басуу.
Корреляциялар: тамыр себебинин айланасында сигналдарды топтоо (релиз/фич/провайдер).
Histeresis: кирүү/босогодон чыгуу - "араа" качуу үчүн ар кандай.
6) Алерт мазмуну (шаблон)
Аталышы: кыскача жана мазмундуу - "EU/текшерүү: p95> 250ms (SLO breach)".
Негизги талаалар: артыкчылык, убакыт, аймак, Тенант, версия, trace_id, affected%, кир. себеби.
Азыр эмне кылуу керек: биринчи 1-3 кадам + Рунбук/баскычтарга шилтеме (Re-route, Rollback, Пауза Promo).
Кийинки байланыш: N мүнөттөн кийин, ээси (IC/on-call).
7) Жеткирүү каналдары
Чат/мессенджер: триаждын негизги каналы (баскычтары бар бот-карталар).
Пейджер/үн/SMS: P1 үчүн.
Почта: отчеттор жана non-urgent (P3/Info).
Вебхактар: тикетинг/оркестраторлор менен интеграция.
Статус-бет: кардарлардын жана өнөктөштөрдүн тышкы билдирүүсү.
8) Интеграция жана "иш-аракеттер баскычы"
Окуя-бот: картаны түзөт, IC дайындайт, видеомост ачат, таймерлер башталат.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Укук: Runes ишке ролдору менен чектелген; бардык иш-аракеттерге кол коюлат жана логдор түзүлөт.
9) Multiregion жана multi-tenant
аймактар боюнча көз карандысыз SLO/босоголор; жергиликтүү окуялар дүйнөнү "боёбойт".
Көрүү чыпкалары: өнөктөштөр/тенанттар өздөрүн гана көрүшөт.
Юрисдикциялык талаптар: билдирүүлөрдүн тексттери, тилдер, убакыт алкактары.
10) Саясат, расписание, унчукпай терезелер
Алерт саясаты: ээлери, босоголор, каналдар, эскалациялар, шаблондор.
Календарлар: жумушчу/жумуш эмес убакыт, релиз/маркетинг терезелер.
Change freeze: босоголорду жумшартуу же ири акциялар учурунда "P1 эмес" басуу.
11) Аудит жана юридикалык бекитүү
Квитанциялар: критикалык алерталар үчүн - 'receipt _ hash' жана DSSE кол тамгасы.
WORM журналдар: өзгөрүлбөс сактоо окуялар жана реакциялар (ким эмне кылганын тастыктады).
Chain-of-custody: эскалация жана чечүү жолдору.
12) Метрика жана SLO эскертме системасы
MTTA (acknowledge): P1 ≤ 5-10 мин; P2 ≤ 30 мин.
Page rate/On-call load: сигналдар - максаттуу диапазондо.
False Positive%: максаттуу босого ≤ (адатта <10-15%).
Correlation натыйжалуулугу: топтоштурулган сигналдардын үлүшү ≥ 80%.
Жеткирүү SLO: чат ≥ 99. 9%, SMS/добуш ≥ 99. 5%.
Time-to-Action: p95 Алертадан Runes ишке.
13) Дашборддор жана репорттор
Оперативдүү: активдүү инциденттер, burn-rate, региондордун/тенанттардын картасы, алерттердин кезеги.
Алерттердин сапаты: ызы-чуу, FP, босоголордун ретесттери, "үнсүз зоналар".
On-call жүктөө: Пейдж жыштыгы, жооп убактысы, "out of hours".
Пост-окуя: жүн натыйжалуулугу, себептердин кайталанышы.
14) iGaming/Fintech өзгөчөлүктөрү
Payments/PSP: P1 - провайдердин иштебей калышы, авторизациялоонун иштебей калышы; запастык PSP боюнча auto-роут.
RTP & Limits: байкалган RTP drift боюнча алерта, чектен ашкан, шектүү үлгүлөрү утуштарды.
Аффилиаттар/вебхактар: жеткирүү кечигүү, дубль өсүшү, тастыкталган квитанциялардын төмөндөшү.
Price/FX/Tax: Display checkout бири-бирине дал келбегендиги, артефакттардын бир нече версиялары.
Жоопкерчиликтүү оюн: RG-триггерлер жана алардын өз убагында эскалация колдоо/Compliance.
15) RACI
16) Киргизүү чек-тизмеси
- North-Star жана SLI/SLO аныктоо; Алерттерди burn-rate менен байланыштырыңыз.
- саясат каталогун киргизүү: босоголор, каналдар, эскалация, унчукпай терезелер.
- Дедуп ишке ашыруу, байланыштар, histeresis, бороон басуу.
- көп региондук жана multi-tenant көрүү эрежелерин орнотуу.
- туташтыруу "иш-аракет баскычтары" жана runbook; баштоо укугун чектөө.
- WORM/дүмүрчөктөрдү, trace_id Tracking жана Run-аудит кирет.
- Сапаттуу dashboard куруу (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Дайыма босоголорду карап чыгуу; A/B босоголору "үнсүз" метриктер боюнча.
- On-call жүгү жана ай сайын жакшыртуу боюнча отчет.
17) Playbook (шилтеме)
PSP Outage (P1): резерв боюнча авто-роут, кардарларынын таймдарын кыскартуу, "боз" транзакциялардын карантини, статус-апдейт 15 мүнөттөн кийин.
WebhookLag (P2): Workers/батч жогорулатуу, кезектерди артыкчылык, кошумча EndPoint убактылуу тыныгуу.
PriceMismatch (P1/P2): форс-майыптык кэш, салыштыруу 'fx _ version/tax _ rule _ version', артефакттын артка кайтарылышы, компенсация.
RTP Drift (P2): тыныгуу бонустар/промо, аудит профилдери, кеңейтүү терезе байкоо.
Security: SoD/MFA fail (P1/P2): иш бөгөт коюу, JIT-кайра текшерүү, forensics жана зарыл болгон учурда мыйзамдуу.
18) FAQ
Кантип жалган аткарууну азайтуу керек?
SLO-багытталган эрежелер, корреляциялар, гистерезис, окуу терезелери жана босоголорду үзгүлтүксүз кайра карап чыгуу.
Эмне маанилүү - камтуу же тактык?
P1 үчүн - тактык жана ылдамдык (жакшыраак, бирок маанилүү). P3 үчүн - тренддерди жана баалуулуктарды камтуу.
Телефондук пейджинг керекпи?
Ооба, P1 үчүн; чат жеткиликтүү же "жабык" болушу мүмкүн.
Кантип "өрттөп" on-call командасы?
page rate лимиттери, жүктөрдү кайра бөлүштүрүү, "follow-the-sun", ай сайын ызы-чуу.
Резюме: Эскертмелердин жана алерттердин системасы - бул сигналдан аракетке башкарылуучу конвейер. Аны SLO куруу, ызы-чууну өчүрүү, контекстке багыттоо, аракет баскычтарын бериңиз жана баарын мыйзамдуу түрдө бекитиңиз. Ошентип, сиз MTTAны кыскартып, on-call түйшүгүн алып саласыз жана провайдерлердин кескин жарылуулары жана мүчүлүштүктөрү менен да бизнестин туруктуулугун жогорулатасыз.