GH GambleHub

Оқыс оқиғалар өлшемдері

1) Оқыс оқиғаларды өлшеудің қажеті

Тосын оқиғалар өлшемдері ретсіз оқиғаларды басқарылатын процеске айналдырады: реакция мен қалпына келтіру уақытын азайтуға, себептердің қайталануын азайтуға, SLO/шарттардың орындалуын дәлелдеуге және автоматтандыру нүктелерін табуға көмектеседі. Жақсы метриктер жиынтығы бүкіл циклды қамтиды: табу → жіктеу → эскалация → митигациялық әрекеттер → қалпына келтіру → талдау → CAPA.


2) Базалық анықтамалар мен формулалар

Оқиға аралықтары

MTTD (Mean Time To Detect) = T0-ден (ықпалдың нақты басталуы) бірінші белгіге/анықтауға дейінгі орташа уақыт.
MTTA (Mean Time To Acknowledge) = бірінші белгіден ack on-call дейінгі орташа уақыт.
MTTM (Mean Time To Mitigate) = SLO шегінен төмен әсердің төмендеуіне дейінгі орташа уақыт (жиі = UX айналма шешімі/тозуына дейінгі уақыт).
MTTR (Mean Time To Recover) = нысаналы SLI толық қалпына келтірілгенге дейінгі орташа уақыт.
MTBF (Mean Time Between Failures) = релевантты оқыс оқиғалар арасындағы орташа интервал.

Операциялық уақыт

Time to Declare - T0-ден SEV/инцидент деңгейінің ресми жариялануына дейін.
Time to Comms - хабарландырудан бастап SLA бойынша бірінші жария/ішкі жаңартуға дейін.
Time in State - әрбір кезеңдегі ұзақтығы (triage/diag/fix/verify).

Жиілік және үлестік

Incident Count - кезең ішіндегі оқыс оқиғалар саны.
Incident Rate - 1k/10k/100k сәтті транзакцияларға немесе сұрау салуларға (қалыпқа келтіру).
SEV Mix - ауырлық бойынша бөлу (SEV-0... SEV-3).
SLA Breach Count/Rate - сыртқы SLA бұзушылықтарының саны/үлесі.
Change Failure Rate - өзгерістерден туындаған оқиғалар% (релиздер/конфигалар/көші-қон).

Сигналдар мен процестердің сапасы

% Actionable Pages - playbook бойынша мағыналы әрекеттерге әкелген пейджерлердің үлесі.
False Positive Rate (Pages) - жалған іске қосылулардың үлесі.
Detection Coverage - автоматика анықтаған инциденттердің үлесі (клиенттер/қолдау емес).
Reopen Rate - 90 күн ≤ сол негізгі себебімен қайталанған оқиғалар үлесі.
CAPA Completion - мерзімінде жабылған түзету/ескерту әрекеттерінің%.
Comms SLA Adherence - талап етілетін жиілік бойынша жарияланған жаңартулардың үлесі.


3) Инцидент сатылары бойынша метрика картасы

СатысыКілт өлшемдеріСұрақ
ТабуMTTD, Detection Coverage, Source Mix (monitoring vs users)Проблеманы қаншалықты тез және кім анықтайды?
РеакцияMTTA, Time to Declare, Page-to-Ack %, Escalation LatencyКоманда қаншалықты тез жұмылдырылып, SEV тағайындайды?
МитигирлеуMTTM, Workaround Success %, Change Freeze LatencyҚауіпсіз деңгейге дейін әсер қаншалықты тез төмендейді?
Қалпына келтіруMTTR, SLO Burn Stopped Time, Residual Risk WindowСервис қашан қалпына келді?
КоммсTime to Comms, Comms SLA Adherence, Sentiment/ComplaintsҚаншалықты сапалы және уақытылы коммуникациялаймыз?
ОқуPostmortem Lead Time, CAPA Completion/Overdue, Reopen RateБіз оқимыз ба және жақсартулар ілмегін жабамыз ба?

4) Қалыпқа келтіру және сегменттеу

Санауыштарды көлеміне қарай қалыпқа келтіріңіз (трафик, сәтті операциялар, белсенді пайдаланушылар).
Мыналар бойынша сегменттеңіз: өңір/тенант, провайдер (PSP/KYC/CDN), өзгеру түрі (код/ /инфра), тәулік уақыты (day/night), детекция көзі (synthetic/RUM/infra/support).
Бизнес үшін бизнес-SLI (төлемдердің, тіркеулердің, толықтырулардың табысы) маңызды - оқыс оқиғалардың метрикасын олардың тозуына байланыстыру керек.


5) Бастапқы мақсаттар (бағдарлар, доменге бейімдеу)

MTTD: ≤ үшін Tier-0 5 мин, Tier-1 үшін ≤ 10-15 мин.
MTTA: ≤ 5 мин (24/7), ≤ 10 мин (follow-the-sun).
MTTM: ≤ 15 мин (Tier-0), ≤ 30-60 мин (Tier-1).
MTTR: ≤ 60 мин (Tier-0), ≤ 4 сағ (Tier-1).
Detection Coverage: 85% автоматика ≥.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (мерзімінде): 85% ≥.


6) Себептердің атрибуциясы және өзгерістердің әсері

Әрбір оқиғаға primary cause (Code/Config/Infra/Provider/Security/Data/Capacity) және trigger (release ID, -өзгеріс, көші-қон, сыртқы фактор) белгілеңіз.
Change-linked MTTR/Count - релиздер мен конфигтер қаншалықты үлес қосады (гейт/канарейка саясаты базасы).
Маршруттар мен келісімшарттарды басқару үшін Provider-caused оқиғаларын (PSP/KYC/CDN/Cloud) жеке ескеріңіз.


7) Коммуникация және клиенттік импакт

Time to First Public Update және Update Cadence (мысалы, әрбір 15/30 минут сайын).
Complaint Rate - 1 оқиғаға арналған тикеттер/шағымдар, тренд.
Status Accuracy - ретракциясыз жария жаңартулардың үлесі.
Post-Incident NPS (негізгі клиенттер бойынша) - SEV-1/0 кейін қысқа импульс.


8) Инциденттер айналасындағы алертинг сапасының өлшемдері

Page Storm Index - оқиға кезіндегі бір on-call-ке шаққандағы пейджерлер саны (медиана/р95).
Dedup Efficiency - басылған телнұсқалардың үлесі.
Quorum Confirmation Rate - зондтар кворумы іске қосылған оқиғалардың үлесі (2 тәуелсіз көзден ≥).
Shadow → Canary → Prod жаңа ережелерді түрлендіру (Alert-as-Code).


9) Дашбордтар (ең аз жиынтық)

1. Executive (28 күн): оқыс оқиғалар саны, SEV-тарату, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: релиздермен/конфигурациялармен байланысты инциденттердің үлесі, change инциденттері үшін MTTR, қызмет көрсету терезелері vs инциденттер.
4. Providers: провайдерлер бойынша тосын оқиғалар, тозу уақыты, бағыттарды ауыстырып қосу, келісімшарттық SLA.
5. Сервистер/өңірлер бойынша Heatmap: инциденттер және 1k транзакцияға MTTR.

SLI/SLO графиктерін релиздер аңдатпаларымен және SEV белгілерімен біріктіріңіз.


10) Инцидент деректерінің схемасы (ұсынылатын)

Карточка/кестенің ең кіші өрістері:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Есептеу мысалдары (SQL-идея)

Кезеңдегі MTTR (медиана):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 күн ішінде):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO және қате бюджеттерімен байланыс

Оқиғаға SLO burn minutes тіркеңіз - бұл оқиғаның басты «салмағы».
CAPA-ны инциденттердің саны бойынша емес, жиынтық burn және SEV-салмағы бойынша басымдыққа алыңыз.
Қаржылық импакт арқылы burn тігіңіз (мысалы: $/минут тоқтап қалу немесе $/жоғалған транзакция).


13) Үдерістің жетілу өлшемдері (program-level)

Postmortem Lead Time: оқиғаны жабудан есепті жариялауға дейінгі медиана.
Evidence Completeness: таймлайны, SLI кестелері, логтары, PR/коммс сілтемелері бар есептердің үлесі.
Alert Hygiene Score: actionable/FP/дедуп/кворум бойынша құрамдас индекс.
Handover Defects: белсенді оқыс оқиғалар контексті жоғалған ауысым үлесі.
Training Coverage: тоқсан ішінде симуляциядан өткен% on-call.


14) Метриканы енгізудің чек-парағы

  • Оқиғаның оқиғаларының бірыңғай уақыт белгілері (UTC) мен келісімшарты анықталды.
  • SEV сөздігі, себептері (root cause taxonomy) және детекция көздері қабылданды.
  • Өлшемдер көлемге қалыпқа келтіріледі (трафик/табысты операциялар).
  • 3 дашборд дайын: Executive, Operations, Change Impact.
  • Alert-as-Code: Әрбір Page ережесінің ойнатқышы және иесі бар.
  • Пост-мортем SLA (мысалы, жоба ≤ 72 сағат, финал ≤ 5 жұмыс. күн).
  • CAPA тиімділіктің KPI-мен және D + 14/D + 30 күндерімен байланысты.
  • Апта сайынғы Incident Review: трендтер, топ-себептер, CAPA мәртебесі.

15) Қарсы үлгілер

MTTD/MTTA/MTTM → бастапқы фазалардың басқарылуын жоғалтусыз тек MTTR деп санау.
Көлемі бойынша қалыпқа келтірмеу → үлкен сервистер «нашар көрінеді».
Жүйесіз SEV → инциденттердің салыстырмалылығы.
Жоқ Evidence → жақсарту орнына даулар.
BURN/SLO-әсердің орнына инциденттердің санына назар аудару.
Reopen және CAPA → мәңгілік қайталануларды елемеу.
Телеметриядан/ITSM автоматты түрде түсірмей «Excel-дегі метриктер».


16) Шағын үлгілер

Инцидент карточкасы (сокр.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive есебі (28 күн ішінде, негізгі жолдар)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Жол картасы (4-6 апта)

1. Нед. 1: уақыт/өріс белгілерінің стандарты, SEV сөздігі/себептері; инциденттердің базалық витринасы.
2. Нед. 2: MTTD/MTTA/MTTM/MTTR есептеулері, нормаландыру және SEV-дашборд.
3. Нед. 3: релиздермен/конфигурациялармен байланысу, Detection Coverage және Alert Hygiene.
4. Нед. 4: Executive-есеп, SLA пост-мортемалар, CAPA-трекер.
5. Нед. 5-6: провайдерлік есептер, burn → $ қаржылық моделі, тоқсандық мақсаттар және тоқсандық Incident Review.


18) Қорытынды

Оқыс оқиғалардың метрикасы - жай ғана сандар емес, операциялық сенімділіктің кескіні. Сіз бүкіл ағынды өлшегенде (CAPA-ға дейін), көрсеткіштерді қалыпқа келтіргенде, оларды SLO-мен және өзгерістермен байланыстырғанда және үнемі шолулар жүргізгенде, ұйым реакция уақытын, құнын және инциденттердің қайталануын төмендетеді - ал пайдаланушылар тұрақты сервисті көреді.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.