GH GambleHub

Инциденттердин метрикасы

1) Эмне үчүн окуяларды өлчөө

Инциденттердин метрикасы башаламан окуяларды башкарылуучу процесске айландырат: реакция жана калыбына келтирүү убактысын кыскартууга, себептердин кайталануусун азайтууга, SLO/келишимдердин аткарылышын далилдөөгө жана автоматташтыруу чекиттерин табууга жардам берет. Жакшы метр топтому бүт айлампасын камтыйт: аныктоо → классификация → эскалация → митигация → калыбына келтирүү → талдоо → CAPA.


2) Негизги аныктамалар жана формулалар

Окуя интервалдары

MTTD (Mean Time To Detect) = T0 (таасирдин иш жүзүндө башталышы) биринчи сигнал/аныктоо үчүн орточо убакыт.
MTTA (Mean Time To Acknowledge) = ack on-call биринчи сигнал орточо убакыт.
MTTM (Mean Time To Mitigate) = SLO босогосунан төмөн таасир азайтуу үчүн орточо убакыт (көбүнчө = UX чечүү/деградация чейин убакыт).
MTTR (Mean Time To Recover) = максаттуу SLI толук калыбына чейин орточо убакыт.
MTBF (Mean Time Between Failures) = тиешелүү окуялардын ортосундагы орточо интервал.

Операциялык убакыт

Time to Declare - T0 чейин расмий билдирүү деңгээл SEV/окуя.
Time to Comms - SLA боюнча биринчи коомдук/ички кайра жарыкка чейин.
Time in State - ар бир этапта узактыгы (triage/diag/fix/verify).

Жыштык жана үлүштүк

Incident Count - мезгил ичинде окуялардын саны.
Incident Rate - 1k/10k/100k ийгиликтүү бүтүмдөр же суроо-талап боюнча (нормалдаштыруу).
SEV Mix - оордук бөлүштүрүү (SEV-0... SEV-3).
SLA Breach Count/Rate - тышкы SLA бузуулардын саны/үлүшү.
Change Failure Rate - өзгөрүүлөрдөн улам келип чыккан окуялардын% (релиздер/конфиги/миграция).

Сигналдардын жана процесстердин сапаты

% Actionable Pages - playbook боюнча мааниси иш алып пейджер үлүшү.
False Positive Rate (Pages) - жалган ачылыштар үлүшү.
Detection Coverage - автоматташтырылган инциденттердин үлүшү (кардарлар/колдоо эмес).
Reopen Rate - ошол эле негизги себеп менен кайталанган окуялар үлүшү ≤ 90 күн.
CAPA Completion - өз убагында жабылган% түзөтүү/эскертүү аракеттери.
Comms SLA Adherence - талап кылынган жыштык боюнча жарыяланган жаңылыктардын үлүшү.


3) Окуя стадиялары боюнча метрика картасы

ЭтапНегизги метриктерСуроо
АныктооMTTD, Detection Coverage, Source Mix (monitoring vs users)Маселени канчалык тез жана ким аныктайт?
РеакцияMTTA, Time to Declare, Page-to-Ack %, Escalation LatencyКоманда канчалык тез мобилизацияланып, SEV дайындайт?
МитигирлөөMTTM, Workaround Success %, Change Freeze LatencyТаасири канчалык тез коопсуз деңгээлге түшөт?
Калыбына келтирүүMTTR, SLO Burn Stopped Time, Residual Risk WindowКызмат качан толугу менен калыбына келди?
КоммсTime to Comms, Comms SLA Adherence, Sentiment/ComplaintsКанчалык сапаттуу жана өз убагында байланыш?
ОкууPostmortem Lead Time, CAPA Completion/Overdue, Reopen RateБиз үйрөнүп жатабызбы жана жакшыртуу айлампасын жаап жатабызбы?

4) нормалдаштыруу жана сегменттөө

Көлөмдөгү эсептегичтерди нормалдаштырыңыз (трафик, ийгиликтүү операциялар, активдүү колдонуучулар).
Сегменттөө: аймак/тенант, провайдер (PSP/KYC/CDN), өзгөртүү түрү (код/ /инфра), сутка убактысы (day/night), детекция булагы (synthetic/RUM/infra/support).
Бизнес үчүн бизнес-SLI (төлөмдөрдүн, каттоолордун, толуктоолордун ийгилиги) маанилүү - инциденттердин метрикасын алардын деградациясына байлаңыз.


5) Босого максаттары (багыттар, доменге ылайыкташтыруу)

MTTD: ≤ үчүн 5 Tier-0 мин, ≤ үчүн 10-15 мин Tier-1.
MTTA: ≤ 5 мин (24/7), ≤ 10 мин (follow-the-sun).
MTTM: ≤ 15 мин (Tier-0), ≤ 30-60 мин (Tier-1).
MTTR: ≤ 60 мин (Tier-0), ≤ 4 саат (Tier-1).
Detection Coverage: ≥ 85% автоматташтыруу.
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (өз убагында): ≥ 85%.


6) Себептердин атрибуциясы жана өзгөрүүлөрдүн таасири

Ар бир окуя негизги cause дайындоо (Code/Config/Infra/Provider/Security/Data/Capacity) жана trigger (каттоо ID, -өзгөртүү, көчүрүү, тышкы жагдай).
Change-linked MTTR/Count жүргүзүңүз - релиздер жана конфигалар канчалык салым кошот (гейт/канарейка саясаттарынын базасы).
Өзүнчө жол жана келишимдерди башкаруу үчүн Provider-caused окуялар (PSP/KYC/CDN/Cloud) эске алуу.


7) Байланыш жана кардарлардын таасири

Time to First Public Update жана Update Cadence (мисалы, ар бир 15/30 мүнөт).
Complaint Rate - билеттер/даттануулар 1 окуя, тренд.
Status Accuracy - ретракциясыз коомдук жаңылыктардын үлүшү.
Post-Incident NPS (негизги кардарлар үчүн) - SEV-1/0 кийин кыска түрткү.


8) окуялардын айланасында Алертинг сапатын өлчөө

Page Storm Index - окуя учурунда бир on-call күнүнө пейджер/саат саны (медиа/p95).
Dedup Efficiency - басылган дубликаттардын үлүшү.
Quorum Confirmation Rate - зонддордун кворуму иштеген окуялардын үлүшү (≥ 2 көз карандысыз булак).
Shadow → Canary → Prod жаңы эрежелерди өзгөртүү (Alert-as-Code).


9) Dashboard (минималдуу топтому)

1. Executive (28 күн): окуялардын саны, SEV-бөлүштүрүү, MTTR/MTTM, SLA breaches, Reopen, CAPA.
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: релиздер/конфигурациялар менен байланышкан окуялардын үлүшү, өзгөрүү окуялары үчүн MTTR, тейлөө терезелери ж.б. окуялар.
4. Providers: провайдерлер боюнча окуялар, деградация убактысы, каттамдарды которуу, келишимдик SLA.
5. Heatmap кызматтар/региондор боюнча: инциденттер жана MTTR боюнча 1k бүтүмдөр.

SLI/SLO графиктерин релиздердин аннотациялары жана SEV белгилери менен айкалыштырыңыз.


10) окуя маалыматтар схемасы (сунушталган)

Минималдуу карта/таблица талаалары:

incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Эсептөө мисалдары (SQL-идея)

Мезгил үчүн MTTR (медиана):
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 күн):
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) SLO жана ката бюджеттери менен байланыш

окуя боюнча SLO burn minutes чечүү - бул негизги "салмагы" окуя болуп саналат.
CAPAны инциденттердин санына эмес, жалпы бурн жана SEV салмагына артыкчылык бериңиз.
Каржылык таасири менен бурн тигүү (мисалы: $/мүнөт же $/жоголгон бүтүм).


13) Жетилүү жараяны (program-деңгээл)

Postmortem Lead Time: медиа окуя жабылгандан отчет жарыяланганга чейин.
Evidence Completeness: Таймлайн, SLI графиктери, логдор, PR/coms шилтемелери менен отчеттордун үлүшү.
Alert Hygiene Score: actionable/FP/dedup/quorum боюнча курама индекси.
Handover Defects: активдүү инциденттердин контекстин жоготкон сменалардын үлүшү.
Training Coverage:% on-call, чейрек ичинде симуляцияларды өткөн.


14) Метриканы киргизүүнүн чек-тизмеси

  • Аныкталган бирдиктүү убакыт белгилери (UTC) жана окуя келишими.
  • SEV сөздүгү кабыл алынган, себептери (root cause taxonomy) жана детекция булактары.
  • Өлчөө көлөмү боюнча нормалдашкан (жол/ийгиликтүү иш).
  • Даяр 3 дашборддор: Executive, Operations, Change Impact.
  • Alert-as-Code: ар бир Page эрежелери ойнотмо жана ээси бар.
  • Пост-мортем SLA (мисалы, долбоор ≤ 72h, акыркы ≤ 5 кул. күн).
  • CAPA KPI таасири жана даталар D + 14/D + 30 менен Tracked.
  • Жума Incident Review: тенденциялар, жогорку себептер, CAPA статусу.

15) Анти-үлгүлөрү

MTTD/MTTA/MTTM жок гана MTTR карап → эрте этап башкаруу жоготуу.
Көлөмү боюнча нормалдаштырбоо → чоң кызматтар "жаман көрүнөт".
Системасыз SEV → инциденттердин салыштырылгыстыгы.
Жок Evidence → ордуна жакшыртуу талаш.
Бурн/SLO таасиринин ордуна инциденттердин санына басым жасоо.
Reopen жана CAPA көз жаздымда → түбөлүк кайталап.
Телеметрия/ITSMден автоматтык түрдө түшүрүлбөстөн "Excel метриктери".


16) Mini үлгүлөрү

Окуя картасы (сокр.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive отчет (28 күн, негизги саптар)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Жол картасы (4-6 жума)

1. Нед. 1: стандарттык убакыт белгилери/талаалар, SEV сөздүгү/себептери; инциденттердин негизги витринасы.
2. Нед. 2: MTTD/MTTA/MTTM/MTTR эсептөөлөр, нормалдаштыруу жана SEV-dashboard.
3. Нед. 3: релиздер/конфигурациялар менен байламта, Detection Coverage жана Alert Hygiene.
4. Нед. 4: Executive отчет, SLA Post-Мортем, CAPA Tracker.
5. Нед. 5-6: провайдер отчеттор, finmodel burn → $, чейрек максаттары жана чейрек Incident Review.


18) Жыйынтык

Инциденттердин метрикасы - бул жөн гана сандар эмес, операциялык ишенимдүүлүктүн сүрөттөлүшү. Сиз бүт агымын өлчөө (CAPA чейин аныктоо), көрсөткүчтөрдү нормалдаштыруу, SLO жана өзгөрүүлөр менен байланыштырып, дайыма карап, уюм алдын ала жооп убакытты азайтат, наркы жана окуялардын кайталанышы - жана колдонуучулар туруктуу кызмат көрүп.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.