GH GambleHub

Metriki Metriki

1) Ինչո՞ ւ չափել միջադեպերը

Metriks-ը վերածում է քաոսային իրադարձությունների կառավարման գործընթացին 'օգնում է նվազեցնել արձագանքի և վերականգնման ժամանակը, նվազեցնել պատճառների կրկնությունը, ապացուցել SLO/պայմանագրերի կատարումը և գտնել ավտոմատացման կետեր։ Մեթրիկի լավ շարքը ծածկում է ամբողջ ցիկլը ՝ հայտնաբերելով, թե ինչպես է հայտնաբերվում, թե ինչպես է հայտնաբերվում շարժասանդուղքը, և թե ինչ է տեղի ունենում։


2) Հիմնական սահմանումները և բանաձևերը

Իրադարձական ընդմիջումներ

MTD (Mean Time To Detair) = միջին ժամանակը T0-ից (ազդեցության իրական սկիզբը) մինչև առաջին ազդանշանը/հայտնաբերումը։

MTTA (Mean Time To Acknowledge) = միջին ժամանակը առաջին ազդանշանից մինչև ack on-call։

MTM (Mean Time To Mitigate) = միջին ժամանակը մինչև ազդեցության նվազումը SLO շեմից ցածր (հաճախ = ժամանակը մինչև շրջադարձային լուծումը/UX քայքայումը)։

MTR (Mean Time To Recover) = միջին ժամանակը մինչև SLI տերմինալի ամբողջական վերականգնումը։

MTBF (Mean Time Between Failures) = միջին տերմինը ռելեվանտային միջադեպերի միջև։

Վիրահատական ժամանակներ

Time to Declare-ից T0-ից մինչև SEV/2019 մակարդակի պաշտոնական հայտարարումը։

Time to Comics-ը հայտարարությունից մինչև առաջին հանրային/ներքին ապդեյթ SLA-ում։

Time in State-ը յուրաքանչյուր փուլում տևում է (triage/www.ag/fix/verify)։

Հաճախականության և միասին

Incident Count-ը ժամանակի ընթացքում միգրանցների քանակն է։

Incident Rate-ը 1k/10k/100k հաջողակ գործարքների կամ հարցումների վրա (նորմալացում)։

SEV Mix-ը ծանրության բաշխումն է (SEV-0... SEV-3)։

SLA Breach Count/Rate - արտաքին SLA խախտումների քանակը/մասը։

Change Failure Rate-ը փոփոխությունների մի տոկոսն է, որը առաջացել է փոփոխություններով (ալյումինե/ալյումինե/105)։

Ազդանշանների և գործընթացների որակը

Actionable Pages-ի% -ը լանդշաֆտների մի մասն է, որոնք հանգեցրին պլեյբուսի իմաստալից գործողություններին։

False Positive Rate (Pages) կեղծ աշխատանքի մասն է։

Detault Coverage-ը ավտոմատացման (ոչ թե հաճախորդների/աջակցության) հայտնաբերած կոդերի մասն է։

Reopen Rate-ը նույն արմատով կրկնվող միգրանտների մասն է 90 օրվա ընթացքում։

CAPA Completion-ը ուղղիչ/նախազգուշացնող գործողությունների տոկոսն է, որը փակված է ժամանակին։

Comics SLA Adherence-ը դեղագործական հաճախականությամբ հրատարակված դեղատների մասն է։


3) Խաղաթուղթ քայլերի վրա

ՓուլՀիմնական մետրերըՀարցը
ՀայտնաբերումMTTD, Detection Coverage, Source Mix (monitoring vs users)Որքա՞ ն արագ և ո՞ վ է բացահայտում խնդիրը։
ԱրձագանքMTTA, Time to Declare, Page-to-Ack %, Escalation LatencyԻնչպե՞ ս է թիմը արագ մոբիլիզացվում և նշանակում SEV։
ՄիթիգիացիանMTTM, Workaround Success %, Change Freeze LatencyԻնչպե՞ ս է արագ նվազում ազդեցությունը ապահով մակարդակին։
ՎերականգնումըMTTR, SLO Burn Stopped Time, Residual Risk WindowԵ՞ րբ ծառայությունն ամբողջովին վերադարձավ նորմալ։
ԿոմսTime to Comms, Comms SLA Adherence, Sentiment/ComplaintsՈրքանո՞ վ ենք որակապես և ժամանակին հաղորդակցվում։
ՈւսուցումPostmortem Lead Time, CAPA Completion/Overdue, Reopen RateԱրդյո՞ ք մենք սովորում ենք և փակո՞ ւմ ենք բարելավումները։

4) Նորմալացում և սեգմենացիա

Նորմալիզացրեք հաշվիչները ծավալի վրա (ներմուծում, հաջողակ վիրահատություններ, ակտիվ օգտագործողներ)։

Սեգմենտը 'տարածաշրջանը/թենանտը, պրովայդերը (PMS/KYC/CDN), փոփոխության տեսակը (կոդը/www.g/infra), օրվա ժամանակը (day/night), դետեկտորի աղբյուրը (wwww.nthetic/RUM/infra/supro)։

Բիզնեսի համար կարևոր են բիզնես-SLI-ը (վճարումների, գրանցման, համալրման) - չափումներ, որոնք կապված են դրանց քայքայման հետ։


5) Շեմի նպատակները (առաջնորդները, հարմարեցրեք տիրոջը)

MTD: 355 րոպե Tier-0 համար, 10-15 րոպե Tier-1 համար։

MTTA: 355 րոպե (24/7), 2410 րոպե (follow-the-sun)։

MTM: 3615 րոպե (Tier-0), 3630-60 րոպե (Tier-1)։

MTTR: 3660 րոպե (Tier-0), 364 ժամ (Tier-1)։

Detault Coverage: 2485 տոկոսը ավտոմատ է։

% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.

CAPA Completion (ժամանակում) ՝ 2485 տոկոսը։


6) Պատճառների թուլացումը և փոփոխության ազդեցությունը

Յուրաքանչյուր դեպք նշանակեք primary cause (Code/Corport/Infra/Provider/Moscow/Capacity) և triggger (releae ID, դելգ-փոփոխություն, միգրացիա, արտաքին գործոն)։

Առաջնորդեք Change-linked MTTR/Count-ը, թե որքանով են ալգորիթմներն ու դելիգները ներդրումներ կատարում (հիմքը գեյտերի/կանարեկների քաղաքականության համար)։

Առանձին հաշվի առեք Provider-caused միջադեպերը (PMS/KYC/CDN/Cloud), որպեսզի կառավարեն երթուղիները և պայմանագրերը։


7) Հաղորդակցությունն ու հաճախորդների իմպակտը

Time to First Public Corate և Corate Cadence (օրինակ, յուրաքանչյուր 15/30 րոպե)։

Complaint Rate-ը թիկետներ/բողոքներ է 1 պատահականության մասին, միտում։

Status Accuracy-ը հանրային ապդեյտների մասն է առանց ռետրակիայի։

Post-Incident NPS (հիմնական հաճախորդներով) - կարճ խթան SEV-1/0-ից հետո։


8) Ալբերտինգի որակի մեթրիկները շրջապատի շուրջ։

Page Storm Index-ը մրցույթի ընթացքում մեկ on-call/ժամ լանդշաֆտների թիվ է։

Dedup Efficiency-ը ճնշված կրկնօրինակների մասն է։

Delrum Diirmation Rate-ը միգրանցների մի մասն է, որտեղ աշխատում էր զոնդերի քվորումը (242 հազար աղբյուրը)։

Shadow no Canary no Productions-as-Code-ը։


9) Dashbords (նվազագույն հավաքածու)

1. Executive (28 օր) 'հյուրանոցների քանակը, SEV բաշխումը, MTTR/MTTM, SLA breaches, Reopen, CAPA։

2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.

3. Change Impact: Թողարկումների/թողարկումների հետ կապված փաթեթների մի մասը, MTTR-ը change-2019-ի համար, vs-ի սպասարկման պատուհանները։

4. Providers: պրովայդերների դեպքերը, քայքայման ժամանակը, ռուսական երթուղիները, SLA պայմանագրերը։

5. Heatmap ծառայություններով/տարածաշրջաններով 'միջադեպերը և MTTR-ը 1k գործարքների վրա։

Համատեղեք SLI/SLO գրաֆիկները ածխաջրածինների և SEV նշանների հետ։


10) Տվյալների սխեմա (առաջարկվող)

Քարտի/աղյուսակի նվազագույն դաշտերը


incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic    rum    infra    support),
root_cause (code    config    infra    provider    security    data    capacity    other),
trigger_id (release_id    change_id    external_id),
slo_impact (availability    latency    success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)

11) Կոդավորման օրինակներ (SQL գաղափար)

MTTR-ը ժամանակահատվածի համար (մեդիա)

sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

Change Failure Rate (28 օրվա ընթացքում)

sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';

12) Կապը SLO-ի և սխալների օրինագծերի հետ

Արձանագրեք SLO burn minutes-ը պատահականության վրա հիմնական «քաշն» է։

Առաջնահերթություն վերցրեք CAPA-ը ընդհանուր burn և SEV-քաշով, ոչ թե հաճախորդների քանակով։

Burn-ը կարել ռուսական իմպակտով (օրինակ ՝ դոլար/րոպե կանգնել կամ դոլար/կորցրած գործարք)։


13) Գործընթացի հասունության մետրերը (program-level)

Postmortem Lead Time-ը 'մեդիան փակելուց մինչև զեկույցի հրապարակումը։

Evidence Completeness: Timline-ի, SLI-ի գրաֆիկայի, լոգարանների, PR/կոմունայի հղումների հետ։

Alts Hygiene Score: Actionable/FP/dedup/quorum ինդեքսը։

Handover Prodects-ը մի մասն է, որտեղ կորցրել է ակտիվ շարժիչների համատեքստը։

Training Coverage: % on-call, որոնք անցել են զանգվածի սիմուլյացիան։


14) Chek-Show-Show-metric-ը

  • Որոշվում են միասնական ժամանակային պայմանագրերը (UTC) և իրադարձությունների պայմանագիրը։
  • Ընդունվել է SEV բառարանը, պատճառները (root cause taxonomy) և դետեկտիվ աղբյուրները։
  • Մետրիկները նորմալացվում են ծավալի վրա (108/հաջողակ վիրահատություններ)։
  • Պատրաստ են 3 դաշնամուր ՝ Executive, Operant, Change Impact։
  • Alert-as-Code: յուրաքանչյուր Page կանոնները ունեն պլեյբուկ և սեփականատեր։
  • Post-Mortem SLA (օրինակ, chernovic No. 72ch, եզրափակիչ 245 ստրուկ։ օրեր)։
  • CAPA-ն պտտվում է KPI էֆեկտների և D + 14/D + 30 ամսաթվերի հետ։
  • Շաբաթական Incident Review: միտումներ, լավագույն պատճառներ, CAPA կարգավիճակ։

15) Anti-patterna

Համարեք միայն MTTR-ն առանց MTD/MTTA/MTM-ի, որը կանխատեսում է վաղ փուլերի կառավարման կորուստ։

Մեծ ծառայությունները "ավելի վատ են թվում։

Ոչ համակարգային SEV-ն անօգուտ է։

Evidence-ի բացակայությունը բացատրում է բանավեճերը բարելավման փոխարեն։

Քանակի ֆոկուսը պատրաստված է burn/SLO ազդեցության փոխարեն։

Անտեսել Reopen և CAPA-ը հավիտենական ռեցիդիվներ են։

«Մետրերը Express» -ում առանց ավտոմատ հեռահաղորդակցության/ITSM-ից։


16) Մինի ձևանմուշները

Մրցույթի քարտը (abr.)


INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes

Executive զեկույցը (28 օրվա ընթացքում, հիմնական տողերը)


Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)

17) Ճանապարհային քարտեզը (4-6 շաբաթ)

1. Մոսկվան։ 1: 07 մետր ժամանակի/դաշտերի, SEV/պատճառների բառարանը։ Ռուսական վիտրինը։

2. Մոսկվան։ 2: MTTD/MTTA/MTTM/MTTR հաշվարկները, նորմալացումը և SEV-dashbord։

3. Մոսկվան։ 3: միացված է թողարկումների/կոդերի, Detault Coverage և Alts Hygiene-ի հետ։

4. Մոսկվան։ 4: Executive զեկույցը, SLA փոստի մորտեմներ, CAPA-treker։

5. Մոսկվան։ 5-6 'պրովայդերական հաշվետվություններ, finmodel burn 24դոլար, եռամսյակային նպատակներ և եռամսյակային Incident Review։


18) Արդյունքը

Փոխաբերությունները ոչ միայն թվեր են, այլ գործառնական հուսալիություն։ Երբ չափում եք ամբողջ հոսքը (հայտնաբերումից մինչև CAPA), նորմալացնում եք ցուցանիշները, կապում դրանք SLO-ի և փոփոխությունների հետ և պարբերաբար անցկացնում ակնարկներ, կազմակերպությունը կանխատեսելիորեն նվազեցնում է արձագանքի ժամանակը, արժեքը և կրկնությունը, իսկ օգտագործողները տեսնում են կայուն ծառայություն։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։