Metriki Metriki
1) Ինչո՞ ւ չափել միջադեպերը
Metriks-ը վերածում է քաոսային իրադարձությունների կառավարման գործընթացին 'օգնում է նվազեցնել արձագանքի և վերականգնման ժամանակը, նվազեցնել պատճառների կրկնությունը, ապացուցել SLO/պայմանագրերի կատարումը և գտնել ավտոմատացման կետեր։ Մեթրիկի լավ շարքը ծածկում է ամբողջ ցիկլը ՝ հայտնաբերելով, թե ինչպես է հայտնաբերվում, թե ինչպես է հայտնաբերվում շարժասանդուղքը, և թե ինչ է տեղի ունենում։
2) Հիմնական սահմանումները և բանաձևերը
Իրադարձական ընդմիջումներ
MTD (Mean Time To Detair) = միջին ժամանակը T0-ից (ազդեցության իրական սկիզբը) մինչև առաջին ազդանշանը/հայտնաբերումը։
MTTA (Mean Time To Acknowledge) = միջին ժամանակը առաջին ազդանշանից մինչև ack on-call։
MTM (Mean Time To Mitigate) = միջին ժամանակը մինչև ազդեցության նվազումը SLO շեմից ցածր (հաճախ = ժամանակը մինչև շրջադարձային լուծումը/UX քայքայումը)։
MTR (Mean Time To Recover) = միջին ժամանակը մինչև SLI տերմինալի ամբողջական վերականգնումը։
MTBF (Mean Time Between Failures) = միջին տերմինը ռելեվանտային միջադեպերի միջև։
Վիրահատական ժամանակներ
Time to Declare-ից T0-ից մինչև SEV/2019 մակարդակի պաշտոնական հայտարարումը։
Time to Comics-ը հայտարարությունից մինչև առաջին հանրային/ներքին ապդեյթ SLA-ում։
Time in State-ը յուրաքանչյուր փուլում տևում է (triage/www.ag/fix/verify)։
Հաճախականության և միասին
Incident Count-ը ժամանակի ընթացքում միգրանցների քանակն է։
Incident Rate-ը 1k/10k/100k հաջողակ գործարքների կամ հարցումների վրա (նորմալացում)։
SEV Mix-ը ծանրության բաշխումն է (SEV-0... SEV-3)։
SLA Breach Count/Rate - արտաքին SLA խախտումների քանակը/մասը։
Change Failure Rate-ը փոփոխությունների մի տոկոսն է, որը առաջացել է փոփոխություններով (ալյումինե/ալյումինե/105)։
Ազդանշանների և գործընթացների որակը
Actionable Pages-ի% -ը լանդշաֆտների մի մասն է, որոնք հանգեցրին պլեյբուսի իմաստալից գործողություններին։
False Positive Rate (Pages) կեղծ աշխատանքի մասն է։
Detault Coverage-ը ավտոմատացման (ոչ թե հաճախորդների/աջակցության) հայտնաբերած կոդերի մասն է։
Reopen Rate-ը նույն արմատով կրկնվող միգրանտների մասն է 90 օրվա ընթացքում։
CAPA Completion-ը ուղղիչ/նախազգուշացնող գործողությունների տոկոսն է, որը փակված է ժամանակին։
Comics SLA Adherence-ը դեղագործական հաճախականությամբ հրատարակված դեղատների մասն է։
3) Խաղաթուղթ քայլերի վրա
4) Նորմալացում և սեգմենացիա
Նորմալիզացրեք հաշվիչները ծավալի վրա (ներմուծում, հաջողակ վիրահատություններ, ակտիվ օգտագործողներ)։
Սեգմենտը 'տարածաշրջանը/թենանտը, պրովայդերը (PMS/KYC/CDN), փոփոխության տեսակը (կոդը/www.g/infra), օրվա ժամանակը (day/night), դետեկտորի աղբյուրը (wwww.nthetic/RUM/infra/supro)։
Բիզնեսի համար կարևոր են բիզնես-SLI-ը (վճարումների, գրանցման, համալրման) - չափումներ, որոնք կապված են դրանց քայքայման հետ։
5) Շեմի նպատակները (առաջնորդները, հարմարեցրեք տիրոջը)
MTD: 355 րոպե Tier-0 համար, 10-15 րոպե Tier-1 համար։
MTTA: 355 րոպե (24/7), 2410 րոպե (follow-the-sun)։
MTM: 3615 րոպե (Tier-0), 3630-60 րոպե (Tier-1)։
MTTR: 3660 րոպե (Tier-0), 364 ժամ (Tier-1)։
Detault Coverage: 2485 տոկոսը ավտոմատ է։
% Actionable Pages: ≥ 80–90%; FP Pages: ≤ 5%.
Reopen Rate (90д): ≤ 5–10%.
CAPA Completion (ժամանակում) ՝ 2485 տոկոսը։
6) Պատճառների թուլացումը և փոփոխության ազդեցությունը
Յուրաքանչյուր դեպք նշանակեք primary cause (Code/Corport/Infra/Provider/Moscow/Capacity) և triggger (releae ID, դելգ-փոփոխություն, միգրացիա, արտաքին գործոն)։
Առաջնորդեք Change-linked MTTR/Count-ը, թե որքանով են ալգորիթմներն ու դելիգները ներդրումներ կատարում (հիմքը գեյտերի/կանարեկների քաղաքականության համար)։
Առանձին հաշվի առեք Provider-caused միջադեպերը (PMS/KYC/CDN/Cloud), որպեսզի կառավարեն երթուղիները և պայմանագրերը։
7) Հաղորդակցությունն ու հաճախորդների իմպակտը
Time to First Public Corate և Corate Cadence (օրինակ, յուրաքանչյուր 15/30 րոպե)։
Complaint Rate-ը թիկետներ/բողոքներ է 1 պատահականության մասին, միտում։
Status Accuracy-ը հանրային ապդեյտների մասն է առանց ռետրակիայի։
Post-Incident NPS (հիմնական հաճախորդներով) - կարճ խթան SEV-1/0-ից հետո։
8) Ալբերտինգի որակի մեթրիկները շրջապատի շուրջ։
Page Storm Index-ը մրցույթի ընթացքում մեկ on-call/ժամ լանդշաֆտների թիվ է։
Dedup Efficiency-ը ճնշված կրկնօրինակների մասն է։
Delrum Diirmation Rate-ը միգրանցների մի մասն է, որտեղ աշխատում էր զոնդերի քվորումը (242 հազար աղբյուրը)։
Shadow no Canary no Productions-as-Code-ը։
9) Dashbords (նվազագույն հավաքածու)
1. Executive (28 օր) 'հյուրանոցների քանակը, SEV բաշխումը, MTTR/MTTM, SLA breaches, Reopen, CAPA։
2. SRE Operations: MTTD/MTTA по часам/сменам, Page Storm, Actionable %, Detection Coverage, Time to Declare/Comms.
3. Change Impact: Թողարկումների/թողարկումների հետ կապված փաթեթների մի մասը, MTTR-ը change-2019-ի համար, vs-ի սպասարկման պատուհանները։
4. Providers: պրովայդերների դեպքերը, քայքայման ժամանակը, ռուսական երթուղիները, SLA պայմանագրերը։
5. Heatmap ծառայություններով/տարածաշրջաններով 'միջադեպերը և MTTR-ը 1k գործարքների վրա։
Համատեղեք SLI/SLO գրաֆիկները ածխաջրածինների և SEV նշանների հետ։
10) Տվյալների սխեմա (առաջարկվող)
Քարտի/աղյուսակի նվազագույն դաշտերը
incident_id, sev, state, service, region, tenant, provider?,
t0_actual, t_detected, t_ack, t_declared, t_mitigated, t_recovered,
source_detect (synthetic rum infra support),
root_cause (code config infra provider security data capacity other),
trigger_id (release_id change_id external_id),
slo_impact (availability latency success), burn_minutes,
sla_breach (bool), public_updates[], owners (IC/TL/Comms/Scribe),
postmortem_id, capa_ids[], reopened_within_90d (bool)
11) Կոդավորման օրինակներ (SQL գաղափար)
MTTR-ը ժամանակահատվածի համար (մեդիա)
sql
SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (t_recovered - t0_actual))/60) AS mttr_min
FROM incidents
WHERE t0_actual >= '2025-10-01' AND t_recovered IS NOT NULL AND sev IN ('SEV-0','SEV-1','SEV-2');
Detection Coverage:
sql
SELECT 100.0 SUM(CASE WHEN source_detect <> 'support' THEN 1 ELSE 0 END) / COUNT() AS detection_coverage_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
Change Failure Rate (28 օրվա ընթացքում)
sql
SELECT 100.0 COUNT() FILTER (WHERE trigger_id IS NOT NULL) / NULLIF(COUNT(),0) AS change_failure_rate_pct
FROM incidents
WHERE t0_actual >= current_date - INTERVAL '28 days';
12) Կապը SLO-ի և սխալների օրինագծերի հետ
Արձանագրեք SLO burn minutes-ը պատահականության վրա հիմնական «քաշն» է։
Առաջնահերթություն վերցրեք CAPA-ը ընդհանուր burn և SEV-քաշով, ոչ թե հաճախորդների քանակով։
Burn-ը կարել ռուսական իմպակտով (օրինակ ՝ դոլար/րոպե կանգնել կամ դոլար/կորցրած գործարք)։
13) Գործընթացի հասունության մետրերը (program-level)
Postmortem Lead Time-ը 'մեդիան փակելուց մինչև զեկույցի հրապարակումը։
Evidence Completeness: Timline-ի, SLI-ի գրաֆիկայի, լոգարանների, PR/կոմունայի հղումների հետ։
Alts Hygiene Score: Actionable/FP/dedup/quorum ինդեքսը։
Handover Prodects-ը մի մասն է, որտեղ կորցրել է ակտիվ շարժիչների համատեքստը։
Training Coverage: % on-call, որոնք անցել են զանգվածի սիմուլյացիան։
14) Chek-Show-Show-metric-ը
- Որոշվում են միասնական ժամանակային պայմանագրերը (UTC) և իրադարձությունների պայմանագիրը։
- Ընդունվել է SEV բառարանը, պատճառները (root cause taxonomy) և դետեկտիվ աղբյուրները։
- Մետրիկները նորմալացվում են ծավալի վրա (108/հաջողակ վիրահատություններ)։
- Պատրաստ են 3 դաշնամուր ՝ Executive, Operant, Change Impact։
- Alert-as-Code: յուրաքանչյուր Page կանոնները ունեն պլեյբուկ և սեփականատեր։
- Post-Mortem SLA (օրինակ, chernovic No. 72ch, եզրափակիչ 245 ստրուկ։ օրեր)։
- CAPA-ն պտտվում է KPI էֆեկտների և D + 14/D + 30 ամսաթվերի հետ։
- Շաբաթական Incident Review: միտումներ, լավագույն պատճառներ, CAPA կարգավիճակ։
15) Anti-patterna
Համարեք միայն MTTR-ն առանց MTD/MTTA/MTM-ի, որը կանխատեսում է վաղ փուլերի կառավարման կորուստ։
Մեծ ծառայությունները "ավելի վատ են թվում։
Ոչ համակարգային SEV-ն անօգուտ է։
Evidence-ի բացակայությունը բացատրում է բանավեճերը բարելավման փոխարեն։
Քանակի ֆոկուսը պատրաստված է burn/SLO ազդեցության փոխարեն։
Անտեսել Reopen և CAPA-ը հավիտենական ռեցիդիվներ են։
«Մետրերը Express» -ում առանց ավտոմատ հեռահաղորդակցության/ITSM-ից։
16) Մինի ձևանմուշները
Մրցույթի քարտը (abr.)
INC: 2025-11-01-042 (SEV-1)
T0=12:04Z, Detected=12:07, Ack=12:09, Declared=12:11,
Mitigated=12:24, Recovered=12:48
Service: payments-api (EU)
SLI: success_ratio (-3.6% к SLO, burn=18 мин)
Root cause: provider (PSP-A), Trigger: status red
Comms: first 12:12Z, cadence 15m, SLA met
Links: dashboards, logs, traces, release notes
Executive զեկույցը (28 օրվա ընթացքում, հիմնական տողերը)
Incidents: 12 (SEV-0:1, SEV-1:3, SEV-2:6, SEV-3:2)
Median MTTR: 52 мин; Median MTTD: 4 мин; MTTA: 3 мин; MTTM: 17 мин
Detection Coverage: 88%; Actionable Pages: 86%; FP Pages: 3.2%
Change Failure Rate: 33% (4/12) — 3 связаны с конфигом
Reopen(90d): 1/12 (8.3%); CAPA Completion: 82% (2 просрочены)
Top Root Causes: provider(4), config(3), capacity(2)
17) Ճանապարհային քարտեզը (4-6 շաբաթ)
1. Մոսկվան։ 1: 07 մետր ժամանակի/դաշտերի, SEV/պատճառների բառարանը։ Ռուսական վիտրինը։
2. Մոսկվան։ 2: MTTD/MTTA/MTTM/MTTR հաշվարկները, նորմալացումը և SEV-dashbord։
3. Մոսկվան։ 3: միացված է թողարկումների/կոդերի, Detault Coverage և Alts Hygiene-ի հետ։
4. Մոսկվան։ 4: Executive զեկույցը, SLA փոստի մորտեմներ, CAPA-treker։
5. Մոսկվան։ 5-6 'պրովայդերական հաշվետվություններ, finmodel burn 24դոլար, եռամսյակային նպատակներ և եռամսյակային Incident Review։
18) Արդյունքը
Փոխաբերությունները ոչ միայն թվեր են, այլ գործառնական հուսալիություն։ Երբ չափում եք ամբողջ հոսքը (հայտնաբերումից մինչև CAPA), նորմալացնում եք ցուցանիշները, կապում դրանք SLO-ի և փոփոխությունների հետ և պարբերաբար անցկացնում ակնարկներ, կազմակերպությունը կանխատեսելիորեն նվազեցնում է արձագանքի ժամանակը, արժեքը և կրկնությունը, իսկ օգտագործողները տեսնում են կայուն ծառայություն։