Ալերտերի վերարտադրության կանխումը
1) Խնդիրը և նպատակը
Alts fatigue-ը տեղի է ունենում, երբ համակարգը չափազանց շատ ոչ revant կամ ոչ actionable ծանուցումներ է ուղարկում։ Արդյունքը լանդշաֆտների անտեսումն է, MTTA/MTTR աճը և իրական պարամետրերի բարձրացումը։
Նպատակը 'ազդանշաններ դարձնել հազվագյուտ, նշանակալի և կատարելի, կապելով դրանք SLO և պլեյբուսների հետ։
2) Ազդանշանների տաքսոնոմիա (ջրանցք = հետևանքներ)
Page (P0/P1) - մարդու բուդիտ; միայն այն դեպքում, երբ անհրաժեշտ է ձեռքով գործողություն հիմա և կա runbook։
Ticket (P2) - ժամացույցի/օրվա ասինխրոն աշխատանք; չի գնում, բայց պտտվում է SLA-ով։
Dash-only (P3) - դիտարկումը/միտումը առանց ակտիվ գործողությունների։ աղմուկ չի ստեղծում։
Silent Sentry-ը բեքգրունդում (RCA/post-մորտեմների համար)։
"Կանոն 'աստիճանին ներքև ազդանշանը դեռ ապացուցված չէ, որ անհրաժեշտ է ավելի բարձր։
3) «ճիշտ» ալերտի նախագծումը
Յուրաքանչյուր ալերտ պարտավոր է ունենալ
Նպատակը/հիպոթեզը (ինչ մենք պաշտպանում ենք 'SLO, անվտանգություն, գումար, կոմպլենս)։
Գործարկման պայմանները (շեմն, պատուհանը, աղբյուրների կվորումը)։
Runbook/Playbook (կարճ ID no + հղում)։
Սեփականատեր (թիմ/ռոլեյի խումբ)։
Ավարտման չափանիշները (երբ փակեք, ռետոլվ)։
Խոցելիության դասը (user-impact/platform/www.ru/cost)։
4) SLO-կողմնորոշված պաշտպանված
SLI/SLO-ն արտահայտում է առաջնային ազդանշաններ 'հասանելիություն, լատենտ, բիզնեսի հաջողությունը։
Burn-rate alerts: երկու պատուհաններ (կարճ + երկար), օրինակ.
Կարճ ՝ 1 ժամվա ընթացքում բյուջեի 5 տոկոսը Page-ն է։
Երկար 'բյուջեի 2 տոկոսը 6 ժամվա ընթացքում Ticket-ն է։
Կոգորտություն 'ալտերտեր տարածաշրջաններում/պրովայդերների/VIP հատվածներում' ավելի քիչ կեղծ գլոբալ անհանգստություն։
5) Աղմուկի նվազեցման տեխնիկան
1. Զոնդերի քվորում. Միայն եթե 2 հազար աղբյուրի (տարբեր տարածքներ/պրովայդերներ) աշխատելը ապացուցում է խնդիրը։
2. Deduplication: Նույն իրադարձությունների խմբավորումը (aggregation keys: 07 + region + code)։
3. Հիստերե.ru/տևողությունը '«N րոպեի կարմիր գոտում», որպեսզի ֆիլտրի շիպերը։
4. Rate-limit: ոչ ավելի քան X ծանուցումներ/ժամ/ծառայություն; ավելացնելիս 'մեկ լանդշաֆտ + բաճկոն։
5. Eurooze/ինտելեկտուալ ճնշումը 'T-ի պատուհանում կրկնվող ալերտը փոխանցվում է Ticket-ին մինչև արմատի վերացումը։
6. Իրադարձությունների հարաբերակցությունը 'մեկ «վարպետության-ալերտ»' տասնյակ ախտանիշների փոխարեն (օրինակ ՝ «BD անհասանելի»)։
7. Mainten.ru պատուհանը 'պլանավորված աշխատանքը ինքնաբերաբար ճնշում է սպասվող ազդանշանները։
8. Anomaly + guardrails: անոմալիաները միայն Ticket-ի նման են, եթե SLO ազդանշան չկա։
6) Երթուղայնացումը և առաջնահերթությունները
Առաջնահերթությունները ՝ P0 (Page, 15 րոպե apdeit), P1 (Page, 30 րոպե), P2 (Ticket, 4-8 ժամ), P3 (դիտարկումը)։
Ռոուտինգը պիտակների վրա ՝ 108/env/region/tenae/tenault, համապատասխան on-call։
Ժամանակի էսկալացիա '5 րոպեի ընթացքում բացակայում է P2/Duty Express/IC։
Quiet Hours 'գիշերային ժամացույց ոչ ռիթմիկ համար։ Page-ը արգելված է P2/P3-ի համար։
Fatigue-քաղաքականությունը 'եթե ինժեներ> N Paygey/հերթափոխը P2-ում վերաբաշխելն է, աղտոտել ազդանշանների աղտոտումը։
7) Ալերտների որակը 'պայմանագրեր
Actionability-ը 80 տոկոսն է, լանդշաֆտների ճնշող մեծամասնությունը գործում է runbook-ով։
False Positive-ը Page ազդանշանների համար 5 տոկոսն է։
Time-to-Fix-Alert-ը 7 օր է, թերի ալերտը պետք է շտկվի/հեռավոր։
Ownership 100 տոկոսը, յուրաքանչյուր ալերտ ունի սեփականատեր և ռեպոզիտորիա իր սահմանմամբ։
8) Ալերտի կյանքի ցիկլը (Alronas Code)
1. Ստեղծել PR (նպատակի նկարագրությունը, պայմանները, runbook, սեփականատերը, թեստային պլանը)։
2. Ավազը/Shadow: ստվեր-ալերտը գրում է չաթ/լոգ, բայց չի երգում։
3. Կանարեյկա 'սահմանափակ լսարան on-call, մենք չափում ենք FP/TP։
4. Prod: rate-limit + դիտարկումը 2-4 շաբաթ։
5. Շաբաթական ակնարկ 'որակի չափումներ, աջ/առգրավում։
6. Դեպրեքեյթ 'եթե ազդանշանը կրկնապատկում է ավելի բարձր կամ ոչ ակտիվացված։
9) Հասունության մետրերը (ցույց տվեք դաշբորդում)
Aler.per on-call hour (median/95-percentil)։
% actionable (կան կատարված քայլեր) և false-positive rate։
MTTA/MTTR-ը լանդշաֆտների շուրջ և page prodticket-ի մասը (չպետք է բարձր լինի)։
Top-talkers (ծառայություններ/կանոններ, որոնք ստեղծում են աղմուկի 20 տոկոսը)։
Mean to fix al.ru (առաջին FP-ից մինչև կանոնները փոխելը)։
Burn-rate coverage: SLO-alerts հետ ծառայությունների մի մասը երկու պատուհաններում։
10) Չեկ-թերթ «Ալերտների հիգիենան»
- Ալերտը կապված է SLO/SLI-ի կամ բիզնեսի/անվտանգության հետ։
- Կա runbook և սեփականատեր; նշվում է նաև war-room ալիքը։
- Երկու պատուհան (կարճ/երկար) և աղբյուրների կվորումը։
- Ներառված են dedup, rate-limit, 108-resolve և 105-delooze։
- Նշեք mainten.ru պատուհանը և supression թողարկման/տեղադրման ժամանակ։
- Shadow/Canary; չափված FP/TP։
- Ներառված է Ալերտերի որակի չափումների զեկույցը։
11) Մինի ձևանմուշները
Alert (YAML գաղափար)
yaml id: payments-slo-burn severity: P1 owner: team-payments@sre purpose: "Защитить SLO успеха платежей"
signal:
type: burn_rate sli: payment_success_ratio windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
confirmations:
quorum:
- synthetic_probe: eu,us
- rum: conversion_funnel routing:
page: oncall-payments escalate_after: 5m controls:
dedup_key: "service=payments,region={{region}}"
rate_limit: "1/10m"
auto_snooze_after: "3 pages/1h"
runbook: "rb://payments/slo-burn"
maintenance:
suppress_when: [ "release:payments", "db_migration" ]
Ապդեյթի տեքստը ստանդարտ է (աղմուկը նվազեցնելու համար)
Импакт: падение success_ratio платежей в EU (-3.2% к SLO, 20 мин).
Диагностика: подтвержден кворумом (EU+US синтетика), RUM — рост отказов на 2 шаге.
Действия: переключили 30% трафика на PSP-B, включили degrade-UX, след. апдейт 20:30.
12) Գործընթացներ ՝ շաբաթական «Alts Review»
Օրակարգը (30-45 րոպե)
1. Լավագույն աղմկոտ կանոնները (top-talkers) համապատասխանում են/հեռացնել։
2. FP/TP-ն Page ազդանշաններով է ուղղում շեմերը/պատուհանները/kvorum։
3. Ջրանցքի նվազեցման դիմորդները (Page no Ticket) և հակառակը։
4. «Time-to-Fix-Alix» կարգավիճակը, ժամկետները ուղեկցվում են ծառայությունների սեփականատերերին։
5. Coverage SLO-alerts-ի ստուգումը և runbook-ի առկայությունը։
13) Հաղորդագրությունների և հաղորդագրությունների հետ կապը
Օրինագծերը ինքնաբերաբար ավելացնում են ժամանակավոր ճնշումները։
Change windows: Առաջին 30 րոպե հետո միայն SLO ազդանշանները։
Պլեյբուսները պարունակում են մի քայլ «իջեցնել/ճնշել աննկարագրելի ալերտները», որպեսզի կենտրոնանան արմատի վրա։
14) Անվտանգություն և ընկերակցություն
Ազդանշաններ (պայթյուն/արտահոսք/աննորմալ հասանելի) - առանձին ալիքներ, առանց quiet hours։
Բոլոր ճնշումների/հանգիստ պատուհանների աուդիտ-լոգ 'ով, երբ, ինչու, ժամանակը։
Քննադատական ալարմների համար անփոփոխ պահանջը (իրադարձության ստորագրումը)։
15) Anti-patterna
«Յուրաքանչյուր գրաֆիկ = ալերտ» ռուսական լավինը։
Շեմն «։ = 0 սխալ» վաճառքում։
Մեկ զոնդ/մեկ տարածք որպես ճշմարտության աղբյուր։
Page առանց runbook/սեփականատիրոջ։
Հավիտենական «ժամանակավոր ճնշումները» առանց ժամկետի։
«Մաքրիր» թերի ալերտերը տարիներ շարունակ։
Մետրոպոլիտենի աղմուկի խառնումը արդյունավետ միջադեպերի հետ։
16) Ճանապարհի քարտեզը (4-6 շաբաթ)
1. Բուլգարիզացիա 'բեռնել բոլոր ալերտները, տեղադրել սեփականատերերը և ջրանցքները։
2. SLO-միջուկը 'burn-rate կանոնները կրիտիկական ծառայությունների կրկնակի պատուհաններով։
3. Աղմուկի վերահսկումը 'ներառել kvorum, dedup և rate-limit, weekly review։
4. Runbook-ծածկույթ 'փակել 100% Page ազդանշաններ պլեյբուսներով։
5. Ֆաթիգ քաղաքականությունը 'լիմիտներ լանդշաֆտներ/փոփոխություն, Quiet Hours, բեռի վերաբաշխում։
6. Ավտոմատիզացիան 'Alms-as-Code, Shadow/Canary, որակի մետրերի հաշվետվություններ։
17) Արդյունքը
Լռությունը ոչ թե մոնիտորինգի բացակայությունն է, այլ բարձրորակ նախագծված ազդանշաններ, որոնք կապված են SLO-ի և գործընթացների հետ։ Quorum, կրկնակի պատուհաններ, dedup և խիստ միկրոօրգանիզմներ վերածում են հազվագյուտ, ճշգրիտ և կատարելի։ Թիմը քնում է, օգտագործողները ուրախ են, միջադեպերը վերահսկողության տակ են։