Ալերտները իրական ժամանակում
1) Նպատակը և սկզբունքները
Նպատակը 'ժամանակին և ուղղակիորեն տեղեկացնել անհրաժեշտ մարդկանց/համակարգերին SLO-ի, եկամուտների և կոմպլասենցիայի մասին և սկսել ճիշտ գործողություններ (ձեռքով/ավտոմատ)։
Սկզբունքները ՝ SLO-first, աղմուկի նվազեցում, բացատրություն, ենթատեքստը, բիզնեսի ազդեցության գերակայությունը, «մեկ ազդանշանը մեկ հասկանալի գործողություն է»։
2) Ազդանշանների տաքսոնոմիա
SLO ազդանշաններ ՝ burn-rate բյուջեներ կրիտիկական ուղիներով (լոգին, դեպոզիտ, տոկոսադրույք, եզրակացություն)։
KRI 'ռիսկի վաղ ցուցանիշները (auth-success նվազումը PBS բանկում/GEO, consumer-lag, p99 ռուբլիներ)։
Իրադարձություններ ՝ կախվածության ֆլամպեր, failover, ձեռքով շարժիչներ, պաշտպանիչ (rate-limit, WAF)։
Անվտանգությունը/համադրումը 'զգայուն վիրահատությունների աճը, PII էքսպորտը, SoD խախտումները։
3) Մակարդակները և SLA ծանուցումները
4) Աղբյուրները և կոնտեքստի հարաբերակցությունը
Telemetria: metrics/treiss/logs, սինթետիկ և RUM։
Տյումենի 'CMDB/ծառայություն-մապա, սեփականատերերը, կախվածությունը։
Փոփոխությունները ՝ պոլիմերներ, ֆիչֆլագներ, ռուսական, պլանավորված աշխատանքներ։
Արտաքին պրովայդերներ ՝ PMS/KYC/խաղային ստուդիաներ/CDN/WAF արձաններ։
Յուրաքանչյուր ալերտ հարստանում է, ի՞ նչ է փոխվել մոտակայքում։ (թողարկումը/ֆիչֆլագը), ի՞ նչ կախվածություն ունեն կարմիրները, ի՞ նչ սեգմենտը կանդրադառնա։ (GEO/PSA/bank/tenant)։
5) SLO-alerting կանոնները (միջուկը)
Burn-rate: Երկու պատուհան (արագ 1h և դանդաղ 6-105 ժամ)։ Փեյջերը միայն միաժամանակ ավելանում է։
Guardrails: p99/error-rate-ի շեմերը ծառայում են միայն համատեքստային վերլուծության ձգիչներ, չեն փոխարինում SLO-ին։
Իմպակտը '«լսարանի մասնաբաժինը փողի/րոպե ռուսական կարգավորիչ» է P1-P4 մակարդակը։
6) Աղմուկի ճնշումը
Deduplication: Ծառայության խմբավորում/tenantu/պատճառով; մեկ դեպք ենք նետում տասնյակ ազդանշանների փոխարեն։
Histere.ru: N-is-M ապացույցներ, անոմալիայի նվազագույն տևողությունը։
Սայլենսներ/մյուտներ 'պլանավորված աշխատանքներ, հայտնի միջադեպեր, «follow-the-sun» պատուհաններ։
Ռեյթ լիմիթներ և քվոտաներ 'աղբյուրը/պիտակը/տենանտ; պաշտպանություն «փոթորիկից»։
Կարդինալության նվազումը 'արգելված է userID/sessioniD-ում ալերտ պիտակներում։
7) Միկրոօրգանիզացիա և էսկալացիա
Ռոտինգը համատեքստով 'տիրույթ (Payments/Games/Windows), միջավայրը (105/stage), տարածքը, ծանրությունը։
Էսկալացիա: t0-on-call L1; t0 + X - L2/հիբրիդային սեփականատեր; t0 + Y - IC/ղեկավարություն։ X/Y ժամանակը կախված է P1-P3-ից։
Կրկնօրինակումը 'pager + chate P1-ում; chat/ticet P3-ում։
Հերթափոխի փոփոխությունը 'ենթատեքստի մեքենա փոխանցումը (timeline, կատարված գործողություններ, վարկածներ)։
8) Avto-գործողությունները (71-remediation)
Վճարումները 'PBS-ի տեղափոխումը health profee conversion, բանկերի/մեթոդների սահմանափակումը, ջիթերի հետ։
Խաղերը/տոկոսադրույքները 'միացրեք քեշի-wedge/սահմանափակել write վիրահատությունները, queue-page/waiting-room ճակատում։
Ինֆրա ՝ ռոտացիա, դիֆերենցիալ վորկերներ, lag-ի մասշտաբներ։
Անվտանգությունը/կոմպլենսը 'ժամանակավորապես փակել PII էքսպորտը, P1 վիրահատությունների համար տեղադրել dron-35l։
Ցանկացած մեքենա-գործողություն 'արձագանքման քաղաքականության և չափանիշների հետ։
9) Runbook-առաջին փորձը
Յուրաքանչյուր ալերտ կապված է runbook-ի հետ, նպատակը, արագ ախտորոշումը (3-5 ստուգում), ֆիքսման/արձագանքման քայլերը, կոնտակտային դեմքերը, դաշբորդի հղումները և կարգավիճակը։ Զրուցում/լանդշաֆտում ցույց ենք տալիս գործողությունների կարճ քարտը։
10) Նա քաղաքական ոլորտ է
Ռոտացիան 24 247, կոդերի ծածկումը (Payments/Game System/MSE)։
«Second on-call» -ը P1-ի համար, երկու մարդու կանոնը var-rum-ում։
Quiet-hours-ը և հերթապահ պատուհանները գոտիներով (follow-the-sun)։
Ուսուցում 'եռամսյակային ուսուցումներ (tabletop/game-day), shadow-փոփոխություն։
Հետպատերազմյան վարկերը (comp-timm), որպեսզի խուսափեն այրումից։
11) Մոսկվան
Կառավարումը 'քարտերի, apdeit ժապավենների, IC/CL դերի, թայմերի ստեղծումը։
Կարգավիճակ-էջ 'P1/P2 հրատարակությունը (Comics Lead-ի միջոցով) մոդելներով և տեղայնացումով։
Ալգորիթմներ ՝ release-gates SLI-ում, Auto-stop/rollback ալերտներում։
Դելեյը 'սեփականատերերը, CMDB-ը, պրովայդերների շփումները։
12) Ալերտների օրինակները (iGaming)
1. Auth-success PMS-1 TR-ում 25 տոկոսով 10 րոպե
P2-ը P1-ն է գործարքների> 30 տոկոսը։
Avto-գործողություն 'վերաբաշխել PSA-2/3-ը; միացրեք պարզեցված 3DS; Alert Partner Live.
2. p99 «դրույքաչափը settl»> 3 ռուսական նորմեր EU-ում
Պատճառները 'lag վերարտադրության, գողերի հերթը։
Auto-գործողությունը 'scale-out workers, warmup-casha, ժամանակավորապես անջատել ոչ կրիտիկական ֆիչերը։
3. Export PII spikes
P1 թիկետի/հաստատման բացակայության դեպքում։
Avto-գործողություն 'բեռնման բլոկ, Compliance ծանուցում, SoD ստուգում։
13) Ալերտինգի որակի մետրերը (KPI/KRI)
MTTA-Comics/MTA-Ops: ժամանակը մինչև արձագանքը/առաջին գործողությունը։
Precision/Recall (Alert international), False Alarm Rate-ը։
Lead-time մինչև SLO, TTD (հայտնաբերման ժամանակը)։
Pager fatigue: alerts/chel/210, գիշերային զանգեր, «դատարկ» տոկոսը։
System-fix rate-ը խնդիրների մասն է, որոնք փակված են ավտոմեքենայի ռեակցիայով առանց մարդու։
Aging 'կախված P3/P4> X օրերի մասնաբաժինը։
14) Արժեքի կառավարումը
Ալերտայի/աղբյուրների քվոտաները, ավելցուկ պիտակների կտրումը։
Downsampling-ը և մետրի ագրեգացիան, յոթ ուղիները։ ելույթներ դասարաններում։
Հիբրիդային cost review: դոլար/ալերտ, դոլար/SLI-dashbord, «ծանր» շարքը։
15) Գաղտնիությունը և կոմպլենսը
Առանց PII-ի, ալտերտերի և պիտակների տեքստում։ ֆոսֆատորների թունավորումը։
Հասանելիության քաղաքականությունը (RBAC/ABAC), SoD-ը ալտերի կազմաձևման վրա։
Կանոնների փոփոխության, տարբերակման, թեստերի և մեթոդների աուդիտ։
16) Ճանապարհի քարտեզը (6-10 շաբաթ)
Մոսկվան։ 1-2 'SLI/KRI կատալոգը, սեփականատերերի քարտեզը, P1-P4 մակարդակները, առաջին SLO կանոնները (burn-rate)։
Մոսկվան։ 3-4: dedup/histereae/sylensa, ինտեգրումը պատահականության համակարգի և չատների հետ, runbook կապերը։
Մոսկվան։ 5-6 'Payments/Queues, release-gates, ֆիդների կարգավիճակ-էջ։
Մոսկվան։ 7-8: ենթատեքստը (ֆիչֆլագներ/պրովայդերներ), PSA-ի ջերմային քարտեզները ռուսական GEO բանկը, P1/P2 ուսուցումները։
Մոսկվան։ 9-10: FinOps alertinga, KPI-dashbords, շեմերի և քվոտաների պաշտպանություն, նա-կոլայի ուսուցում։
17) Արտեֆակտները և ձևանմուշները
Alts Spec: metrika/պայման, պատուհաններ, ճնշում, սեփականատեր, runbook, avto գործողություններ։
Routing Map: տիրույթը ռուսական էսկալացիայի ջրանցքն է, պահեստային կապերը։
Silence Policy: Մյուտայի կանոնները (պլանավորված/հայտնի միջադեպեր), ովքեր կարող են ներառել։
On-call Handbook: ռոտացիաներ, հերթափոխի փոփոխություն, P1/P2 հատվածներ, ալիքներ։
Post-Incident Pack: alerts/ժամանակավոր գծեր, ազդանշանների որակի վերլուծություն։
18) Անտիպատերնի
Փեյջերը «հում» p95/p99 առանց SLO-ի ունի աղմուկ և հոգնածություն։
Տասնյակ ազդանշաններ նույն բանի մասին (ոչ մի դեդուպա/հարաբերակցություն)։
Runbook-ի կամ սեփականատիրոջ բացակայությունը ալերտի մոտ։
Առանց սեզոնային/սեգմենտացիայի (GEO/PSA/bank/ժամ)։
Առանց լուրջ գործողությունների (ոչ roll-back չափանիշներ)։
Պիտակները PII-ից և userID-ից ցույց են տալիս ռիսկերը և կարդինալիզմի պայթյունը։
Արդյունքը
Իսկապես օգտակար ալերթինգը SLO կենտրոնային փոխակրիչն է 'համատեքստային կանոնները burn-rate-ի հետ, աղմուկի խելացի ճնշումը, պարզ ռոտինգը և էսկալացիան, runbook-առաջին փորձը և անվտանգ մեքենան։ Սա կրիտիկական իրադարձություններ է բռնում օգտագործողների առջև, նվազեցնում է MTTR-ը, պաշտպանում է եկամուտները և միևնույն ժամանակ պահում է նա-օղակը «Պիգեր-դժոխքի» ռուտինից։