Ծանուցման և ալտերտերի համակարգը
(Բաժին ՝ Վիրահատություններ և կառավարում)
1) Նշանակումներ և սկզբունքներ
Նպատակը քիչ է, բայց մի փոքր 'միայն ռելեվանտային ազդանշաններ, կոդավորում և պատասխանատու մարդ/ռոբոտ, որը հասկանալի է next-step-ով։
Սկզբունքները
Actionable by-ը բացատրում է. Յուրաքանչյուր ալերտ ունի սեփականատեր, առաջնահերթություն, արձագանքի ժամանակահատվածը և գործողության կոճակը։
SLO-first: Ալերտները կառուցվում են SLI/SLO-ի շուրջ, ոչ թե կամայական մետրի շուրջ։
Noise-24l 'dedup, հարաբերակցություն, փոթորկի ճնշում։
Exprest-rich: մետատվյալներ (տարածք, տենանտ, տարբերակ, trace _ id) և հղում ռունբուկին։
Audit-ready: Բոլոր ալերտներն ու արձագանքները քվիտացվում են և պարունակվում են անփոփոխ ամսագրում։
2) Ազդանշանների աղբյուրները
Նրանք։ Հեռուստաչափություն ՝ հասանելիություն, p95/p99, error-rate, lag հերթեր, ռեսուրսային լիմիտներ։
Բիզնես լիդենտներ ՝ PrictMismatch, Webhase Lag, RTP Drift, ֆրոդի ազդանշաններ։
Անվտանգությունը/համադրումը 'SoD խախտումներ, PII հասանելիություն, կոդերի/հավաստագրերի էքսպորտացիա։
Պլանավորողը 'SLA-ի ժամկետանց առաջադրանքները, DLQ-լավինները, retry-storts-ը։
3) Դասակարգում և առաջնահերթություններ
Guardrails: ալերտները ձևակերպվում են SLO/սխալների բյուջեի հետ (burn rate)։
4) Ռոուտինգը և էսկալացիան 24 247
Ռոտինգը համատեքստով '«region/tenault/provider/severity»։
Էսկալացիոն սանդուղքը 'on-call ճարտարագետը պատրաստեց Duty Management Exec/Legal (PII/ֆինանսավորման համար)։
Հերթապահություններ ՝ դերերի ռոտացիաներ (SNE, App, Իսպանիա, Իսպանիա, Payments), պահեստային կապեր (չաթ/ձայն/SMS)։
Լռության պատուհանները 'գիշերային, ստացիոնար, մարքեթինգային; բացառություններ P1 համար։
5) Աղմուկն ու հարաբերությունները
Deduplication: (fingerprint, region, tenae, rome) "և" trace _ id "։
Սուպերպրեսիա «փոթորիկ» 'կրկնօրինակների ժամանակավոր ճնշումը ակտիվ P1-ում։
Հարաբերակցություն 'ազդանշանների խմբավորում արմատային պատճառի շուրջ (ռելեզ/ֆիչ/պրովայդեր)։
Հիստերեվիչը ՝ 108/ելքը շեմից տարբեր է, որպեսզի խուսափի «փղերից»։
6) Ալերտի բովանդակությունը (ձևանմուշ)
Վերնագիրը ՝ հակիրճ և օբյեկտիվ '«EU/Nokout: p95> 250.1 (SLO breach)»։
Հիմնական դաշտերը 'գերակայություն, ժամանակ, տարածք, տենանտ, տարբերակ, trace _ id, affected%, ռուսական։ պատճառը։
Ինչ անել հիմա 'առաջին 1-3 մկմ + հղում ռունբուկին/կոճակին (Re-rome, Rollback, Pause Promo)։
Հաջորդ հաղորդակցությունը 'N րոպե անց, սեփականատերը (IC/on-coll)։
7) Առաքման ալիքները
Չաթ/մեսենջեր 'եռյակի հիմնական ալիքը (կոճակներով բոտ քարտեր)։
Փեյջեր/ձայն/SMS: P1 համար։
Փոստ ՝ հաշվետվություններ և non-urgent (P3/J)։
Ուեբհուկի 'tiketing/նվագախմբերի հետ։
Կարգավիճակ-էջ 'հաճախորդների և գործընկերների արտաքին ծանուցում։
8) Մոսկվան և «գործողությունների կոճակները»
Բոտ 'ստեղծում է քարտեզ, որը կոչվում է IC, բացում է տեսահոլովակը, սկսում է թայմերը։
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Իրավունքները 'ռունի արձակումը սահմանափակված է դերերով։ բոլոր գործողությունները ստորագրվում և տրամաբանվում են։
9) Multregion և multi-tenae
Անկախ SLO/շեմերը տարածաշրջաններում։ տեղական միջադեպերը չեն «գեղեցիկ» ամբողջ աշխարհը։
Տեսողական ֆիլտրեր 'գործընկերներ/ստենանտներ տեսնում են միայն իրենց։
Միգրացիոն պահանջները 'ծանուցումների տեքստերը, լեզուները, ժամացույցի գոտիները։
10) Քաղաքականություններ, գրաֆիկներ, լռության պատուհաններ
Ալերտների քաղաքականությունը 'սեփականատերեր, շեմեր, ջրանցքներ, էսկալացիա, ձևանմուշներ։
Օրացույցներ ՝ աշխատանքային/ոչ աշխատանքային ժամանակ, ստացիոնար/մարքեթինգային պատուհաններ։
Change freeze 'շեմերի վերացումը կամ «ոչ-P1» ճնշումը մեծ գործողությունների ժամանակ։
11) Աուդիտ և իրավաբանական ամրագրում
Քվիտանիա 'կրիտիկական ալերտների համար' «receipt _ hash» և DSSE ստորագրություն։
WORM ամսագրերը 'իրադարձությունների և արձագանքների անփոփոխ պահպանումը (ով հաստատեց, թե ինչ է արել)։
Chain-of-custody։
12) Metriki և SLO ծանուցման համակարգերը
MTTA (acknowledge): P1 355-10 րոպե; P2 2430 2019
Page rate/On-call load: Փոխարինման ազդանշաններ 'նպատակային սահմաններում։
False Positive% ՝ ռուսական շեմը (սովորաբար <10-15%)։
Eurelation efficiency: խմբավորված ազդանշանների մասնաբաժինը 80 տոկոսն է։
Delivery SLO: Չաթ 3699։ 9%, SMS/ձայն 3699։ 5%.
Time-to-Action: P95-ը ալերտից ռունա արձակելու համար։
13) Դաշբորդներն ու լրագրողները
Հիբրիդային 'ակտիվ պատահարներ, burn-rate, տարածաշրջանների քարտեզը/տենանտները, ալերտների հերթը։
Ալերտների որակը 'աղմուկ, FP, շեմերի ռետեսներ, «լուռ գոտիներ»։
Conton-call 'լանդշաֆտների հաճախությունը, արձագանքի ժամանակը, «out of hours»։
Փոստի դեպքը 'ռունի արդյունավետությունը, պատճառների կրկնությունը։
14) iGaming/fintech առանձնահատկությունները
Payments/PSA: P1 - պրովայդերի հրաժարվելը, հեղինակային իրավունքի ձախողումների աճը։ Մեքենան մեծանում է PSA-ի վրա։
RTP & Limits: Alerts դիտվող RTP-ի վրա, ավելի շատ սահմաններ, կասկածելի փամփուշտներ հաղթողին։
Աֆֆիլիատներ/վեբհուկի 'առաքման լագը, դուբլի աճը, ապացուցված քվիտանտների անկումը։
Price/FX/Tax: վիտրինի անհամապատասխանությունը www.kout, արտեֆակտների տարբերակների ռասինխրոն։
Պատասխանատու խաղը 'RG-stugers և նրանց ժամանակին էսկալացիա աջակցություն/Compliance։
15) RACI
16)
- Որոշել North-Star և SLI/SLO; կապել ալերտները burn-rate-ի հետ։
- Մուտքագրեք քաղաքական գործիչը 'շեմեր, ջրանցքներ, էսկալացիա, լռության պատուհաններ։
- Իրականացնել դեդուպը, հարաբերակցությունը, հիստերեվիչը, փոթորկի ճնշումը։
- Տեղադրեք բազմաբնույթ և multi-ten.ru տեսանելիության կանոնները։
- Միացրեք «գործողությունների կոճակները» և ռունբուկները։ սահմանափակել գործարկման իրավունքները։
- Ներառել WORM/քվիտանիա, trace _ id և run-աուդիտ։
- Կառուցել որակի dashbords (noise, FP, MTTA, page rate)։
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Պարբերաբար վերանայել շեմերը. A/B շեմերը «ներքևի» մետրիկների վրա։
- On-call բեռ և բարելավումներ ամեն ամիս։
17) Պլեյբուկի (հանրաքվե)
PMS Engage (P1) 'մեքենա-վարդ, հաճախորդների թայմաուտների նվազեցում, «մոխրագույն» գործարքների կարանտին, 15 ռուբլիից հետո։
Webhase Lag (P2) 'բարձրացնել workers/batch, առաջնահերթություն հերթերի, արտանետվող էնդպոինտների ժամանակավոր դադարի։
PriceMismatch (P1/P2) 'քեշի ֆորս-հաշմանդամություն, «fx _ version/tax _ rule _ version», արտեֆակտը, փոխհատուցումը։
RTP Drift (P2) 'բոնուսների/պրոմո, կոդավորման աուդիտ, դիտարկման պատուհանի ընդլայնումը։
Մոսկվա: SoD/MFA fail (P1/P2) 'վիրահատության արգելափակումը, JIT-ը, ֆորենզիկան և Legal-ը անհրաժեշտության դեպքում։
18) FAQ
Ինչպե՞ ս կարող ենք նվազեցնել կեղծ գործերը։
SLO-կողմնորոշված կանոններ, հարաբերակցություններ, հիստերեներ, պատուհաններ ուսուցանող և կանոնավոր հոսքերի իրականացում։
Ի՞ նչն է ավելի կարևոր ՝ տրամագիծը կամ ճշգրտությունը։
P1-ի համար ճշգրտությունն ու արագությունը (ավելի քիչ, բայց քննադատական)։ P3-ի համար 'միտումների և արժեքի բարձրացում։
Արդյո՞ ք հեռախոսային լանդշաֆտը անհրաժեշտ է։
Այո, P1-ի համար։ չատը կարող է անհասանելի կամ «գայթակղված» լինել։
Ինչպե՞ ս չեք «այրել» on-call թիմը։
Page rate-ի լիմիթները, բեռների վերաբաշխումը, «follow-the-sun» -ը, որոնք ամսական աղմուկով են։
Ռեզյումե 'Ծանուցումների և ալերտների համակարգը կառավարվող փոխակրիչ է ազդանշանից մինչև գործողություն։ Կառուցեք այն SLO-ում, հանեք աղմուկը, ուղղեք համատեքստով, եկեք գործենք կոճակները և արձանագրենք ամեն ինչ օրինականորեն։ Այսպիսով, դուք նվազեցնում եք MTTA-ն, հանում եք բեռը on-call-ով և մեծացնում բիզնեսի կայունությունը նույնիսկ պրովայդերների կտրուկ աճով և ձախողումներով։