GH GambleHub

Ալերտները իրական ժամանակում

1) Նպատակը և սկզբունքները

Նպատակը 'ժամանակին և ուղղակիորեն տեղեկացնել անհրաժեշտ մարդկանց/համակարգերին SLO-ի, եկամուտների և կոմպլասենցիայի մասին և սկսել ճիշտ գործողություններ (ձեռքով/ավտոմատ)։

Սկզբունքները ՝ SLO-first, աղմուկի նվազեցում, բացատրություն, ենթատեքստը, բիզնեսի ազդեցության գերակայությունը, «մեկ ազդանշանը մեկ հասկանալի գործողություն է»։


2) Ազդանշանների տաքսոնոմիա

SLO ազդանշաններ ՝ burn-rate բյուջեներ կրիտիկական ուղիներով (լոգին, դեպոզիտ, տոկոսադրույք, եզրակացություն)։

KRI 'ռիսկի վաղ ցուցանիշները (auth-success նվազումը PBS բանկում/GEO, consumer-lag, p99 ռուբլիներ)։

Իրադարձություններ ՝ կախվածության ֆլամպեր, failover, ձեռքով շարժիչներ, պաշտպանիչ (rate-limit, WAF)։

Անվտանգությունը/համադրումը 'զգայուն վիրահատությունների աճը, PII էքսպորտը, SoD խախտումները։


3) Մակարդակները և SLA ծանուցումները

ՄակարդակըՕրինակՋրանցքԱրձագանքSLA առաջին արձագանքը
P1Դեպոզիտները/տոկոսադրույքները տարածաշրջանում, PII արտահոսքըPager (զանգը/Push), հերթապահ var-rumՉարտոնված մեքենայական գործողություններ + on-call245 րոպե
P2P99, PSA խնդիր բանկերի մի մասումPager/գերակայական չաթՄիջամտություն պատուհանի ընթացքում2415 րոպե
P3Տեղական դեգրադացիա/շրջանցիկ ճանապարհ կաChat/ticetՊլանավորված ուղղում60 րոպե
P4Ծանուցումներ/միտումներԹիկեթ/փոստՎերլուծություն/պլանԺամանակացույցով

4) Աղբյուրները և կոնտեքստի հարաբերակցությունը

Telemetria: metrics/treiss/logs, սինթետիկ և RUM։

Տյումենի 'CMDB/ծառայություն-մապա, սեփականատերերը, կախվածությունը։

Փոփոխությունները ՝ պոլիմերներ, ֆիչֆլագներ, ռուսական, պլանավորված աշխատանքներ։

Արտաքին պրովայդերներ ՝ PMS/KYC/խաղային ստուդիաներ/CDN/WAF արձաններ։

Յուրաքանչյուր ալերտ հարստանում է, ի՞ նչ է փոխվել մոտակայքում։ (թողարկումը/ֆիչֆլագը), ի՞ նչ կախվածություն ունեն կարմիրները, ի՞ նչ սեգմենտը կանդրադառնա։ (GEO/PSA/bank/tenant)։


5) SLO-alerting կանոնները (միջուկը)

Burn-rate: Երկու պատուհան (արագ 1h և դանդաղ 6-105 ժամ)։ Փեյջերը միայն միաժամանակ ավելանում է։

Guardrails: p99/error-rate-ի շեմերը ծառայում են միայն համատեքստային վերլուծության ձգիչներ, չեն փոխարինում SLO-ին։

Իմպակտը '«լսարանի մասնաբաժինը փողի/րոպե ռուսական կարգավորիչ» է P1-P4 մակարդակը։


6) Աղմուկի ճնշումը

Deduplication: Ծառայության խմբավորում/tenantu/պատճառով; մեկ դեպք ենք նետում տասնյակ ազդանշանների փոխարեն։

Histere.ru: N-is-M ապացույցներ, անոմալիայի նվազագույն տևողությունը։

Սայլենսներ/մյուտներ 'պլանավորված աշխատանքներ, հայտնի միջադեպեր, «follow-the-sun» պատուհաններ։

Ռեյթ լիմիթներ և քվոտաներ 'աղբյուրը/պիտակը/տենանտ; պաշտպանություն «փոթորիկից»։

Կարդինալության նվազումը 'արգելված է userID/sessioniD-ում ալերտ պիտակներում։


7) Միկրոօրգանիզացիա և էսկալացիա

Ռոտինգը համատեքստով 'տիրույթ (Payments/Games/Windows), միջավայրը (105/stage), տարածքը, ծանրությունը։

Էսկալացիա: t0-on-call L1; t0 + X - L2/հիբրիդային սեփականատեր; t0 + Y - IC/ղեկավարություն։ X/Y ժամանակը կախված է P1-P3-ից։

Կրկնօրինակումը 'pager + chate P1-ում; chat/ticet P3-ում։

Հերթափոխի փոփոխությունը 'ենթատեքստի մեքենա փոխանցումը (timeline, կատարված գործողություններ, վարկածներ)։


8) Avto-գործողությունները (71-remediation)

Վճարումները 'PBS-ի տեղափոխումը health profee conversion, բանկերի/մեթոդների սահմանափակումը, ջիթերի հետ։

Խաղերը/տոկոսադրույքները 'միացրեք քեշի-wedge/սահմանափակել write վիրահատությունները, queue-page/waiting-room ճակատում։

Ինֆրա ՝ ռոտացիա, դիֆերենցիալ վորկերներ, lag-ի մասշտաբներ։

Անվտանգությունը/կոմպլենսը 'ժամանակավորապես փակել PII էքսպորտը, P1 վիրահատությունների համար տեղադրել dron-35l։

Ցանկացած մեքենա-գործողություն 'արձագանքման քաղաքականության և չափանիշների հետ։


9) Runbook-առաջին փորձը

Յուրաքանչյուր ալերտ կապված է runbook-ի հետ, նպատակը, արագ ախտորոշումը (3-5 ստուգում), ֆիքսման/արձագանքման քայլերը, կոնտակտային դեմքերը, դաշբորդի հղումները և կարգավիճակը։ Զրուցում/լանդշաֆտում ցույց ենք տալիս գործողությունների կարճ քարտը։


10) Նա քաղաքական ոլորտ է

Ռոտացիան 24 247, կոդերի ծածկումը (Payments/Game System/MSE)։

«Second on-call» -ը P1-ի համար, երկու մարդու կանոնը var-rum-ում։

Quiet-hours-ը և հերթապահ պատուհանները գոտիներով (follow-the-sun)։

Ուսուցում 'եռամսյակային ուսուցումներ (tabletop/game-day), shadow-փոփոխություն։

Հետպատերազմյան վարկերը (comp-timm), որպեսզի խուսափեն այրումից։


11) Մոսկվան

Կառավարումը 'քարտերի, apdeit ժապավենների, IC/CL դերի, թայմերի ստեղծումը։

Կարգավիճակ-էջ 'P1/P2 հրատարակությունը (Comics Lead-ի միջոցով) մոդելներով և տեղայնացումով։

Ալգորիթմներ ՝ release-gates SLI-ում, Auto-stop/rollback ալերտներում։

Դելեյը 'սեփականատերերը, CMDB-ը, պրովայդերների շփումները։


12) Ալերտների օրինակները (iGaming)

1. Auth-success PMS-1 TR-ում 25 տոկոսով 10 րոպե

P2-ը P1-ն է գործարքների> 30 տոկոսը։

Avto-գործողություն 'վերաբաշխել PSA-2/3-ը; միացրեք պարզեցված 3DS; Alert Partner Live.

2. p99 «դրույքաչափը settl»> 3 ռուսական նորմեր EU-ում

Պատճառները 'lag վերարտադրության, գողերի հերթը։

Auto-գործողությունը 'scale-out workers, warmup-casha, ժամանակավորապես անջատել ոչ կրիտիկական ֆիչերը։

3. Export PII spikes

P1 թիկետի/հաստատման բացակայության դեպքում։

Avto-գործողություն 'բեռնման բլոկ, Compliance ծանուցում, SoD ստուգում։


13) Ալերտինգի որակի մետրերը (KPI/KRI)

MTTA-Comics/MTA-Ops: ժամանակը մինչև արձագանքը/առաջին գործողությունը։

Precision/Recall (Alert international), False Alarm Rate-ը։

Lead-time մինչև SLO, TTD (հայտնաբերման ժամանակը)։

Pager fatigue: alerts/chel/210, գիշերային զանգեր, «դատարկ» տոկոսը։

System-fix rate-ը խնդիրների մասն է, որոնք փակված են ավտոմեքենայի ռեակցիայով առանց մարդու։

Aging 'կախված P3/P4> X օրերի մասնաբաժինը։


14) Արժեքի կառավարումը

Ալերտայի/աղբյուրների քվոտաները, ավելցուկ պիտակների կտրումը։

Downsampling-ը և մետրի ագրեգացիան, յոթ ուղիները։ ելույթներ դասարաններում։

Հիբրիդային cost review: դոլար/ալերտ, դոլար/SLI-dashbord, «ծանր» շարքը։


15) Գաղտնիությունը և կոմպլենսը

Առանց PII-ի, ալտերտերի և պիտակների տեքստում։ ֆոսֆատորների թունավորումը։

Հասանելիության քաղաքականությունը (RBAC/ABAC), SoD-ը ալտերի կազմաձևման վրա։

Կանոնների փոփոխության, տարբերակման, թեստերի և մեթոդների աուդիտ։


16) Ճանապարհի քարտեզը (6-10 շաբաթ)

Մոսկվան։ 1-2 'SLI/KRI կատալոգը, սեփականատերերի քարտեզը, P1-P4 մակարդակները, առաջին SLO կանոնները (burn-rate)։

Մոսկվան։ 3-4: dedup/histereae/sylensa, ինտեգրումը պատահականության համակարգի և չատների հետ, runbook կապերը։

Մոսկվան։ 5-6 'Payments/Queues, release-gates, ֆիդների կարգավիճակ-էջ։

Մոսկվան։ 7-8: ենթատեքստը (ֆիչֆլագներ/պրովայդերներ), PSA-ի ջերմային քարտեզները ռուսական GEO բանկը, P1/P2 ուսուցումները։

Մոսկվան։ 9-10: FinOps alertinga, KPI-dashbords, շեմերի և քվոտաների պաշտպանություն, նա-կոլայի ուսուցում։


17) Արտեֆակտները և ձևանմուշները

Alts Spec: metrika/պայման, պատուհաններ, ճնշում, սեփականատեր, runbook, avto գործողություններ։

Routing Map: տիրույթը ռուսական էսկալացիայի ջրանցքն է, պահեստային կապերը։

Silence Policy: Մյուտայի կանոնները (պլանավորված/հայտնի միջադեպեր), ովքեր կարող են ներառել։

On-call Handbook: ռոտացիաներ, հերթափոխի փոփոխություն, P1/P2 հատվածներ, ալիքներ։

Post-Incident Pack: alerts/ժամանակավոր գծեր, ազդանշանների որակի վերլուծություն։


18) Անտիպատերնի

Փեյջերը «հում» p95/p99 առանց SLO-ի ունի աղմուկ և հոգնածություն։

Տասնյակ ազդանշաններ նույն բանի մասին (ոչ մի դեդուպա/հարաբերակցություն)։

Runbook-ի կամ սեփականատիրոջ բացակայությունը ալերտի մոտ։

Առանց սեզոնային/սեգմենտացիայի (GEO/PSA/bank/ժամ)։

Առանց լուրջ գործողությունների (ոչ roll-back չափանիշներ)։

Պիտակները PII-ից և userID-ից ցույց են տալիս ռիսկերը և կարդինալիզմի պայթյունը։


Արդյունքը

Իսկապես օգտակար ալերթինգը SLO կենտրոնային փոխակրիչն է 'համատեքստային կանոնները burn-rate-ի հետ, աղմուկի խելացի ճնշումը, պարզ ռոտինգը և էսկալացիան, runbook-առաջին փորձը և անվտանգ մեքենան։ Սա կրիտիկական իրադարձություններ է բռնում օգտագործողների առջև, նվազեցնում է MTTR-ը, պաշտպանում է եկամուտները և միևնույն ժամանակ պահում է նա-օղակը «Պիգեր-դժոխքի» ռուտինից։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։