GH GambleHub

შეტყობინებების და ალერტების სისტემა

(განყოფილება: ოპერაციები და კონტროლი)

1) დანიშვნა და პრინციპები

მიზანია ცოტათი მიტანა, მაგრამ ზუსტად: მხოლოდ შესაბამისი სიგნალები, დროული და პასუხისმგებელი ადამიანი/რობოტი გასაგები შემდეგი ნაბიჯით.

პრინციპები:
  • Actionable by default: თითოეულ ალერტს აქვს მფლობელი, პრიორიტეტი, რეაქციის ვადა და მოქმედების ღილაკი.
  • SLO-first: ალერტები შენდება SLI/SLO- ს გარშემო და არა თვითნებური მეტრიკის გარშემო.
  • ხმაურის კონტროლი: ბაბუა, კორელაცია, ქარიშხლის ჩახშობა.
  • Context-rich: მეტამონაცემები (რეგიონი, ტენანტი, ვერსია, trace _ id) და ბმული runbook- ზე.
  • Audit-ready: ყველა ალერტა და რეაქცია კვიტავს და ინახება უცვლელი ჟურნალში.

2) სიგნალის წყაროები

ესენი. ტელემეტრია: წვდომა, p95/p99, error-rate, რიგები, რესურსების ლიმიტები.
ბიზნეს გამომძიებლები: PriceMismatch, WebhookLag, RTP Drift, ფროიდის სიგნალები.
უსაფრთხოება/შესაბამისობა: SoD დარღვევები, PII წვდომა, გასაღების/სერთიფიკატების გაფართოება.
დამგეგმავი: ვადაგასული SLA დავალებები, DLQ ზვავები, retry-storms.

3) კლასიფიკაცია და პრიორიტეტები

პრიორიტეტირეაქციამაგალითები
P1 (SEV-0)დაუყოვნებლივ, 24 × 7Checkout არ არის ხელმისაწვდომი, PII გაჟონვა, PSP მარცხი მთავარ რეგიონში
P2 (SEV-1)30-60 წუთიზრდა p95, ვებჰუკების ლაგი, პროვაიდერის ნაწილობრივი დეგრადაცია
P3 (SEV-2)სამუშაო საათებიegress- ის ხარჯების ტენდენცია, რეაგირების ზრდა, კვოტების ქუდებთან სიახლოვე
Infoპეიჯინგის გარეშეგამოშვება დასრულებულია, კვოტა 80%, სერტი. იწურება N დღეში

Guardrails: alertes ფორმულირდება შეცდომების SLO/ბიუჯეტის მიმართ.

4) Routing და ესკალაცია 24 × 7

როუტინგი კონტექსტით: 'region/tenant/provider/severity'.
ესკალაციის კიბე: on-call ინჟინერი - ბრძანების ლედი - Duty Manager - Exec/Legal (PII/ფინანსებისთვის).
მოვალეობები: როტაცია (SRE, App, Data, Security, Payments), სარეზერვო კონტაქტები (ჩატი/ხმა/SMS).
დუმილის ფანჯრები: ღამის, გამოშვება, მარკეტინგი; გამონაკლისი P1- სთვის.

5) ხმაურის შემცირება და კორელაცია

დედუპლიკაცია: '(fingerprint, region, tenant, მარშრუტი)' და 'trace _ id'.
სუპრესია „ქარიშხალი“: დუბლიკატების დროებითი ჩახშობა აქტიური P1- ით.
კორელაცია: სიგნალის დაჯგუფება ფესვის მიზეზის გარშემო (გამოშვება/ფიგურა/პროვაიდერი).
ჰისტერეზი: შესასვლელი/გასასვლელი ზღურბლიდან განსხვავებულია „ხერხის“ თავიდან ასაცილებლად.

6) ალერტის შინაარსი (შაბლონი)

სათაური: მოკლედ და არსებითად - „EU/Checkout: p95> 250ms (SLO breach)“.
საკვანძო ველები: პრიორიტეტი, დრო, რეგიონი, ტენანტი, ვერსია, trace _ id, affected%, in. მიზეზი.
რა უნდა გავაკეთოთ ახლა: პირველი 1-3 ნაბიჯი + ბმული რუნბუკზე/ღილაკზე (Re-route, Rollback, Pause Promo).
შემდეგი კომუნიკაცია: N წუთის შემდეგ, მფლობელი (IC/on-coll).

7) მიწოდების არხები

ჩატი/მესენჯერი: მთავარი სამოქმედო არხი (ღილაკებით ბოტი ბარათები).
პეიჯერი/ხმა/SMS: P1- სთვის.
ფოსტა: მოხსენებები და არაკომერციული (P3/ინფო).
ვებჰუკი: ინტეგრაცია პიკეტინგთან/ორკესტრებთან.
სტატუსის გვერდი: მომხმარებლებისა და პარტნიორების გარე შეტყობინება.

8) ინტეგრაცია და „მოქმედების ღილაკები“

ინციდენტი ბოტი: ქმნის ბარათს, დანიშნავს IC, ხსნის ვიდეო ხიდს, იწყება ტაიმერები.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
უფლებები: რუნების გაშვება შეზღუდულია როლებით; ყველა მოქმედება გაფორმებულია და ლოგიკურია.

9) მულტირეგიონი და მულტი-ტენანტი

დამოუკიდებელი SLO/რეგიონების ბარიერები; ადგილობრივი ინციდენტები არ „ლამაზია“ მთელ მსოფლიოში.
ხილვადობის ფილტრები: პარტნიორები/ტენანტები მხოლოდ საკუთარ თავს ხედავენ.
იურისდიქციის მოთხოვნები: შეტყობინებების ტექსტები, ენები, დროის ზონები.

10) პოლიტიკოსები, გრაფიკები, დუმილის ფანჯრები

ალერტის პოლიტიკა: მფლობელები, ბარიერები, არხები, ესკალაცია, შაბლონები.
კალენდარი: სამუშაო/სამუშაო დრო, გამოშვება/მარკეტინგის ფანჯრები.
Change freeze: ბარიერების შემსუბუქება ან „არა-P1“ ჩახშობა დიდი აქციების დროს.

11) აუდიტი და იურიდიული ფიქსაცია

ქვითრები: კრიტიკული ალერტებისთვის - 'receipt _ hash' და DSSE ხელმოწერა.
WORM ჟურნალები: მოვლენების და რეაქციების უცვლელი შენახვა (ვინ დაადასტურა რა გააკეთა).
წრე: ესკალაციებისა და გადაწყვეტილებების კვალი.

12) მეტრიკა და SLO შეტყობინებების სისტემა

MTTA (acknowledge): P1 5-10 წუთი; P2-30 წთ.
Page rate/On-call load: შეცვლის სიგნალები - სამიზნე დიაპაზონში.
False Positive%: სამიზნე ბარიერი (ჩვეულებრივ <10-15%).
Correlation efficience: ჯგუფური სიგნალების წილი 80% -ს შეადგენს.
Delivery SLO: ჩატი 99. 9%, SMS/ხმა - 99. 5%.
დრო-მოქმედება: p95 რუნების გაშვება ალერტიდან.

13) დაშბორდი და მოხსენებები

ოპერატიული: აქტიური ინციდენტები, ქარიშხალი, რეგიონების/ტენანტების რუკა, ალერტების ხაზი.
ალერტების ხარისხი: ხმაური, FP, რეესტრის რეესტრი, „მუნჯი ზონები“.
დატვირთვა on-call: პეიჯების სიხშირე, რეაქციის დრო, „out of hours“.
პოსტ-ინციდენტი: რუნების ეფექტურობა, მიზეზების განმეორება.

14) iGaming/fintech სპეციფიკა

Payments/PSP: P1 - პროვაიდერის უკმარისობა, ავტორიზაციის უარის თქმის ზრდა; ავტო როტაცია სარეზერვო PSP- ზე.
RTP & Limits: ალერტები დაკვირვებული RTP- ის დრიფტისთვის, ლიმიტების ჭარბი, საეჭვო გამარჯვების ნიმუშები.
Affiliates/webhuks: მიწოდების ლაქი, დუბლების ზრდა, დადასტურებული ქვითრების ვარდნა.
Price/FX/Tax: ვიტრინის შეუსაბამობა checkout, არტეფაქტების ვერსიების რასსინქრონი.
საპასუხისმგებლო თამაში: RG ტრიგერები და მათი დროული მხარდაჭერა/მხარდაჭერა.

15) RACI

რეგიონიRACI
არქიტექტურა და ბარიერებიSRE/PlatformHead of EngProduct, Dataყველაფერი
ესკალაცია/მოვალეობაIR TeamCOOHR, SecurityManagement
შეტყობინებები და შაბლონებიComms/SupportCOOLegal/Complianceპარტნიორები
აუდიტი/ქვითრებიComplianceCCOSecurity, DataAudit
Playbucks/runsSRE & OwnersCTOProduct, Integrationsყველაფერი

16) განხორციელების შემოწმების სია

  • განსაზღვრეთ North Star და SLI/SLO; ალერტებთან დაკავშირება burn-rate- სთან.
  • შეიყვანეთ პოლიტიკის კატალოგი: ბარიერები, არხები, ესკალაცია, დუმილის ფანჯრები.
  • გააცნობიერეთ ბაბუა, კორელაცია, ჰისტესეზი, ქარიშხლის ჩახშობა.
  • მრავალ რეგიონალური და მრავალ-ტენანტის ხილვადობის წესების კონფიგურაცია.
  • დააკავშიროთ „მოქმედების ღილაკები“ და რუნბუკები; შეზღუდეთ გაშვების უფლებები.
  • ჩართეთ WORM/ქვითრები, ტრეკერი _ id და რუნების აუდიტი.
  • ააშენეთ ხარისხის დაშბორდები (ხმაური, FP, MTTA, გვერდი).
  • Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
  • რეგულარულად გადახედეთ ბარიერებს; A/B ბარიერები „ჩუმად“ მეტრიკებზე.
  • ანგარიში on-call დატვირთვისა და გაუმჯობესების შესახებ ყოველთვიურად.

17) პლეიბუკი (რეფერენდუმი)

PSP Outage (P1)

WebhookLag (P2): გაზარდოს workers/batch, რიგების პრიორიტეტი, არჩევითი endpoints- ის დროებითი პაუზა.
PriceMismatch (P1/P2): ქეშის ინვალიდობა, კრეკერი 'fx _ version/tax _ rule _ version', არტეფაქტის გამოტოვება, კომპენსაცია.
RTP Drift (P2): ბონუსების/პრომო პაუზა, პროფილის აუდიტი, სათვალთვალო ფანჯრის გაფართოება.
უსაფრთხოება: SoD/MFA fail (P1/P2): ოპერაციის დაბლოკვა, JIT ხელახალი შემოწმება, წინსვლა და ლეგალი საჭიროების შემთხვევაში.

18) FAQ

როგორ შევამციროთ ცრუ მოქმედებები?
SLO ორიენტირებული წესები, კორელაციები, ჰისტესეზი, ტრენინგის ფანჯრები და რეიდების რეგულარული გადასინჯვა.

რა არის უფრო მნიშვნელოვანი - გაშუქება თუ სიზუსტე?
P1- სთვის - სიზუსტე და სიჩქარე (უკეთესი, მაგრამ კრიტიკული). P3- სთვის - ტენდენციების და ღირებულების გაშუქება.

საჭიროა სატელეფონო პეიჯინგი?
დიახ, P1- სთვის; ჩატი შეიძლება მიუწვდომელი იყოს ან „curved“.

როგორ არ „დაწვათ“ გუნდი?
გვერდის შეზღუდვები, დატვირთვის გადანაწილება, „follow-the-sun“, ყოველთვიური ხმაურის შურისძიება.

რეზიუმე: შეტყობინებებისა და ალერტების სისტემა არის კონტროლირებადი კონვეიერი სიგნალიდან მოქმედებამდე. ააშენეთ იგი SLO- ზე, აურიეთ ხმაური, გადააკეთეთ კონტექსტი, მოდით, მოქმედებების ღილაკები და ყველაფერი იურიდიულად ჩაწერეთ. ასე რომ, თქვენ ამცირებთ MTTA- ს, ამოიღებთ დატვირთვას on-call- ით და ზრდის ბიზნესის სტაბილურობას, თუნდაც მკვეთრი აჩქარებით და პროვაიდერების ჩავარდნით.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.