GH GambleHub

Билдирүүлөр жана алерттер системасы

(Бөлүк: Операциялар жана башкаруу)

1) Максаты жана принциптери

Максаты - жеткирүү аз, бирок акылдуу: гана тиешелүү сигналдар, өз убагында жана жоопкерчиликтүү адам/робот түшүнүктүү кийинки кадам менен.

Принциптери:
  • Actionable by default: ар бир алерт ээси бар, артыкчылык, жооп мөөнөтү жана аракет баскычы.
  • SLO-биринчи: Алерталар SLI/SLO айланасында курулган, жана эркин метриктер айланасында эмес.
  • Noise-control: дедуп, байланыштар, бороон басуу.
  • Context-rich: метадеректер (аймак, тенант, версия, trace_id) жана runbook шилтеме.
  • Audit-ready: Бардык алерттерди жана жооп кабыл алынат жана өзгөрүлбөгөн журналда сакталат.

2) Сигналдардын булактары

Тех. телеметрия: жеткиликтүүлүк, p95/p99, error-rate, кезек артта, ресурстук лимиттер.
Бизнес иш-чаралар: PriceMismatch, WebhookLag, RTP Drift, Frod сигналдары.
Коопсуздук/комплаенс: SoD-бузуулар, PII-жетүү, ачкычтарды/күбөлүктөрдү колдонуу.
Пландоочу: мөөнөтү өтүп кеткен SLA милдеттери, DLQ-көчкү, retry-storms.

3) Классификация жана артыкчылыктар

АртыкчылыкРеакцияМисалдар
P1 (SEV-0)дароо, 24 × 7Текшерүү жеткиликтүү эмес, PII агып, негизги аймакта PSP ийгиликсиз
P2 (SEV-1)≤ 30-60 минp95 өсүшү, vebhook артта, провайдердин жарым-жартылай деградациясы
P3 (SEV-2)жумуш убактысыegress чыгымдардын тенденциясы, retrais өсүшү, квота каптарына жакындыгы
Infoпейджингсизрелиз аяктады, 80% квота, серт. N күндөн кийин бүтөт

Guardrails: Алерталар SLO/бюджет каталар (burn rate) карата түзүлгөн.

4) Роутинг жана эскалация 24 × 7

контекстинде роутинг: 'region/tenant/product/provider/severity'.
Эскалация тепкич: On-call инженер → командалык лидер → Duty Manager → Exec/Legal (PII/каржы үчүн).
Нөөмөт: ролдорду ротациялоо (SRE, App, Data, Security, Payments), резервдик байланыштар (чат/үн/SMS).
Жымжырттык терезелер: түнкү, релиз, маркетинг; P1 үчүн өзгөчөлүктөр.

5) Ызы-чууну азайтуу жана корреляция

Дедупликация: по '(fingerprint, region, tenant, route)' и 'trace _ id'.
"Бороондун" кысымы: активдүү P1 менен дубликаттарды убактылуу басуу.
Корреляциялар: тамыр себебинин айланасында сигналдарды топтоо (релиз/фич/провайдер).
Histeresis: кирүү/босогодон чыгуу - "араа" качуу үчүн ар кандай.

6) Алерт мазмуну (шаблон)

Аталышы: кыскача жана мазмундуу - "EU/текшерүү: p95> 250ms (SLO breach)".
Негизги талаалар: артыкчылык, убакыт, аймак, Тенант, версия, trace_id, affected%, кир. себеби.
Азыр эмне кылуу керек: биринчи 1-3 кадам + Рунбук/баскычтарга шилтеме (Re-route, Rollback, Пауза Promo).
Кийинки байланыш: N мүнөттөн кийин, ээси (IC/on-call).

7) Жеткирүү каналдары

Чат/мессенджер: триаждын негизги каналы (баскычтары бар бот-карталар).
Пейджер/үн/SMS: P1 үчүн.
Почта: отчеттор жана non-urgent (P3/Info).
Вебхактар: тикетинг/оркестраторлор менен интеграция.
Статус-бет: кардарлардын жана өнөктөштөрдүн тышкы билдирүүсү.

8) Интеграция жана "иш-аракеттер баскычы"

Окуя-бот: картаны түзөт, IC дайындайт, видеомост ачат, таймерлер башталат.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Укук: Runes ишке ролдору менен чектелген; бардык иш-аракеттерге кол коюлат жана логдор түзүлөт.

9) Multiregion жана multi-tenant

аймактар боюнча көз карандысыз SLO/босоголор; жергиликтүү окуялар дүйнөнү "боёбойт".
Көрүү чыпкалары: өнөктөштөр/тенанттар өздөрүн гана көрүшөт.
Юрисдикциялык талаптар: билдирүүлөрдүн тексттери, тилдер, убакыт алкактары.

10) Саясат, расписание, унчукпай терезелер

Алерт саясаты: ээлери, босоголор, каналдар, эскалациялар, шаблондор.
Календарлар: жумушчу/жумуш эмес убакыт, релиз/маркетинг терезелер.
Change freeze: босоголорду жумшартуу же ири акциялар учурунда "P1 эмес" басуу.

11) Аудит жана юридикалык бекитүү

Квитанциялар: критикалык алерталар үчүн - 'receipt _ hash' жана DSSE кол тамгасы.
WORM журналдар: өзгөрүлбөс сактоо окуялар жана реакциялар (ким эмне кылганын тастыктады).
Chain-of-custody: эскалация жана чечүү жолдору.

12) Метрика жана SLO эскертме системасы

MTTA (acknowledge): P1 ≤ 5-10 мин; P2 ≤ 30 мин.
Page rate/On-call load: сигналдар - максаттуу диапазондо.
False Positive%: максаттуу босого ≤ (адатта <10-15%).
Correlation натыйжалуулугу: топтоштурулган сигналдардын үлүшү ≥ 80%.
Жеткирүү SLO: чат ≥ 99. 9%, SMS/добуш ≥ 99. 5%.
Time-to-Action: p95 Алертадан Runes ишке.

13) Дашборддор жана репорттор

Оперативдүү: активдүү инциденттер, burn-rate, региондордун/тенанттардын картасы, алерттердин кезеги.
Алерттердин сапаты: ызы-чуу, FP, босоголордун ретесттери, "үнсүз зоналар".
On-call жүктөө: Пейдж жыштыгы, жооп убактысы, "out of hours".
Пост-окуя: жүн натыйжалуулугу, себептердин кайталанышы.

14) iGaming/Fintech өзгөчөлүктөрү

Payments/PSP: P1 - провайдердин иштебей калышы, авторизациялоонун иштебей калышы; запастык PSP боюнча auto-роут.
RTP & Limits: байкалган RTP drift боюнча алерта, чектен ашкан, шектүү үлгүлөрү утуштарды.
Аффилиаттар/вебхактар: жеткирүү кечигүү, дубль өсүшү, тастыкталган квитанциялардын төмөндөшү.
Price/FX/Tax: Display checkout бири-бирине дал келбегендиги, артефакттардын бир нече версиялары.
Жоопкерчиликтүү оюн: RG-триггерлер жана алардын өз убагында эскалация колдоо/Compliance.

15) RACI

АймакRACI
Архитектура жана босоголорSRE/PlatformHead of EngProduct, DataБардык
Эскалация/нөөмөтIR TeamCOOHR, SecurityManagement
Билдирүүлөр жана үлгүлөрComms/SupportCOOLegal/ComplianceӨнөктөштөр
Аудит/квитанцияларComplianceCCOSecurity, DataAudit
Playbook/RunesSRE & OwnersCTOProduct, IntegrationsБардык

16) Киргизүү чек-тизмеси

  • North-Star жана SLI/SLO аныктоо; Алерттерди burn-rate менен байланыштырыңыз.
  • саясат каталогун киргизүү: босоголор, каналдар, эскалация, унчукпай терезелер.
  • Дедуп ишке ашыруу, байланыштар, histeresis, бороон басуу.
  • көп региондук жана multi-tenant көрүү эрежелерин орнотуу.
  • туташтыруу "иш-аракет баскычтары" жана runbook; баштоо укугун чектөө.
  • WORM/дүмүрчөктөрдү, trace_id Tracking жана Run-аудит кирет.
  • Сапаттуу dashboard куруу (noise, FP, MTTA, page rate).
  • Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
  • Дайыма босоголорду карап чыгуу; A/B босоголору "үнсүз" метриктер боюнча.
  • On-call жүгү жана ай сайын жакшыртуу боюнча отчет.

17) Playbook (шилтеме)

PSP Outage (P1): резерв боюнча авто-роут, кардарларынын таймдарын кыскартуу, "боз" транзакциялардын карантини, статус-апдейт 15 мүнөттөн кийин.
WebhookLag (P2): Workers/батч жогорулатуу, кезектерди артыкчылык, кошумча EndPoint убактылуу тыныгуу.
PriceMismatch (P1/P2): форс-майыптык кэш, салыштыруу 'fx _ version/tax _ rule _ version', артефакттын артка кайтарылышы, компенсация.
RTP Drift (P2): тыныгуу бонустар/промо, аудит профилдери, кеңейтүү терезе байкоо.
Security: SoD/MFA fail (P1/P2): иш бөгөт коюу, JIT-кайра текшерүү, forensics жана зарыл болгон учурда мыйзамдуу.

18) FAQ

Кантип жалган аткарууну азайтуу керек?
SLO-багытталган эрежелер, корреляциялар, гистерезис, окуу терезелери жана босоголорду үзгүлтүксүз кайра карап чыгуу.

Эмне маанилүү - камтуу же тактык?
P1 үчүн - тактык жана ылдамдык (жакшыраак, бирок маанилүү). P3 үчүн - тренддерди жана баалуулуктарды камтуу.

Телефондук пейджинг керекпи?
Ооба, P1 үчүн; чат жеткиликтүү же "жабык" болушу мүмкүн.

Кантип "өрттөп" on-call командасы?
page rate лимиттери, жүктөрдү кайра бөлүштүрүү, "follow-the-sun", ай сайын ызы-чуу.

Резюме: Эскертмелердин жана алерттердин системасы - бул сигналдан аракетке башкарылуучу конвейер. Аны SLO куруу, ызы-чууну өчүрүү, контекстке багыттоо, аракет баскычтарын бериңиз жана баарын мыйзамдуу түрдө бекитиңиз. Ошентип, сиз MTTAны кыскартып, on-call түйшүгүн алып саласыз жана провайдерлердин кескин жарылуулары жана мүчүлүштүктөрү менен да бизнестин туруктуулугун жогорулатасыз.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.