GH GambleHub

Бақылау және жай-күйін бақылау

1) Мақсаттар мен қағидаттар

Мақсаты: нақты уақытта «не болып жатқанын» және «неге» түсіну, тосын оқиғаларды ескерту және SLO-ны бұзбай және OPEX-ті үрлемей тез қалпына келтіру.
Қағидаттары: SLO-first, «алтын сигналдар» (latency, traffic, errors, saturation), телеметрияның бірыңғай стандарты (OpenTelemetry), ең аз жеткілікті бөлшектер, түсініктілік, cost-aware бақылануы.

2) Бақылау қабаттары

1. Метриктер: SLI/SLO, capacity және трендтерге арналған агрегаттар (RED/USE-модельдер).
2. Трестер: сұрау салулардың, төлем және ойын транзакцияларының себеп-салдарлық тізбектері.
3. Логи/ивенттер: егжей-тегжейлі контекст және операторлардың/сервистердің іс-қимылдарының аудиті.
4. Синтетика (black-box): API/веб-жолдарды сыртқы тексеру, PSP/KYC хелс-пингтер.
5. RUM (нақты пайдаланушы): алдыңғы метриктер (TTFB, LCP, JS-қателер), гео/девайс бөліктері.
6. Төмен деңгейлі телеметрия: eBPF/CPU/IO/alloc профайлингі, желілік перцентильді кідірістер.

3) SLI жиынтығы және «алтын сигналдар»

Latency: критикалық жолдар бойынша p50/p95/p99 (логин, депозит, мөлшерлеме, шығару).
Errors: 5xx/timeout/decline үлесі (провайдерлер/банктер бойынша қалыпқа келтірумен).
Traffic/Throughput: RPS/TPS, белсенді сессиялар, оқиғалар/сек.
Saturation: CPU/RAM/IO жүктеу, кезектердің тереңдігі, pool-usage, replication lag.
Бизнес-SLI: сәтті депозиттер/терезе үшін% ставкалар, KYC/PSP конверсиясының ауытқулары, chargeback үлесі.

4) Телеметрия архитектурасы

Стандартталған инжест: OpenTelemetry SDK/collector → қалыпқа келтіру, семплинг, privacy-сүзгілер → сақтау орны (TSDB, трассировка, логтар).
Корреляция: trace-id/span-id логтар мен метриктерде (exemplars); төлемдер/ойын оқиғалары үшін бірыңғай correlation-id.
Топология: сервис-мапа (service graph), тірі SLI-мен тәуелді сыртқы провайдерлер.
Құнды басқару: ретенция, агрегация деңгейлері, динамикалық семплинг, «ыстық «/» суық »сақтау сыныптары.

5) Метрика: дизайн және түбегейлі

Ережелер: лейблдердің аз саны, time-series-те high-cardinality (userId, sessionId) тыйым салу; мұндай егжей-тегжейлер - тек трассаларға/жолдарға.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors инфрақұрылым үшін.
Exemplars: жоғары тұмсықтарды нақты trace-мысалдарға байланыстыру.
Бизнес-метрика: $/RPS, банктер/ГЕО бойынша PSP конверсиясы, провайдерлердің істен шығуға төзімділігі.

6) Трейсинг: тереңдігі және семплинг

Контекст: trace-контекст фронт арқылы лақтырылады → API → брокерлер → воркерлер → БД/PSP.
Семплинг: базалық 1-10%, аномалиялар кезінде - қағидалар бойынша динамикалық өсу (tail-based).
Фокус: төлем флоу (init → auth → capture/settle), ойын транзакциялары (bet → settle), KYC (init → verify).
Аннотациялар: жауаптың PSP-коды, bank-BIN/issuer-санаты, өңір, тәуекел-жылдамдық.

7) Логи және аудит

Құрылымдалған логтар: JSON, профиль бойынша деңгей (өнімдегі INFO, баптаудағы DEBUG).
Құпиялылық сүзгілері: PII бүркемелеу, логтарда KYC шикі құжаттарына тыйым салу.
Аудит оқиғалары: кім/не/қайда/қашан/неліктен, ID тикета, жоғары тәуекелді операциялар үшін pre/post мәндері (бонустар, лимиттер, PSP-роутинг).
Өзгермейтін: WORM/immutable, қолтаңба, саясат бойынша ретеншн.

8) Жағдайды бақылау (health)

Liveness/Readiness/Startup: дұрыс сынамалар (liveness сыртқы тәуелділікті тексермеңіз).
Degraded-mode: Алерттер мен мәртебе беті келісілуі үшін қызмет деградациясының айқын жалаушалары.
Budget health: burn-rate бюджет қателіктері (жылдам/баяу терезе), ресурстар мен кезектер бойынша headroom.

9) Алертинг және ерте ескерту

SLO-алерты: қателер бюджеті бойынша (4-сағаттық және 1-сағаттық терезелер) «шикі» p95 орнына.
Аномалиялар: 5xx жарылыстарына арналған STL/IQR/онлайн детекторлар, нақты ГЕО/банкте PSP авторизациясының құлдырауы.
Root-cause hints: альянстарды соңғы релиздермен/фичефлагтармен/жоспарлы жұмыстармен байланыстырамыз.
Runbooks: әр алертте - плейбук сызықтары, графиктер, «жылдам тексерулер».

10) Дашбордтар (кім және не көреді)

Exec: аптайм/SLO, burn-rate, табысты депозиттер/мөлшерлемелер, провайдерлер мәртебесі, сыйымдылық болжамы және $/RPS.
SRE/платформа: сервистер бойынша RED/USE, кезектер/lag, pool-usage, replication lag, CDN/WAF, eBPF-профайлдар.
Payments/Risk: PSP/банктер бойынша авторизациялаудың жетістіктері/GEO, soft/hard declines, KYC уақыты, chargeback early-signals.
Support/CS: оқиғалар, SLA жауаптар, FAQ макростар.

11) Бақылау құнын басқару (FinOps-Observability)

Ретеншн: «дымқыл» трассалар үшін 7-14 күн, агрегаттар ұзағырақ; іріктеп - ыстық сервистер.
Сэмплинг/агрегация: аномалиялар бойынша динамикалық семплинг, ескі қатарларды downsampling.
Ингест-саясат: шуды кесіп тастау (health-пингтер, артық логтар), high-cardinality метрикасына квоталар.
KPI құны: $/GB ingest, $/trace, $/SLI дашборд; топ-жеушілерді дүркін-дүркін реву.

12) Құпиялылық және комплаенс

PII/қаржы: телеметриядағы деректерді жасыру, токенизациялау, азайту.
Гео-локализация: юрисдикция бойынша сақтау және өңдеу; лог-экспорт - тек шифрлау және TTL бар бекітілген workflow арқылы.
Телеметрияға қол жеткізу аудиті: RBAC/ABAC, түсіру үшін SoD, сұрау журналы.

13) Инцидент-менеджментпен және релиздермен интеграциялау

Статус-бет: инцидент-карточкадан автоматты түрде жаңартылған.
Релиз-гейт: SLI бойынша канареялық талдау, burn-rate> табалдырығында авто-тоқтату релизі.
Post-mortem: трасса/логдардан таймлайн, нақты SLI және бұзылу терезелері.

14) Практикалық енгізу әдістемесі (8-12 апта)

Нед. 1-2: сындарлы жолдарды және SLI түгендеу; стек таңдау (OTel, TSDB, логи, трасса); тәуелділік картасы.
Нед. 3-4: OTel 3-5 негізгі сервистерге (логин/депозит/мөлшерлеме), базалық RED/USE, логдағы trace-контекстке енгізу.
Нед. 5-6: SLO және burn-rate-алерталар; PSP/KYC бойынша синтетика; бірінші runbooks; RUM веб/мобайл.
Нед. 7-8: динамикалық семплинг, exemplars, сервис-мапа; Exec/SRE/Payments дашбордтары.
Нед. 9-10: eBPF/ыстық тар орындардың профилингі; privacy-сүзгілер; квоталар/ретенциялар.
Нед. 11-12: SLI бойынша релиз-гейтс және авто-rollback; мәртебе парағымен интеграциялау; tabletop-жаттығулар.

15) Артефактілердің үлгілері

SLO-карта қызметі: SLI, мақсаттар, терезелер, қателер бюджеті, алерта, иелері.
Alert Spec: метрика/шарт, шектер, дедуп/сайленс, алушылар, runbook.
Dashboard Spec: аудитория, сұрақтар, 6-8 виджеттер, деректер көзі, жаңарту жиілігі.
Telemetry Policy: қандай өрістер жарамды/тыйым салынған, ретеншн, бүркемелеу, экспорт.
Cost Review Pack: топ-сериялар/лог-ағындар, сэмплинг бойынша ұсыныс/TTL, күтілетін үнемдеу.

16) Бақылау функциясының KPI

MTTA/MTTR (SLO-алертингті енгізгеннен кейін жақсарту).
Пайдаланушылардың шағымдарына дейін синтетика/SLI анықтаған оқыс оқиғалар%.
Қолмен араласпай SLI бойынша гейттен өткен релиздердің үлесі.
Диагностикалықты сақтай отырып, телеметрияға $/RPS төмендеуі.
Сындарлы жолдарды трассингпен жабу (> 90%).
«Нақты SLI мәртебесінің апдейт» корреляциясының дәлдігі.

17) Антипаттерндер

«Бәрін логикалаймыз» → құн жарылысы және шу.
SLO/burn-rate → pager-fatigue орнына «шикі» метриктер бойынша алерта.
Метриканың жоғары кардиналдығы (userId) → TSDB-дауылдар.
Бизнес контексті жоқ трейдерлер (PSP/банк/GEO) → инсайт жоқ.
Бақылаудың релиздермен/инциденттермен байланысы жоқ → телеметрия бөлек тұрады.

Жиынтығы

Бақылау және жағдайды бақылау - бұл құралдар жиынтығы емес, басқарылатын жүйе: дұрыс SLI/SLO → стандартталған телеметрия және корреляция → SLO-алертинг және runbooks → релиздермен және статус-коммуникациямен интеграция → cost-aware пайдалану және құпиялылық. Мұндай контур трафиктің экстремалды шыңдарында да ерте сигналдар, жылдам RCA және бизнестің тұрақтылығын береді.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.