Бақылау және жай-күйін бақылау
1) Мақсаттар мен қағидаттар
Мақсаты: нақты уақытта «не болып жатқанын» және «неге» түсіну, тосын оқиғаларды ескерту және SLO-ны бұзбай және OPEX-ті үрлемей тез қалпына келтіру.
Қағидаттары: SLO-first, «алтын сигналдар» (latency, traffic, errors, saturation), телеметрияның бірыңғай стандарты (OpenTelemetry), ең аз жеткілікті бөлшектер, түсініктілік, cost-aware бақылануы.
2) Бақылау қабаттары
1. Метриктер: SLI/SLO, capacity және трендтерге арналған агрегаттар (RED/USE-модельдер).
2. Трестер: сұрау салулардың, төлем және ойын транзакцияларының себеп-салдарлық тізбектері.
3. Логи/ивенттер: егжей-тегжейлі контекст және операторлардың/сервистердің іс-қимылдарының аудиті.
4. Синтетика (black-box): API/веб-жолдарды сыртқы тексеру, PSP/KYC хелс-пингтер.
5. RUM (нақты пайдаланушы): алдыңғы метриктер (TTFB, LCP, JS-қателер), гео/девайс бөліктері.
6. Төмен деңгейлі телеметрия: eBPF/CPU/IO/alloc профайлингі, желілік перцентильді кідірістер.
3) SLI жиынтығы және «алтын сигналдар»
Latency: критикалық жолдар бойынша p50/p95/p99 (логин, депозит, мөлшерлеме, шығару).
Errors: 5xx/timeout/decline үлесі (провайдерлер/банктер бойынша қалыпқа келтірумен).
Traffic/Throughput: RPS/TPS, белсенді сессиялар, оқиғалар/сек.
Saturation: CPU/RAM/IO жүктеу, кезектердің тереңдігі, pool-usage, replication lag.
Бизнес-SLI: сәтті депозиттер/терезе үшін% ставкалар, KYC/PSP конверсиясының ауытқулары, chargeback үлесі.
4) Телеметрия архитектурасы
Стандартталған инжест: OpenTelemetry SDK/collector → қалыпқа келтіру, семплинг, privacy-сүзгілер → сақтау орны (TSDB, трассировка, логтар).
Корреляция: trace-id/span-id логтар мен метриктерде (exemplars); төлемдер/ойын оқиғалары үшін бірыңғай correlation-id.
Топология: сервис-мапа (service graph), тірі SLI-мен тәуелді сыртқы провайдерлер.
Құнды басқару: ретенция, агрегация деңгейлері, динамикалық семплинг, «ыстық «/» суық »сақтау сыныптары.
5) Метрика: дизайн және түбегейлі
Ережелер: лейблдердің аз саны, time-series-те high-cardinality (userId, sessionId) тыйым салу; мұндай егжей-тегжейлер - тек трассаларға/жолдарға.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors инфрақұрылым үшін.
Exemplars: жоғары тұмсықтарды нақты trace-мысалдарға байланыстыру.
Бизнес-метрика: $/RPS, банктер/ГЕО бойынша PSP конверсиясы, провайдерлердің істен шығуға төзімділігі.
6) Трейсинг: тереңдігі және семплинг
Контекст: trace-контекст фронт арқылы лақтырылады → API → брокерлер → воркерлер → БД/PSP.
Семплинг: базалық 1-10%, аномалиялар кезінде - қағидалар бойынша динамикалық өсу (tail-based).
Фокус: төлем флоу (init → auth → capture/settle), ойын транзакциялары (bet → settle), KYC (init → verify).
Аннотациялар: жауаптың PSP-коды, bank-BIN/issuer-санаты, өңір, тәуекел-жылдамдық.
7) Логи және аудит
Құрылымдалған логтар: JSON, профиль бойынша деңгей (өнімдегі INFO, баптаудағы DEBUG).
Құпиялылық сүзгілері: PII бүркемелеу, логтарда KYC шикі құжаттарына тыйым салу.
Аудит оқиғалары: кім/не/қайда/қашан/неліктен, ID тикета, жоғары тәуекелді операциялар үшін pre/post мәндері (бонустар, лимиттер, PSP-роутинг).
Өзгермейтін: WORM/immutable, қолтаңба, саясат бойынша ретеншн.
8) Жағдайды бақылау (health)
Liveness/Readiness/Startup: дұрыс сынамалар (liveness сыртқы тәуелділікті тексермеңіз).
Degraded-mode: Алерттер мен мәртебе беті келісілуі үшін қызмет деградациясының айқын жалаушалары.
Budget health: burn-rate бюджет қателіктері (жылдам/баяу терезе), ресурстар мен кезектер бойынша headroom.
9) Алертинг және ерте ескерту
SLO-алерты: қателер бюджеті бойынша (4-сағаттық және 1-сағаттық терезелер) «шикі» p95 орнына.
Аномалиялар: 5xx жарылыстарына арналған STL/IQR/онлайн детекторлар, нақты ГЕО/банкте PSP авторизациясының құлдырауы.
Root-cause hints: альянстарды соңғы релиздермен/фичефлагтармен/жоспарлы жұмыстармен байланыстырамыз.
Runbooks: әр алертте - плейбук сызықтары, графиктер, «жылдам тексерулер».
10) Дашбордтар (кім және не көреді)
Exec: аптайм/SLO, burn-rate, табысты депозиттер/мөлшерлемелер, провайдерлер мәртебесі, сыйымдылық болжамы және $/RPS.
SRE/платформа: сервистер бойынша RED/USE, кезектер/lag, pool-usage, replication lag, CDN/WAF, eBPF-профайлдар.
Payments/Risk: PSP/банктер бойынша авторизациялаудың жетістіктері/GEO, soft/hard declines, KYC уақыты, chargeback early-signals.
Support/CS: оқиғалар, SLA жауаптар, FAQ макростар.
11) Бақылау құнын басқару (FinOps-Observability)
Ретеншн: «дымқыл» трассалар үшін 7-14 күн, агрегаттар ұзағырақ; іріктеп - ыстық сервистер.
Сэмплинг/агрегация: аномалиялар бойынша динамикалық семплинг, ескі қатарларды downsampling.
Ингест-саясат: шуды кесіп тастау (health-пингтер, артық логтар), high-cardinality метрикасына квоталар.
KPI құны: $/GB ingest, $/trace, $/SLI дашборд; топ-жеушілерді дүркін-дүркін реву.
12) Құпиялылық және комплаенс
PII/қаржы: телеметриядағы деректерді жасыру, токенизациялау, азайту.
Гео-локализация: юрисдикция бойынша сақтау және өңдеу; лог-экспорт - тек шифрлау және TTL бар бекітілген workflow арқылы.
Телеметрияға қол жеткізу аудиті: RBAC/ABAC, түсіру үшін SoD, сұрау журналы.
13) Инцидент-менеджментпен және релиздермен интеграциялау
Статус-бет: инцидент-карточкадан автоматты түрде жаңартылған.
Релиз-гейт: SLI бойынша канареялық талдау, burn-rate> табалдырығында авто-тоқтату релизі.
Post-mortem: трасса/логдардан таймлайн, нақты SLI және бұзылу терезелері.
14) Практикалық енгізу әдістемесі (8-12 апта)
Нед. 1-2: сындарлы жолдарды және SLI түгендеу; стек таңдау (OTel, TSDB, логи, трасса); тәуелділік картасы.
Нед. 3-4: OTel 3-5 негізгі сервистерге (логин/депозит/мөлшерлеме), базалық RED/USE, логдағы trace-контекстке енгізу.
Нед. 5-6: SLO және burn-rate-алерталар; PSP/KYC бойынша синтетика; бірінші runbooks; RUM веб/мобайл.
Нед. 7-8: динамикалық семплинг, exemplars, сервис-мапа; Exec/SRE/Payments дашбордтары.
Нед. 9-10: eBPF/ыстық тар орындардың профилингі; privacy-сүзгілер; квоталар/ретенциялар.
Нед. 11-12: SLI бойынша релиз-гейтс және авто-rollback; мәртебе парағымен интеграциялау; tabletop-жаттығулар.
15) Артефактілердің үлгілері
SLO-карта қызметі: SLI, мақсаттар, терезелер, қателер бюджеті, алерта, иелері.
Alert Spec: метрика/шарт, шектер, дедуп/сайленс, алушылар, runbook.
Dashboard Spec: аудитория, сұрақтар, 6-8 виджеттер, деректер көзі, жаңарту жиілігі.
Telemetry Policy: қандай өрістер жарамды/тыйым салынған, ретеншн, бүркемелеу, экспорт.
Cost Review Pack: топ-сериялар/лог-ағындар, сэмплинг бойынша ұсыныс/TTL, күтілетін үнемдеу.
16) Бақылау функциясының KPI
MTTA/MTTR (SLO-алертингті енгізгеннен кейін жақсарту).
Пайдаланушылардың шағымдарына дейін синтетика/SLI анықтаған оқыс оқиғалар%.
Қолмен араласпай SLI бойынша гейттен өткен релиздердің үлесі.
Диагностикалықты сақтай отырып, телеметрияға $/RPS төмендеуі.
Сындарлы жолдарды трассингпен жабу (> 90%).
«Нақты SLI мәртебесінің апдейт» корреляциясының дәлдігі.
17) Антипаттерндер
«Бәрін логикалаймыз» → құн жарылысы және шу.
SLO/burn-rate → pager-fatigue орнына «шикі» метриктер бойынша алерта.
Метриканың жоғары кардиналдығы (userId) → TSDB-дауылдар.
Бизнес контексті жоқ трейдерлер (PSP/банк/GEO) → инсайт жоқ.
Бақылаудың релиздермен/инциденттермен байланысы жоқ → телеметрия бөлек тұрады.
Жиынтығы
Бақылау және жағдайды бақылау - бұл құралдар жиынтығы емес, басқарылатын жүйе: дұрыс SLI/SLO → стандартталған телеметрия және корреляция → SLO-алертинг және runbooks → релиздермен және статус-коммуникациямен интеграция → cost-aware пайдалану және құпиялылық. Мұндай контур трафиктің экстремалды шыңдарында да ерте сигналдар, жылдам RCA және бизнестің тұрақтылығын береді.