Телеметрия ағындары
1) Мақсаты және мәтіні
Телеметрия ағындары платформаның жұмысы туралы бақылау деректерінің үздіксіз келуін қамтамасыз етеді: не болып жатыр, неге және қанша тұрады. iGaming-те бұл депозиттердің/мөлшерлемелердің тозуын, сыртқы провайдерлердің көрінуін (PSP/KYC/ойын студиялары) және дәлелденетін SLO/комплаенс сәйкестігін ерте анықтаудың кілті.
2) Телеметрия көздерінің картасы
Өлшемдер (TSDB): RED/USE, бизнес-SLI (авторизациялаудың табысы, табысты ставкалардың%).
Трейдерлер (OTel): фронт арқылы сұрау тізбегі → API → брокерлер → БД/PSP.
Логи (құрылымдалған): оқиғалар, операциялар аудиті, қателер.
RUM: TTFB/LCP, JS қателері, гео/құрылғы.
Синтетика: әртүрлі GEO-дан сыртқы сынақ транзакциялары (логин/депозит/» құм» ставкасы).
Төмен деңгейлі телеметрия: eBPF/CPU/IO/alloc профайлингі, желілік p95/p99.
Сыртқы мәртебелері: PSP/KYC/CDN/WAF вебхукалары/пулдары.
3) Стандарттар мен схемалар
lingua franca ретінде OpenTelemetry: атрибуттар семантикасын біріздендіру (service. name, deployment. environment, enduser. id - жасырын, trace/SpanID, PSP кодтары).
Схемалар туралы келісімдер: нұсқалау, логтар/трейлер үшін schema registry, «breaking-changes» тек екілік жалау және grace-кезең арқылы.
Correlation-ID: барлық қабаттар арқылы төлем/мөлшерлеме үшін бірыңғай 'correlation _ id' + метрикалық перцентилмен exemplars.
4) Инжест конвейері (high-level)
1. Producers: SDK/агенттер/коллекторлар (тораптардағы OTel Collector).
2. Edge-буферлеу: жергілікті кезектер (memory/disk).
3. Transport: gRPC/HTTP OTLP → idempotency кілттерімен хабарлама брокері (Kafka/Pulsar).
4. Processors: қалыпқа келтіру, байыту (GEO/тенант/арна), PII-сүзгілер, жұқа семплинг.
5. Fan-out: TSDB (метрика), трасса сақтау орнында, логтар жүйесінде, lake/DWH, alerting/ережелерде.
6. Consumers: дашбордтар, SLO-алерта (burn-rate), тергеу, статус-бет, авто-гейт релиздері.
5) QoS және ағындардың кластары
A класы (нақты уақыт, P1): SLI/SLO, синтетика, негізгі провайдерлер (PSP/KYC). SLA жеткізу: <5-10 с. ≥ 99. 9%.
В класы (операциялық): RCA, SLA үшін трейстер/логтар: <1-2 мин.
C класы (аналитикалық): lake/DWH, SLA: сағат/тәуліктегі агрегаттар мен батчилер.
Сынып бойынша маршруттау → басымдылық, әр түрлі ретенциялар, жеке кезектер/топиктер.
6) Семплинг, агрегация, ретеншн
Метриктер: тарихи қатарларды downsampling (1с → 10с → 1м), перценттеу агрегаттары, exemplars.
Трестер: tail-based семплинг (аномалиялар, PSP-қателер, p99- «жарылулар» кезінде үлесті көтеру).
Логи: бейіні бойынша деңгей, қысу, шуды шығару (health-пингтер, DEBUG - сынамада тыйым салынады).
Ретеншн: «ыстық» (7-14 күн бөлшек), «суық» (агрегаттар/мұрағат). per-класс деректер саясаты және құны.
7) Құпиялылық және комплаенс
PII-гигиена: идентификаторларды бүркемелеу/токенизациялау; телеметрияда АЖК/карточкалық токендер құжаттарына тыйым салу.
Гео-локализация: юрисдикциялар бойынша сақтау; экспорт - тек қана бекітілген workflow (шифрлау, TTL, аудит) арқылы.
Қолжетімділікті бақылау: RBAC/ABAC телеметрия қоймаларына, SoD түсіруге.
8) Ағындардың сенімділігі
Іспеттілік: оқиғаның кілті, процессорлардағы дедуп.
Backpressure: per-tenant/сервис инжестінің лимиттері; артық жүктеу кезіндегі төмен басымдықты өрістер үшін drop-саясат.
Replays: брокерде сақтау қайта өңдеу үшін 72 сағ ≥.
Dead-letter: қателерді (сызба, өлшем, PII-бұзушылық) қателері бар қауіпсіз DLQ-ға бағыттау.
Нұсқалау: схемаларды (v1 + v2) ауыстырған кездегі «екі ағымдылық» және тұтынушылардың көші-қоны.
9) Мульти-тенант және оқшаулау
Әрбір оқиғадағы 'tenant _ id/brand/region' тегтері; пер-тенанттық квоталар мен бюджеттер.
Топиктер бойынша A/B ағындарын оқшаулау; инжест және сақтау бойынша showback/chargeback.
Экспорттау кезінде тенанттың шегіне дейін бүркемелеу/агрегаттау.
10) Ағындар каталогы (өрістер мысалы)
Идентификаторы: 'telemetry. payments. auth. success. rate. eu`
Сынып: A (нақты уақыт)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
Көз: OTel Collector + PSP-router metrics
Тұтынушылар: SLO-алерттар, Exec-дашборд, мәртебе-бет
Ретеншн: ыстық 30 күн, агрегаттар 12 ай
Иесі: Payments SRE, dpo-owner (privacy)
SLO ағыны: кідірісі <10 c p95, шығыны <0. 1 %/тәулік
11) Алертингпен және релиздермен интеграция
Депозиттер/ставкалар үшін burn-rate (жылдам/баяу терезе) бойынша SLO-алерталар.
Release-gates: SLI канареялық талдау; деградация кезінде авто-тоқта/rollback.
Мәртебе-бет: Инцидент-карточкадан жаңартулар + SLI агрегаттары.
12) Негізгі дашбордтар жиынтығы
Exec: аптайм, burn-rate, авторизация/ставкалардың табысы (GEO/PSP бойынша), провайдерлер мәртебесі, $/RPS телеметрия.
SRE/Платформа: RED/USE сервистер бойынша, lag кезектер, outlier-детекция, eBPF-профильдер.
Payments/Risk: банктер бойынша конверсия/PSP, soft/hard declines, KYC SLA, chargeback ерте сигналдары.
Cost-obs: көздер бойынша инжест көлемі, кардиналдылық топ-лейблдері, ағындар бойынша құны.
13) Бақылау қаржысы (FinOps)
KPI құны: $/GB ingest, $/trace, $/SLI-дашборд; «ауыр» метриктер мен лейблдер бойынша есеп.
Оңтайландыру: агрегация және downsampling, динамикалық семплинг, чаттилерді тазалау, маңыздылығы бойынша сақтау сыныбы.
Саясат: high-cardinality квоталары, эмиссия жиілігіне лимиттер, тоқсанына бір рет шолу схемалары.
14) Процестер мен рөлдер
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Схемалар үшін Change-Control: PR-ревью, тест стендтері, тұтынушылардың үйлесімділігі.
Tabletop/Chaos-days: провайдерлерді өшіру, брокерді жүктеу, backpressure/іспеттілікті тексеру.
Post-mortem: телеметрия талдауын (сигналдардың жеткіліктілігі, жалған іске қосулар, құны) қосу.
15) Енгізудің жол картасы (8-12 апта)
Нед. 1-2: ағымдағы ағындардың аудиті, көздердің картасы, SLO телеметрия мақсаттары, стандарттарды таңдау (OTel, TSDB, трейстер, логтар).
Нед. 3-4: OTel-коллекторлар, бірыңғай correlation-ID, базалық RED/USE + бизнес-SLI депозитке/мөлшерлемеге, v0 ағындар каталогы.
Нед. 5-6: tail-based семплинг, GEO, DLQ/іспеттілік бойынша синтетика, privacy-сүзгілер.
Нед. 7-8: FinOps-панель (ingest/retention), downsampling, түбегейлі квоталар, SLO-алерта (burn-rate).
Нед. 9-10: eBPF/төмен деңгейлі сигналдар, фид, release-gates статус-беті.
Нед. 11-12: chaos-тесттер, құнын оңтайландыру, формалды SLA ағындары, тоқсандық шолу схемаларын іске қосу.
16) Артефактілердің үлгілері
Telemetry Stream Spec: id, иесі, схемасы, QoS класы, дереккөздер, тұтынушылар, ретеншн, SLO/алерт, privacy-саясат.
Schema PR Template: өзгерту/көшу, үйлесімділік, тесттер, қайтару жоспары.
Sampling Policy: аномалиялар кезінде семплингті көтеру ережелері; нысаналы бюджеттер.
Cost Review Pack: $/құндылық бойынша топ-дереккөздер, TTL/агрегациялар бойынша ұсыныстар.
Incident Telemetry Checklist: RCA үшін болуы тиіс графиктердің/трейлерлердің/логтардың тізімі.
17) KPI/KRI телеметрия ағындары
Жеткізу: p95 сынып бойынша кідірістер, жоғалған хабарламалардың %/тәулік.
Жабу: трассингі бар сындарлы жолдардың үлесі> 90%, метрикамен жабылған SLI үлесі.
Сигналдардың сапасы: шағымдарға дейін SLI бойынша ұсталған инциденттер%, жалған/жіберіп алған алерталар.
Құны: телеметрияға $/RPS, $/trace, инжесттегі «шу» үлесі.
Сенімділік: брокердің тозуынан кейін қалпына келтіру уақыты, репликалар көлемі.
18) Антипаттерндер
High-cardinality метрикасы (userId, sessionId) TSDB.
Логтардың құрылымы мен схемалары жоқ бірыңғай «қара жәшігі».
DLQ/сәйкессіздіктің жоқтығы → дубль және шыңдар кезінде жоғалту.
«Шексіз» ретенциялар FinOps → шоттардың экспоненциалдық өсуі.
Бизнес контексті жоқ трейстер (PSP/банк/GEO) → әлсіз диагностикалық.
→ командаларының арасындағы келісілмеген схемалар тұтынушыларды бұзады.
Жиынтығы
Телеметрия ағындары - басқарылатын, көп қабатты жүйе: OTel-стандарттар мен схемалар → QoS және backpressure бар сенімді инжест → семплинг/агрегация және бағаға ретенция → құпиялылық және көп тенантты-оқшаулау → SLO-алерттар, дашбордтар және релиздер гейттері. Мұндай контур ерте сигналдарды, жылдам RCA, болжамды шығындар мен ең жоғары режимде iGaming-платформасының тұрақтылығын береді.