Телеметрия агымдары
1) Максаты жана контексти
Телеметрия агымдары платформанын иши жөнүндө байкоо маалыматтарынын үзгүлтүксүз агымын камсыз кылат: эмне болуп жатат, эмне үчүн жана канча турат. iGaming депозиттердин/чендердин бузулушун, тышкы провайдерлердин (PSP/KYC/оюн студиялары) көрүнүшүн жана SLO/комплаенс менен далилденген шайкештикти эрте аныктоонун ачкычы болуп саналат.
2) Телеметрия булактарынын картасы
Метрика (TSDB): RED/USE, бизнес-SLI (уруксат ийгилиги,% ийгиликтүү коюм).
Tracks (OTel): front аркылуу суроо-чынжыр → API → брокерлер → БД/PSP.
Логи (структураланган): окуялар, операциялардын аудити, каталар.
RUM: TTFB/LCP, JS каталар, гео/түзмөк.
синтетика: тышкы сыноо бүтүмдөр (логин/депозиттик/" кум" коюм) ар кандай GEO.
Төмөнкү деңгээлдеги телеметрия: eBPF/CPU/IO/alloc профилдери, p95/p99 тармактары.
Тышкы статустар: PSP/KYC/CDN/WAF Webhook/Pool.
3) Стандарттар жана схемалар
OpenTelemetry lingua franca катары: атрибуттардын семантикасын унификациялоо (service. name, deployment. environment, enduser. id - жашыруу, trace/SpanID, PSP коддору).
Схемалар жөнүндө макулдашуулар: версиялоо, логдор/тректер үчүн schema registry, "breaking-changes" экилик желек жана грейс мезгили аркылуу гана.
Correlation-ID: бир 'correlation _ id' бардык катмарлары аркылуу төлөө/коюмдар үчүн + перцентил метрика exemplars.
4) Инжест конвейер (жогорку-деңгээл)
1. Producers: SDK/агенттер/жыйноочулар (түйүндөрүндө OTEL Collector).
2. Edge-буферизациялоо: чектери бар жергиликтүү кезектер (memory/disk).
3. Транспорт: gRPC/HTTP OTLP → брокер билдирүүлөр (Kafka/Pulsar) idempotency-ачкычтар менен.
4. Processors: нормалдаштыруу, байытуу (GEO/Тенант/канал), PII чыпкалар, жука семплинг.
5. Fan-out: TSDB (метрика), жол сактоо, логин системасы, lake/DWH, alerting/эрежелер.
6. Consumers: дашборддор, SLO-алерта (burn-rate), тергөө, статус-бет, авто-гейт релиздер.
5) QoS жана агымдардын класстары
Класс A (реалдуу убакыт, P1): SLI/SLO, синтетика, негизги провайдерлер (PSP/KYC). SLA жеткирүү: <5-10c, ≥ 99. 9%.
Класс B (операциялык): RCA, SLA үчүн соода/Логи: <1-2 мин.
C классы (аналитикалык): агрегаттар жана lake/DWH, SLA: саат/сутка.
Класс боюнча багыттоо → артыкчылыктуу, ар кандай ретенциялар, жеке кезектер/топиктер.
6) Семплинг, агрегация, retenshn
Metrics: тарыхый катар downsampling (1s → 10s → 1m), кагаз агрегаттар, exemplars.
Tracks: tail-based семплинг (аномалиялар, PSP каталар, p99- "жарк" үлүшүн жогорулатуу).
Логи: профиль боюнча деңгээл, кысуу, ызы-чуу чыгаруу (health-pings, DEBUG - тыюу салынган).
Retenshn: "ысык" (7-14 күн майда-чүйдөсүнө чейин), "муздак" (агрегаттар/архив). per-класс маалыматтар жана наркы саясаты.
7) Купуялык жана комплаенс
PII-гигиена: идентификаторлорду жашыруу/белгилөө; телеметрияда КУС/карта белгилеринин документтерине тыюу салуу.
Гео-локализация: юрисдикциялар боюнча сактоо; экспорт - гана бекитилген workflow (шифрлөө, TTL, аудит) аркылуу.
Access Control: RBAC/ABAC телеметрия сактоо, SoD жүктөө.
8) Агымдардын ишенимдүүлүгү
Идемпотенттүүлүк: иш-чаралардын ачкычтары, процессорлордо дедуп.
Backpressure: per-tenant Инжест лимиттери/кызматы; төмөн артыкчылыктуу талаалар үчүн drop-саясат.
Replays: кайра иштетүү үчүн брокер ≥ 72 саат сактоо.
Dead-letter: ката багыттоо (схема, көлөмү, PII-бузуу) менен коопсуз DLQ.
Версиялоо: схемаларды алмаштырууда "эки агымдуулук" (v1 + v2) жана керектөөчүлөрдүн миграциясы.
9) Көп-тенант жана изоляция
Tags 'tenant _ id/brand/region' ар бир окуяда; пер-тенанттык квоталар жана бюджеттер.
Топиктер боюнча A/B агымдарын изоляциялоо; showback/chargeback инжест жана сактоо.
Экспортто тенанттын чегине чейин камуфляж/агрегация.
10) Агымдардын каталогу (талаалардын мисалы)
ID: 'telemetry. payments. auth. success. rate. eu`
Класс: A (реалдуу убакыт)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
Source: OTel Collector + PSP-router metrics
Керектөөчүлөр: SLO-Алерт, Exec-dashboard, статус-бет
Retenshn: ысык 30 күн, агрегаттар 12 ай
Ээси: Payments SRE, dpo-owner (privacy)
SLO агымы: кечигүү <10 c p95, жоготуу <0. 1 %/сутка
11) Alerting жана релиздер менен бириктирүү
SLO-алерттер боюнча burn-rate (тез/жай терезе) депозиттер/коюмдар үчүн.
Release-gates: канар анализ SLI; деградация учурунда auto-stop/rollback.
Статус-бет: Инцидент-карта FID + SLI агрегаттары.
12) Негизги дашборддор топтому
Exec: uptime, burn-rate, авторизациялардын/коюмдардын ийгилиги (GEO/PSP боюнча), провайдерлердин статусу, $/RPS телеметрия.
SRE/Платформа: RED/USE кызматтары боюнча, lag кезектери, outlier-detection, eBPF профилдери.
Payments/Risk: Банк/PSP, soft/hard declines, KYC SLA, эрте chargeback сигналдары.
Cost-obs: булактар боюнча инжесттин көлөмү, кардиналдуулуктун жогорку маркалары, агымдар боюнча наркы.
13) Байкоо каржы (FinOps)
KPI наркы: $/GB ingest, $/trace, $/SLI-dashboard; "оор" метриктер жана лейблдер боюнча отчет.
Оптималдаштыруу: Агрегация жана downsampling, динамикалык семплинг, чатти-логторду тазалоо, маанилүү сактоо классы.
Саясат: high-cardinality боюнча квоталар, эмиссиянын жыштыгына лимиттер, чейрек сайын схемаларды карап чыгуу.
14) Процесстер жана ролдор
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
Схемалар үчүн Change-Control: PR-ревю, тесттик стенддер, керектөөчүлөрдүн шайкештиги.
Tabletop/Chaos-days: провайдерлерди өчүрүү, брокерди ашыкча жүктөө, backpressure/демпотенттикти текшерүү.
Post-mortem: телеметрия талдоо камтыйт (сигналдардын жетиштүүлүгү, жалган ишке киргизүү, наркы).
15) Жол картасы киргизүү (8-12 жума)
Нед. 1-2: учурдагы агымдардын аудит, булактардын картасы, SLO телеметрия максаттары, стандарттарды тандоо (OTel, TSDB, соода, Логи).
Нед. 3-4: OTel-жыйноочулар, бирдиктүү correlation-ID, негизги RED/USE + депозиттик бизнес-SLI/чен, v0 агымдарынын каталогу.
Нед. 5-6: tail-based sampling, GEO синтетика, DLQ/idempotentity, privacy чыпкалар.
Нед. 7-8: FinOps Panel (ingest/retention), downsampling, кардиналдык квоталар, SLO-алерталар (burn-rate).
Нед. 9-10: eBPF/төмөн баскычтуу сигналдар, статус-бет fid, release-gates.
Нед. 11-12: chaos-тесттер, чыгымдарды оптималдаштыруу, формалдуу SLA агымдары, чейректик review схемаларын ишке киргизүү.
16) Артефакттардын үлгүлөрү
Telemetry Stream Spec: id, ээси, схема, QoS класс, булактар, керектөөчүлөр, retenshn, SLO/alert, privacy-саясат.
Schema PR Template: өзгөртүү/көчүрүү, шайкештик, тесттер, кайра план.
Sampling Policy: аномалиялар менен семплингди жогорулатуу эрежелери; максаттуу бюджеттер.
Cost Review Pack: $/баалуулуктар боюнча жогорку булактары, TTL/агрегациялар боюнча сунуштар.
Incident Telemetry Checklist: RCA үчүн болушу керек болгон графиктердин/соодагерлердин/логдордун тизмеси.
17) KPI/KRI телеметрия агымы
Жеткирүү: p95 класс кечигүү,% жоготкон билдирүүлөр/сутка.
Каптоо: Trail менен маанилүү жолдордун үлүшү> 90%, SLI үлүшү, метриктер менен жабылган.
Сигналдардын сапаты: даттануулар чейин SLI тарабынан кармалган инциденттердин%, жалган/өткөрүп жиберилген коркунучтар.
Баасы: телеметрия үчүн $/RPS, $/trace, инжестте "ызы-чуу" үлүшү.
Ишенимдүүлүк: брокердин деградациясынан кийин калыбына келтирүү убактысы, репликалардын көлөмү.
18) Антипаттерндер
High-cardinality metrics (userId, sessionId) TSDB.
структуралаштыруу жана схемалар жок бирдиктүү "кара кутуча" логдор.
Жок DLQ/Dempotentity → эки жана чокуларында жоготуу.
FinOps → эсептердин экспоненциалдык өсүшү жок "чексиз" retenties.
Бизнес-контекстсиз соодалар (PSP/Bank/GEO) → начар диагностикалык.
командалардын ортосундагы макулдашылбаган схемалар → керектөөчүлөр бузулат.
Жыйынтык
Телеметрия агымдары - бул башкарылуучу, көп катмарлуу система: OTel-стандарттар жана схемалар → QoS жана backpressure менен ишенимдүү инжест → семплинг/агрегация жана баасы боюнча ретенция → купуялык жана көп тенант-изоляция → SLO-алерттер, дашборддор жана релиздердин гейттери. Бул контур алгачкы сигналдарды берет, тез RCA, болжолдонгон чыгымдар жана жогорку режимде iGaming платформасынын туруктуулугу.