Сигналдарды жана метриктерди бөлүштүрүү
(Бөлүм: Экосистема жана тармак)
1) Максаты жана аймагы
Сигналдарды жана метриктерди бөлүштүрүү - бул телеметрияны чогултуунун, нормалдаштыруунун жана бардык кызыкдар катышуучуларга: операторлорго, контент провайдерлерине, төлөм/КУС-кызматтарына, көпүрөлөргө, түйүндөргө, аффилиаттарга жана SRE/BI/командаларына жеткирүүнүн макулдашылган жолу Compliance. Максаттары:- Телеметрия жана маалымат келишимдеринин бирдиктүү тили.
- Башкарылуучу QoS каналдары: маанилүү сигналдардын артыкчылыгы.
- Ачык-айкын SLI/SLO жана алдын ала алдоо.
- Купуялуулук, изоляция жана бюджетти үнөмдөө.
2) Сигналдардын таксономиясы
1. Бизнес окуялар: onbording, депозиттер/төлөмдөр, оюн окуялар, атрибуция.
2. Техникалык-метрика: latency/throughput/ката коду, кезек, CPU/RAM/IO колдонуу.
3. Логи: операциялар жана каталар жөнүндө структураланган жазуулар.
4. Tracking: Span суроо/топик, hop-to-hop корреляция.
5. Ден соолук статусу: synthetic probes, readiness/liveness, heartbeat түйүндөрү.
6. Тобокелдик/комплаенс сигналдары: KYC/KYB/AML хиттери, санкциялык окуялар.
Ар бир класстын өзүнүн критикалык деңгээли жана сактоо/жеткирүү саясаты бар.
3) Бөлүштүрүү архитектурасы (референс)
Edge Collectors (SDK/агенттер) → Ingress (HTTP/OTLP/gRPC/QUIC) → Шина (Kafka/Pulsar) → Иштеп чыгуучулар (stream-jobs) → Сактоо (TSDB үчүн метрика, объект/колонка - үчүн → Терезелер/дашборддор/алерталар.
Көп тенанттуулук: namespace/тенант-id ачкычтар, өзүнчө quota/limits/ACL.
QoS боюнча сегментация: критикалык (P0), маанилүү (P1), фон (P2).
Egress: жазылуучулар (Ops/BI/Third-party) топик жазылуу жана materialized views аркылуу.
4) Келишимдер жана схемалар (окуялар/метрика/соода)
4. 1 Окуялар (жөнөкөйлөштүрүлгөн, YAML)
yaml event:
id: uuid kind: business ops risk ts: timestamp # ISO8601 tenant: string # org_id/namespace source: string # service/peer-id trace_id: string type: string # deposit. created payout. failed probe. ok...
attrs: object # semantic fields (no PII)
severity: info warn error critical qos: P0 P1 P2
4. 2 Метрика (OpenMetrics/OTLP)
туруктуу лейблдер менен Gauge/Counter/Histogram (чектелген кардиналдуулук).
Идентификаторлор: 'metric _ name {service, region, tenant, version, route}'.
Коддогу p99 ордуна жашыруун/өлчөмдөрү үчүн гистограммалар.
4. 3 соода
Милдеттүү талаалар: 'trace _ id', 'span _ id', 'parent _ id', 'service', 'peer', 'route', 'qos'.
домендердин ортосундагы шилтемелер (керектөөчү/өндүрүүчү) жана тармак хоп (relay/bridge).
5) QoS жана артыкчылыктуу
P0 (критикалык): төлөмдөр/төлөмдөр SLI, көпүрөлөр/түйүндөр статусу, burn-rate SLO → катуу жеткирүү (acks, retries, демпотенттик), минималдуу убакыт.
P1 (маанилүү): азык-түлүк окуялар/негизги көрсөткүчтөр → SLO ичинде кепилденген жеткирүү.
P2 (өбөлгөлөр): майда-чүйдөсүнө чейин, жөндөө → best-effort, ашыкча жүктөө менен чачып болот.
Саясатчылар: ар кандай кезектер, продюсерлерге quota, backpressure, rate-limits, дедуп 'idempotency _ key'.
6) кардиналдуулук жана бюджет метрика
Эреже 6 лейблдер: метрика боюнча 6 ачкычтан ашпайт, белгиленген маанилердин сөздүктөрү.
кардиналдуулук ≤ 10k убакыт катар/метрика/тенант.
Семплирование: head-/tail-based үчүн tracking; downsampling метр 10s → 1m → 5m → 1h.
Quotas: тентант жана QoS классына чекит/сек жана байт/сек чеги.
Линтер схемалар: "жарылуу" белги менен метрикаларды четке кагат (id, email, ip ж.б.).
7) чогултуу жана жеткирүү: push vs pull
Push (OTLP/StatsD/HTTP): ийкемдүүлүк, мобилдик/edge-кардарлар, P0 каналдар.
Pull (Prometheus) - ички инфраструктура, болжолдуу максаттар.
Гибрид: exporters → gateway → TSDB; региондор үчүн federated scrapes.
Транспорт: QUIC/HTTP/2, компрессия, batching, TLS/mTLS, retrais jitter.
8) SLI/SLO жана alerting
8. 1 Негизги SLI
Availability% EndPoint/шлюз,
Latency p50/p95/p99 критикалык жолдор боюнча,
Error-rate (5xx/timeout/abort),
Жеткирүү lag шиналар, Queue depth,
Freshness дисплей (ingest → serve кечигүү).
8. 2 SLO мисалдар
P0 pipelines: Availability ≥ 99. 95%, p99 latency ≤ 400 мс, Delivery lag p95 ≤ 2 с.
P1: Availability ≥ 99. 9%, Freshness p95 ≤ 3 мин.
P2: Freshness p95 ≤ 15 мин, no-page.
8. 3 Burn-rate кооптуу (мисал)
2 саат терезе: 'error _ budget _ burn ≥ 2 ×' → пейдж.
6-саат терезе: 'error _ budget _ burn ≥ 1 ×' → пейдж/эскалация.
'queue _ lag' жана 'drop _ rate' P0 менен айкалыштыруу.
9) Сактоо жана Retenia
TSDB метрик: жогорку жыштыгы - 7-14 күн; агрегаттар - 6-12 ай.
Events/Logs: ысык сактоо 7-30 күн, муздак (объект) 6-24 ай.
Trades: sampling 1-10%; "жай/ката" span сактоо (tail-based).
PII үчүн алып салуу/редакциялоо саясаты жана маалымат субъекттеринин суроо-талаптары.
10) Купуялык, коопсуздук жана изоляция
PII-минималдаштыруу: токенизациялоо/талааларды псевдонимизациялоо, метрикадагы "чийки" идентификаторлорго тыюу салуу.
mTLS/иш-чаралардын кол тамгалары, өндүрүүчүлөрдүн ачкычтарын пиннинг.
ACL/ABAC темалар/кызматтар/тенанттар, write/окуу үчүн өзүнчө ачкычтар.
Tenant sandboxing: логикалык/физикалык бөлүнүү, чектер жана rate-limit per tenant.
Audit trail: өзгөрүлбөс кирүү журналдары/конфигурацияларды өзгөртүү.
11) иштетүү агымдары (агымы jobs)
Enrich: нормалдаштыруу, гео/версия/трафик классы.
Aggregate: терезелер 10s/1m/5m, гистограммалар, quantiles.
Detect: аномалиялар (EWMA/ESD), бөлүштүрүү drift, кезек жарылуу.
Route: күйөрман терезелер/Алертерс/Webhuke өнөктөштөр.
Guard: "кызыл баскычы" - булагы/темасы боюнча throttling/kill-switch.
12) Дашборддор (референс-макеттер)
Ops Core (саат/реалдуу убакыт): p95 latency, error-rate, delivery lag, queue depth, success-rate ingest.
Pipelines Health: freshness per pipeline, drop-rate, backpressure, burn-rate SLO.
Tenant Usage: катар/сек, байты/сек, кардиналдуулук, top-labels.
Security/Compliance: mTLS статусу, мөөнөтү ачкычтары, жеткиликтүүлүгү, PII чыгаруу.
Бизнес Lens: конверсия/төлөмдөр/көпүрө SLI технологиялык метр жанында.
13) Конфигурация мисалдары
QoS класстары жана лимиттери (YAML)
yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5
Белги метрика (саясат)
yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000
Alerty burn-rate
yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]
14) Маалыматтар схемалары жана суроолор
Метриктердин реестри
sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);
Кезек жана лаг
sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;
Тентант боюнча кардиналдуулук
sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;
15) Процесстер жана ролдор
Telemetry Owner - схемалар/саясаттар/квоталар, кардиналдуулукту көзөмөлдөө.
SRE/Ops - SLO, коркунучтар, окуялар, масштабдоо.
Security/Compliance - ачкычтар, жетүү, PII, аудит.
Product/BI - KPI, аналитика, A/B-метрика.
Tenants (өнөктөштөр) - SDK туура интеграциясы, контракттарды сактоо.
16) Playbook окуялар
A. кардиналдык жарылуу
1. Auto-блок өндүрүүчүсү/метрика, 2) "жаман" этикеткаларды кесип, 3) ретро-агрегация, 4) пост-мортем жана линтер-эрежелер.
B. Өсүү queue lag P0
1. Артыкчылыкты киргизүү, 2) партияларды/консумерлерди кеңейтүү, 3) убактылуу P2 sampling азайтуу, 4) тар жерлерди талдоо.
C. күзүндө Freshness Display
1. Резервдик туташтыргычка өтүү, 2) деградация режимин күйгүзүү ("акыркы жыйынтыкталган"), 3) булактардын ээлерине кабарлоо.
D. метрде PII агып
1. токтоосуз агымын бөгөттөө, 2) ысык катмарда redaction, 3) DPO/Compliance билдирүү, 4) тактоо/SDK.
E. массалык 5xx/tracking каталар
1. Пейдж, 2) сэмплинг tail-based ↑ каталар үчүн, 3) критикалык маршруттун трейс-диагностикасы, 4) релиздин кайра чыгышы/фича-желек.
17) Киргизүү чек-тизмеси
1. Иш-чаралардын/метриктердин/соодалардын келишимдерин жана уруксат берилген лейблдердин тизмесин бекитүү.
2. QoS-класстарды, топиктер/кезектерди, quotas жана бюджет метрика баштоо.
3. Installate ingest (push/pull), TLS/mTLS, Retray жана боштук.
4. Метрика/окуялардын каталогдорун жана схемалардын линтерлерин киргизүү.
5. SLI/SLO аныктоо, burn-rate алерт жана эскалация.
6. Dashboard Ops/Pipelines/Tenant/Security куруу.
7. Chaos сыноо телеметрия (жоготуу/Життер/Спайк) баштоо.
8. Кардиналдуулукту, ретенцияны жана сактоо баасын үзгүлтүксүз ревизиялоо.
18) Глоссарий
QoS - сапаттуу/артыкчылыктуу жеткирүү класс.
Freshness - витринада маалыматтардын пайда болушунун кечеңдеши.
Burn-rate - SLO карата ката бюджеттин керектөө ылдамдыгы.
Cardinality - метрлердин уникалдуу катарларынын саны.
Tail-based sampling - "жай/ката" жолдорду тандоо.
Idempotency key - окуялардын кайталанышы үчүн ачкыч.
Жыйынтык: сигналдарды жана метриктерди бөлүштүрүү - бул жөн гана "графиктерди чогултуу жана көрсөтүү" эмес, контракттардын, QoS каналдарынын жана бюджеттердин тартиби. Экосистема бул фреймворкту ээрчип, болжолдонгон байкоо, жарылууга туруктуу, маалыматтарга жеке жана операциялык жана бизнес-контурдагы чечимдер үчүн пайдалуу болот.