GH GambleHub

Ազդանշանների և մետրի բաշխումը

(Բաժին ՝ Էկոհամակարգ և ցանց)

1) Նպատակը և տարածքը

Ազդանշանների և մետրերի բաշխումը համակարգված միջոց է հավաքել, նորմալացնել և հասցնել հեռաչափություն (իրադարձություններ, մետրեր, լոգներ, ճանապարհներ, առողջության արձաններ) բոլոր հետաքրքրված մասնակիցներին 'օպերատորներին, բովանդակության պրովայդերներին, բյուջետային/CUS ծառայություններին, կամուրջներին, ցանցի հանգույցներին, աֆիլիատներին և MSE/BI/Comiplics թիմերին։ Նպատակները

Հեռուստատեսության միասնական լեզուն և տվյալների պայմանագրերը։

Կառավարվող QoS ալիքները 'կրիտիկական ազդանշանների գերակայությունը։

Թափանցիկ SLI/SLO և կանխատեսելի ալերտինգը։

Գաղտնիությունը, մեկուսացումը և բյուջեի խնայողությունները մետտրիկ են։

2) Ազդանշանների տաքսոնոմիա

1. Բիզնես իրադարձություններ 'ուռուցքաբանություն, դեպոզիտներ/վճարումներ, խաղային իրադարձություններ, խորհրդատվություն։

2. Այդ մետրերը ՝ latency/throughput/սխալի կոդը, հերթը, CPU/RAM/IO օգտագործումը։

3. Լոգներ 'կառուցվածքային գրառումներ վիրահատությունների և սխալների մասին։

4. Հետքեր 'հարցումների/տոպիկների քնած, hop-to-hop հարաբերակցությունը։

5. Առողջության կարգավիճակները ՝ inthetic probes, readess/liveness, heartbeat հանգույցներ։

6. Ռիսկի/կոմպլանսի ազդանշաններ ՝ KYC/KYB/AML հիթեր, սանկցիոն իրադարձություններ։

Յուրաքանչյուր դասարան ունի իր քննադատության մակարդակը և պահպանման/առաքման քաղաքականությունը։

3) Բաշխման ճարտարապետությունը (հանրաքվե)

Edge-կոլեկցիոներներ (Kafka/Pulsar) wwww.Ingress (HTTLP/gRPC/QUIC) NO (TSDB metric) Կոլոնոչնայա 'լոգարանների/իրադարձությունների համար, ուղեկիցը) Witrina/dashbords/alerta։

Multi-tenanty: namespace/tenae-id բաների մեջ, առանձին delta/limits/ACL։

QoS-ի հատվածները ՝ կրիտիկական (P0), կարևոր (P1), ֆոնային (P2)։

Egress: ստորագրողներ (Ops/BI/Third-party) տոպիկների և materialized views-ի միջոցով։

4) Պայմանագրեր և սխեմաներ (իրադարձություններ/մետրեր/treiss)

4. 1 Իրադարձություններ (պարզեցված, YAML)

yaml event:
id: uuid kind: business    ops    risk ts: timestamp    # ISO8601 tenant: string    # org_id/namespace source: string    # service/peer-id trace_id: string type: string     # deposit. created    payout. failed    probe. ok...
attrs: object # semantic fields (no PII)
severity: info    warn    error    critical qos: P0    P1    P2

4. 2 Metriki (OpenMetrae/OTLP)

Gauge/Counter/Histogram կայուն պիտակներով (սահմանափակ կարդինալություն)։

Ցուցանիշներ ՝ "metric _ name + www.ru, region, tenault, version, rope +։

Հիստոգրամները լատենտության/չափի համար կոդով p99-ի փոխարեն։

4. 3 Treiss

Պարտադիր դաշտերը ՝ «trace _ id», «բանաձև _ id», «parent _ id», «peer», «rope», «qos»։

Ոսպնյակների (consumer/winder) և ցանցային հոփների միջև (relay/bridge)։

5) QoS-ը և գերակայությունը

P0 (կրիտիկական) 'SLI վճարումներ/վճարումներ, կամուրջների/հանգույցների արձաններ, burn-rate SLO-ն խիստ առաքում է (acks, retries, idempotent), նվազագույն թայմաուտներ։

P1 (կարևոր) 'ապրանքային իրադարձություններ/հիմնական մետրերը երաշխավորված են SLO-ի սահմաններում։

P2 (ֆոն) 'մանրամասն լոգներ, ճշգրտումներ www.best-eff.ru, կարող եք անցնել բեռնման ժամանակ։

Քաղաքական գործիչները ՝ տարբեր գծեր, արտադրողների, backpressure, rate-limits, dedup 'idempotency _ key։

6) Կարդինալությունը և մետրի բյուջեն

Կանոնը 6 պիտակ է ՝ ոչ ավելի, քան 6 նմ մետրիկ, ֆիքսված արժեքների բառարաններ։

Կարդինալություն 10k 108 շարքերի/մետրիկայի/տենանտ։

Սեմպլյացիան 'head-/tail-based ուղու համար; downsampling metric 10s 241m 355m 41h։

Դելտաս 'կետերի/վայրկյանների և բայթերի/վրկ tentram-ի և QoS-ի դասարանի վրա։

Լինթեր սխեմաներ 'շեղում է մետրերը «պայթող» պիտակների հետ (id, email, ip և այլն)։

7) Հավաքում և առաքում ՝ push vs p.ru

Push (OTLP/STATSD/HTP) 'ճկունություն, բջջային/edge հաճախորդներ, P0 ալիքներ։

Pox (Prometheus) 'ներքին ենթակառուցվածքը, կանխատեսելի targets։

Հիբրիդ ՝ exporters www.gateway www.TSDB; federated scrapes տարածաշրջանների համար։

Transport: QUIC/HTTP/2, ագրեսիա, բատչիզացիա, TMS/mTRK, ջիթերի հետ։

8) SLI/SLO և alerting

8. 1 Հիմնական SLI

Availability տոկոսը endpoints/նավակներ,

Latency p50/p95/p99 կրիտիկական ճանապարհներով,

Error-rate (5xx/timeout/abort),

Delivery lag անվադողերով, Queue depth,

Freshness Vitrine (ingest world)։

8. 2 SLO օրինակներ

P0 pipelines: Availability ≥ 99. 95%, p99 latency ≤ 400 мс, Delivery lag p95 ≤ 2 с.

P1: Availability ≥ 99. 9 տոկոսը, Freshness p95 243 ռուբլիներ

P2: Freshness p95 ≤ 15 мин, no-page.

8. 3 Burn-rate alerta (օրինակ)

2-ժամյա պատուհան '"error _ budget _ burn no 2 me' leage։

6-ժամյա պատուհան '"error _ budget _ burn no. 1 me' wwww.ege/էսկալացիա։

Համատեղել «queue _ lag» և «drop _ rate 'P0» -ի հետ։

9) Մոսկվան և վերականգնումը

TSDB մետրիկ 'բարձր հաճախականություն' 7-14 օր; ագրեգատները 6-12 մեզ են։

Իրադարձություններ/լոգներ ՝ 7-30 օրվա տաք պահեստ, սառը (օբյեկտի) 6-24 մեզ։

Թրեյսներ ՝ 1-10 տոկոսը։ «դանդաղ/սխալ» սպանների պահպանումը (tail-based)։

Քաղաքական գործիչները PII-ի համար և տվյալների սուբյեկտների հարցումները։

10) Գաղտնիությունը, անվտանգությունը և մեկուսացումը

PII-նվազեցումը 'դաշտերի թունայնացումը/կեղծանունացումը, «հում» լուծիչների արգելքը մետրիներում։

MTSA/իրադարձությունների ստորագրությունները, pinning ռուսական արտադրողներին։

ACL/ABAC թեմաների/ծառայությունների/ստենանտների, առանձին բանալիների համար write/read։

Tenault sandboxing: տրամաբանական/ֆիզիկական բաժանումը, լիմիտները և rate-limit per tenae։

Audit trail: անփոփոխ մուտքի/գենդերային փոփոխությունների ամսագրեր։

11) Վերամշակման հոսքերը (stream jobs)

Enrich: նորմալացում, գեո/տարբերակը/դասարանը։

Aggregate: 10s/1m/5m, հիստոգրամներ, քվանտային էսքիզներ։

Detault: անոմալիաներ (EWMA/ESD), բաշխման դրաֆթ, հերթերի ավելացում։

Rober: fan-aut վիտրինի/alerters/webhuks գործընկերներ։

Guard: «կարմիր կոճակը» - throttling/kill-switch աղբյուրով/թեմայով։

12) Դաշբորդները (հանրաքվեներ)

Ops Express (ժամ/real-timm): p95 latency, error-rate, divery lag, queue depth, sucess-rate ingest։

Pipelines Health: freshness per pipeline, drop-rate, backpressure, burn-rate SLO.

Tenault Usage: շարքեր/վայրկյան, բայթ/վայրկյան, կարդինալություն, top-labels։

System/Compli.ru: mTSA կարգավիճակներ, ստացման բանալիներ, հասանելի, PII։

Business Lens: փոխարկումներ/վճարումներ/կամուրջ SLI-ը այդ մետրերի մոտ։

13) Միգրացիայի օրինակներ

QoS դասարանները և սահմանները (YAML)

yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5

Լեյբլները մետրիկ (քաղաքականություն)

yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000

Alerta burn-rate

yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]

14) Տվյալների և հարցումների սխեմաները

Գրանցում մետրիկ (կատալոգ)

sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);

Հերթերն ու լագը

sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;

Tentant

sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;

15) Գործընթացներ և դերեր

Telemetry Owner - սխեմաներ/քաղաքականություն/քվոտաներ, կարդինալության վերահսկողություն։

MSE/Ops - SLO, ալերտներ, միջադեպեր, մասշտաբներ։

System/Compliance - բանալիներ, հասանելի, PII, աուդիտներ։

Cort/BI-ը KPI-ի վիտրինն է, վերլուծաբանը, A/B-մետրիկները։

Tenants (գործընկերներ) - RPK ճիշտ ինտեգրումը, ինտեգրման պահպանումը։

16) Playbook 2019

Ա. Կարդինալիզմի պայթյունը

1. Avto-բլոկը արտադրողի/մետրիկայի, 2) մենք դասակարգում ենք «վատ» պիտակները, 3) ռետրո ագրեգացիան, 4) փոստի մորտը և ոսպնյակների կանոնները։

B. queue lag P0

1. Միացրեք առաջնահերթությունը, 2) ընդլայնել կուսակցությունը/կոնսյուրմերը, 3) ժամանակավորապես նվազեցնել P2 sampling, 4) նեղ տեղերի վերլուծությունը։

C. Freshness Vitrine

1. Անցեք պահեստային կոնեկտորին, 2) միացրեք դեգրադացիոն ռեժիմը («վերջին ավարտված»), 3) տեղեկացնել աղբյուրների սեփականատերերին։

D. Արտահոսք PII մետրերում

1. Պլանավորվում է հոսքի արգելափակումը, 2) redaction տաք շերտի վրա, 3) DPO/Compliance, 4) լենտերների/MSK-ի նորացումը։

E. զանգվածային 5x/ուղու սխալները

1. Փեյջը, 2) sempling tail-based-ը սխալների համար, 3) քննադատական պարամետրերի թրեյսի ախտորոշումը, 4) արձագանքել ռոտա/ֆիչի դրոշը։

17) Chek-Lister-ը ներդրման

1. Հաստատել իրադարձությունների/մետրի/թրեյսների պայմանագրերը և թույլատրելի պիտակների ցանկը։

2. QoS դասարաններ, տոպիկներ/հերթեր, www.tas և մետրի բյուջե։

3. Տեղադրեք ingest (push/p.ru), TSA/mTSA, repray և idempotenty։

4. Միացրեք ֆայլերը և մեթրիկը/իրադարձությունները և սխեմաների ոսպնյակները։

5. Որոշեք SLI/SLO, burn-rate alerts և էսկալացիա։

6. Կառուցել dashbords Ops/Pipelines/Tenault/Lenta.ru։

7. Սկսել հեռուստացույցի chaos թեստերը (կորուստներ/jitter/սպայկի)։

8. Պարբերաբար ստուգել կարդինալությունը, վերականգնումը և պահպանման արժեքը։

18) Գլոսարիա

QoS-ը որակի դասն է/առաքման գերակայությունը։

Freshness-ը վիտրինում տվյալների հայտնվելն է։

Burn-rate-ը SLO-ի հետ բյուջեի հոսքի արագությունն է։

Cardinality-ը մետրիկի յուրահատուկ շարքերի քանակն է (լեյբլի համադրություններ)։

Tail-based sampling-ը «դանդաղ/սխալ» ուղիների ընտրությունն է։

Idempotency key-ը իրադարձությունների կրկնօրինակման բանալին է։

Արդյունքն այն է, որ ազդանշանների և մետրիկի բաշխումը ոչ միայն «հավաքել և ցույց տալ գրաֆիկները», այլ ստանդարտ կարգապահությունը, QoS ալիքները և շարժիչները։ Հետևելով այս շրջանակին ՝ էկոհամակարգը ստանում է կանխատեսելի դիտարկում, դիմացկուն է աճին, մասնավոր տվյալների և օգտակար լուծումների համար ինչպես վիրահատական, այնպես էլ բիզնես կոնտեքստում։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։