GH GambleHub

توزیع سیگنال ها و معیارها

(بخش: اکوسیستم و شبکه)

1) هدف و منطقه

توزیع سیگنال و متریک یک روش سازگار برای جمع آوری، عادی سازی و ارائه تله متری (رویدادها، معیارها، سیاههها، ردیابی ها، وضعیت های بهداشتی) به همه شرکت کنندگان علاقه مند است: اپراتورها، ارائه دهندگان محتوا، خدمات پرداخت/CCM، پل ها، گره های شبکه، شرکت های وابسته و تیم های SRE/BI/Compliance. اهداف:
  • زبان تلهمتری یکپارچه و قراردادهای داده
  • کانال های مدیریت QoS: اولویت سیگنال های بحرانی.
  • SLI/SLO شفاف و هشدار قابل پیش بینی.
  • حریم خصوصی، انزوا و معیارهای صرفه جویی در بودجه

2) طبقه بندی سیگنال

1. رویدادهای کسب و کار: onboarding، سپرده/پرداخت، رویدادهای بازی، انتساب.
2. معیارهای فنی: تاخیر/توان/کد خطا، صف، استفاده از CPU/RAM/IO.
3. سیاهههای مربوط: نوشته های ساختار یافته در مورد عملیات و خطاها.
4. ردیابی: پرس و جو/دامنه موضوع، همبستگی هاپ به هاپ.
5. وضعیت سلامت: پروب مصنوعی، آمادگی/زنده بودن، گره های ضربان قلب.
6. سیگنال های ریسک/انطباق: بازدید KYC/KYB/AML، رویدادهای تحریم.

هر کلاس دارای سطح بحرانی خود و سیاست ذخیره سازی/تحویل است.

3) معماری توزیع (مرجع)

جمع کننده های لبه (SDK/agents) → Ingress (HTTP/OTLP/gRPC/QUIC) → Bus (Kafka/Pulsar) → پردازنده ها (مشاغل جریان) → ذخیره سازی (TSDB برای معیارها، شی/ستون - برای سیاهههای مربوط/رویدادها، ردیاب) → ویترین/داشبورد/هشدار.
چند اجاره: namespace/tenant-id در کلید، سهمیه/محدودیت های فردی/ACL.
بخش بندی QoS: بحرانی (P0)، مهم (P1)، پس زمینه (P2).
خروج: مشترکین (Ops/BI/شخص ثالث) از طریق اشتراک به موضوعات و دیدگاه های تحقق یافته.

4) قراردادها و طرح ها (رویدادها/معیارها/مسیرهای پیاده سازی)

4. 1 رویدادها (ساده شده، YAML)

yaml event:
id: uuid kind: business    ops    risk ts: timestamp    # ISO8601 tenant: string    # org_id/namespace source: string    # service/peer-id trace_id: string type: string     # deposit. created    payout. failed    probe. ok...
attrs: object # semantic fields (no PII)
severity: info    warn    error    critical qos: P0    P1    P2

4. 2 معیارها (OpenMetrics/OTLP)

سنج/شمارنده/هیستوگرام با برچسب های پایدار (کاردینالیتی محدود).
شناسه ها: 'metric _ name {service, region, tenant, version, route}'.
هیستوگرام برای تأخیر/ابعاد به جای p99 در کد.

4. 3 مسیرهای پیاده روی

فیلدهای مورد نیاز عبارتند از: «trace _ id», «span _ id», «parent _ id», «service», «peer», «route», «qos».
لینک بین دامنه (مصرف کننده/تولید کننده) و هاپ شبکه (رله/پل).

5) QoS و اولویت بندی

P0 (بحرانی): SLI پرداخت/پرداخت, وضعیت پل/گره, سوزاندن نرخ SLO → تحویل سخت (acks, retries, idempotency), حداقل وقفه.
P1 (مهم): رویدادهای محصول/معیارهای کلیدی → تحویل تضمین شده در SLO.
P2 (پس زمینه): سیاهههای مربوط دقیق، اشکال زدایی → بهترین تلاش، شما می توانید رها کردن زمانی که بیش از حد.

سیاستمداران: صف های مختلف، سهمیه برای تولید کنندگان، فشار پشتی، محدودیت نرخ، پدربزرگ توسط «idempotency _ key».

6) بودجه کاردینالیتی و معیارها

قانون 6 برچسب: بیش از 6 کلید در هر متریک، فرهنگ لغت ثابت از ارزش.
کاردینالیتی ≤ سری زمانی 10k/متریک/مستاجر.
نمونه برداری: بر اساس سر/دم برای ردیابی ؛ downsampling 10s → 1m → 5m → 1h metrics.
سهمیه: محدودیت نقاط/ثانیه و بایت/ثانیه در هر چادر و در هر کلاس QoS.
طرح های خطی: معیارهای با برچسب های «انفجار» (شناسه، ایمیل، آی پی و غیره) را رد می کند.

7) جمع آوری و تحویل: فشار در مقابل کشیدن

فشار (OTLP/StatsD/HTTP): انعطاف پذیری، مشتریان تلفن همراه/لبه، کانال های P0.
کشیدن (Prometheus): زیرساخت های داخلی، اهداف قابل پیش بینی.
ترکیبی: صادر کنندگان → دروازه → TSDB ؛ خراشهای فدرال برای مناطق.
حمل و نقل: QUIC/HTTP/2، فشرده سازی، بچ، TLS/mTLS، retray با لرزش.

8) SLI/SLO و هشدار

8. 1 SLI های اساسی

در دسترس بودن٪ نقاط پایانی/دروازه،

تاخیر p50/p95/p99 در مسیرهای بحرانی،

نرخ خطا (5xx/timeout/abort)،

تاخیر تحویل توسط اتوبوس، عمق صف،

طراوت پنجره فروشگاه (مصرف → خدمت تاخیر).

8. 2 نمونه های SLO

P0 خطوط لوله: در دسترس بودن ≥ 99. 95٪، تاخیر p99 ≤ 400 мс، تاخیر تحویل p95 ≤ 2 с.
P1: در دسترس بودن ≥ 99. 9٪، طراوت p95 ≤ 3 دقیقه.
P2: طراوت p95 ≤ 15 мин، بدون صفحه.

8. 3 هشدار سوختگی (به عنوان مثال)

پنجره 2 ساعته: 'error _ budget _ burn ≥ 2 ×' → صفحه

پنجره 6 ساعته: 'error _ budget _ burn ≥ 1 ×' → صفحه/تشدید.
ترکیب با «queue _ lag» و «drop _ rate» P0.

9) غرفه و retentions

معیارهای TSDB: فرکانس بالا - 7-14 روز ؛ مجموع - 6-12 ماه

رویدادها/سیاهههای مربوط: ذخیره سازی گرم 7-30 روز، سرد (شی) 6-24 ماه است.
مسیرهای پیاده روی: نمونه برداری 1-10٪ ؛ صرفه جویی در «آهسته/نادرست» دهانه (دم بر اساس).
سیاست های حذف/تجدید نظر برای PII و درخواست های موضوع داده.

10) حفظ حریم خصوصی، امنیت و انزوا

minimization PII: tokenization/pseudonymization از زمینه ها، ممنوعیت شناسه های «خام» در معیارها.
امضاهای mTLS/رویداد، پین کردن کلید تولید کننده.
ACL/ABAC در موضوعات/خدمات/مستاجران، کلید جداگانه برای نوشتن/خواندن.
sandboxing مستاجر: جدایی منطقی/فیزیکی، محدودیت و نرخ محدود در هر مستاجر.
دنباله حسابرسی: بدون تغییر سیاهههای مربوط از دسترسی/تغییرات به تنظیمات.

11) جریان پردازش (شغل جریان)

غنی سازی: عادی سازی، geo/version/traffic class.
مجموع: ویندوز 10S/1M/5M، هیستوگرام، طرح چندک.
تشخیص: ناهنجاری ها (EWMA/ESD)، رانش توزیع ها، انفجار صف ها.
مسیر: طرفداران به شرکای نمایشگاه/هشدار/webhooks.
گارد: «دکمه قرمز» - throttling/kill-switch by source/topic.

12) داشبورد (طرح بندی مرجع)

هسته عملیات (ساعت/زمان واقعی): تاخیر p95، نرخ خطا، تاخیر تحویل، عمق صف، میزان موفقیت در مصرف.
بهداشت خطوط لوله: طراوت در هر خط لوله، افت فشار، فشار پشتی، SLO سوختگی.
استفاده مستاجر: ردیف/ثانیه، بایت/ثانیه، کاردینالیتی، برچسب های بالا.
امنیت/انطباق: وضعیت mTLS، کلید انقضا، دسترسی، تجدید نظر PII.
لنز کسب و کار: تبدیل/پرداخت/SLI پل در کنار معیارهای تکنولوژی.

13) نمونه های پیکربندی

کلاس های QoS و محدودیت ها (YAML)

yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5

برچسب های متریک (سیاست)

yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000

هشدار سوختگی نرخ

yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]

14) طرح داده ها و نمایش داده ها

ثبت نام متریک (دایرکتوری)

sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);

صف و تاخیر

sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;

کاردینالیتی چادر

sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;

15) فرآیندها و نقش ها

مالک تله متری - طرح ها/سیاست ها/سهمیه ها، کنترل کاردینالیتی.
SRE/Ops - SLO، هشدار، حوادث، مقیاس بندی.
امنیت/انطباق - کلید، دسترسی، PII، ممیزی.
محصول/BI - ویترین KPI، تجزیه و تحلیل، معیارهای A/B.
مستاجران (شرکا) - ادغام SDK صحیح، انطباق قرارداد.

16) حوادث کتاب بازی

A. انفجار کاردینالیتی

1. خودکار بلوک تولید کننده/معیارهای, 2) قطع «بد» برچسب, 3) جمع آوری یکپارچهسازی با سیستمعامل, 4) پس از مرگ و قوانین لینتر.

B. افزایش تاخیر صف P0

1. شامل اولویت، 2) گسترش احزاب/مصرف کنندگان، 3) به طور موقت نمونه برداری P2 را کاهش دهد، 4) تجزیه و تحلیل تنگنا.

C. سقوط فروشگاه های تازه

1. به اتصال پشتیبان بروید، 2) حالت تخریب («آخرین نهایی») را روشن کنید، 3) صاحبان منبع را مطلع کنید.

D. نشت PII در معیارها

1. مسدود کردن جریان فوری، 2) اصلاح در لایه داغ، 3) اطلاع رسانی DPO/انطباق، 4) به روز رسانی lenter/SDK.

E. خطاهای عظیم 5xx/ردیابی

1. صفحه، 2) ↑ نمونه گیری مبتنی بر دم برای خطاها، 3) تشخیص مسیر ردیابی بحرانی، 4) انتشار پرچم عقب/ویژگی.

17) چک لیست پیاده سازی

1. تأیید قراردادهای رویداد/متریک/ردیابی و لیستی از برچسب های قابل قبول.
2. کلاس های QoS، موضوعات/صف ها، سهمیه ها و بودجه معیارها را ایجاد کنید.
3. تنظیم مصرف (فشار/کشیدن)، TLS/mTLS، retrai و idempotency.
4. شامل metrics/event directories و schema linters.
5. SLI/SLO، هشدار سوختگی و تشدید را تعریف کنید.
6. ساخت داشبورد Ops/خطوط لوله/مستاجر/امنیت.
7. اجرای آزمون هرج و مرج تله متری (از دست دادن/لرزش/چسبندگی).
8. به طور مرتب هزینه های نگهداری، نگهداری و ذخیره سازی را تجدید نظر کنید.

18) واژه نامه

QoS - کلاس کیفیت/اولویت تحویل.
تازگی - تاخیر در ظاهر داده ها در ویترین.
نرخ سوختن - میزان مصرف بودجه خطا نسبت به SLO.
Cardinality - تعداد ردیف های منحصر به فرد از معیارها (ترکیب برچسب).
نمونه گیری مبتنی بر دم - مجموعه ای از آثار «آهسته/اشتباه».
کلید Idempotency - کلید برای تکرار رویداد deduplication.

خط پایین: توزیع سیگنال ها و معیارها فقط «جمع آوری و نشان دادن نمودار» نیست، بلکه نظم و انضباط قراردادها، کانال های QoS و بودجه است. با پیروی از این چارچوب، اکوسیستم قابلیت مشاهده قابل پیش بینی، مقاوم در برابر انفجار، داده های خصوصی و مفید برای تصمیم گیری در هر دو زمینه عملیاتی و تجاری را به دست می آورد.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.