GH GambleHub

عملیات و معیارهای عملکرد مدیریت

معیارهای عملکرد

1) چرا معیارهای عملکرد

عملکرد توانایی یک سیستم برای ارائه SLO های هدف در زمان پاسخ و توان عملیاتی با هزینه معین است. بدون متریک غیرممکن است:
  • تشخیص تخریب قبل از حوادث
  • پیش بینی ظرفیت و بودجه،
  • مقایسه جایگزین (کش در مقابل DB, gRPC در مقابل REST),
  • مدیریت رگرسیون پس از انتشار.

اصول: یک فرهنگ لغت واحد از معیارها، جمع آوری صدکها (p50/p90/p95/p99)، حسابداری جداگانه برای مسیرهای «گرم» و «سرد»، زمینه (نسخه، منطقه، ارائه دهنده، دستگاه).

2) طبقه بندی معیارها

2. 1 فریم های پایه SRE

چهار سیگنال طلایی: تاخیر، ترافیک، خطاها، اشباع.
RED (برای میکروسرویس ها): نرخ، خطا، مدت زمان.
USE (برای سخت افزار): استفاده، اشباع، خطاها.

2. 2 سطح

زیرساخت: CPU، RAM، دیسک، شبکه، ظروف، گره ها.
بستر های نرم افزاری/خدمات: نقاط پایانی API, صف, کش, پایگاه داده, اتوبوس رویداد.
تجربه مشتری: حیاتی وب، SDK های تلفن همراه، جریان، CDN.
پلت فرم داده: ETL/ELT، جریان، فروشگاه، تاخیر BI.
کسب و کار جریان بحرانی: مجوز، KYC، سپرده/پرداخت، دور بازی.

3) کاتالوگ معیارهای کلیدی و فرمول ها

3. 1 API و خدمات میکرو

RPS (درخواست در ثانیه)

تاخیر p50/p95/p99 (ms) - ترجیحا «پایان دادن به پایان» و «فقط باطن».
نرخ خطا (٪) = 5xx + 4xx اعتبار/تمام درخواست ها.
Saturation: میانگین طول صف کارکنان، درخواستهای حین پرواز.
نرخ شروع سرد (برای FaaS).

درخواست های کاهش یافته/کاهش یافته

مثال SLO: تاخیر p95 ≤ 250 میلی ثانیه با RPS تا 2k در منطقه اتحادیه اروپا شرق ؛ خطا ≤ 0 5%.

3. 2 پایگاه داده ها

QPS/معاملات/s، میانگین زمان پرس و جو، زمان پرس و جو p95.
قفل انتظار/بن بست، نسبت ردیف/شاخص ضربه، بافر کش خانم٪.
RepLag (تکرار)، زمان بازرسی/فلاش، تاخیر Autovacuum.
کلید های داغ/چوله - کلید N بالا توسط بار.

فرمول «درخواست های اصلی»: QPS/ vCPU_core_count → یک سیگنال برای sharding.

3. 3 کش و CDN

Hit Ratio (%), اخراج/بازدید کنندگان, P95 تاخیر, صدک اندازه مورد.
منبع تخلیه (٪) для CDN، TTFB، Stale-while-revalidate ضربه٪.

3. 4 صف/جریان

ورود/خروج msg/s، تاخیر مصرف کننده، میزان تعادل.
زمان پردازش p95، نرخ DLQ.

3. 5 زیرساخت ها/ظروف

استفاده از CPU٪، CPU دریچه گاز٪، طول صف را اجرا کنید.
حافظه RSS/کار مجموعه، OOM می کشد، گسل صفحه.
IOPS دیسک/تاخیر/توان، شبکه RTT/retransmits.
اشباع گره: غلاف در انتظار، فشار (CPU/حافظه/IO).

3. 6 مشتری وب (UX)

هسته وب حیاتی: LCP، INP، CLS.
TTFB، FCP، TTI، زمان بندی منابع (DNS، TLS، TTFB، دانلود).
نرخ خطا (JS)، وظایف طولانی، زمان تغییر مسیر SPA.

CDN Geo-Latency (درصد)

3. 7 مشتری موبایل

زمان شروع برنامه (سرد/گرم)، نرخ ANR، جلسات بدون تصادف٪.
شبکه دور سفر/جلسه، اندازه بار، تخلیه باتری/جلسه.

نرخ موفقیت آفلاین

3. 8 پلت فرم داده و گزارش

تاخیر طراوت (T-در حال حاضر → витрина)، ردیف توان/ثانیه، موفقیت شغلی٪.
هزینه هر TB پردازش شده، چوله توسط حزب، رویدادهای اواخر٪.
BI Time-to-Render P95 برای داشبورد های کلیدی.

3. 9 جریان بحرانی دامنه (به عنوان مثال iGaming)

Auth p95, KYC TTV (زمان برای تأیید), واریز/برداشت p95.
بازی مدت زمان دور P95, تاخیر تماس RNG, ارائه دهنده P95 RTT.
میزان موفقیت PSP پرداخت، SLA بررسی بازپرداخت.

4) Normalization، percentles و attribution

صدک در مقابل میانگین: ثابت P50/P90/P95/P99 - به طور متوسط صاف کردن اوج درد.
بخش ها: نسخه برنامه، منطقه، ارائه دهنده، کانال شبکه (4G/Wi-Fi)، دستگاه.
همبستگی: ما معیارهای «فقط باطن» و «کاربر واقعی» را برای زنجیره های علی مرتبط می کنیم.
نمونه/آثار: درصد شدید با آثار مرتبط است.

5) آستانه و هشدار (شبکه تقریبی)

p95 تاخیر (API هسته): هشدار> 250 ms، بحرانی> 400 ms 5 دقیقه در یک ردیف.
میزان خطا: هشدار> 0. 5٪، بحرانی> 2٪ (نقطه پایانی، جهانی نیست).
DB RepLag: هشدار> 2 s، بحرانی> 10 s.
تاخیر مصرف کننده کافکا (زمان): هشدار> 30 ثانیه، بحرانی> 2 دقیقه.
وب سایت LCP (p75): هشدار> 2. 5 s، بحرانی> 4 s.
ANR موبایل: هشدار> 0. 5٪، بحرانی> 1٪.
تازگی ETL: هشدار> + 15 دقیقه، بحرانی> 60 دقیقه от SLA.

ما از آستانه های استاتیک + تطبیقی (فصلی، الگوهای روز)، تقسیم بندی و گروه بندی هشدارها توسط خدمات/انتشار استفاده می کنیم.

6) تست عملکرد

انواع: پایه، استرس، طولانی مدت (خیس خوردن)، هرج و مرج (لینک های کاهش/PSP).
پروفایل های بار: برای معاملات واقعی (مبتنی بر توزیع)، «انفجار»، قله های منطقه ای.
اهداف: دستیابی به SLO با هدف RPS و عملیات مخلوط، اعتبار سنجی فشار به عقب.
معیارهای اجرا: توان، خطا٪، تاخیر p95، مکث GC، دریچه گاز CPU، تاخیر صف، هزینه/اجرا.

قانون رگرسیون: انتشار موفقیت آمیز در نظر گرفته می شود اگر p95> 10٪ با مشخصات برابر نباشد، و هزینه درخواست (CPU-ms/request) افزایش نیافته است> 15٪.

7) برنامه ریزی ظرفیت و قیمت/عملکرد

مدل تقاضا: RPS ساعت × متوسط کار/درخواست (CPU-ms، IO-ops).
Headroom: 30-50٪ حاشیه برای مسیرهای بحرانی، خودکار مقیاس بندی توسط P95.
KPI های هزینه: هزینه هر درخواست 1k، هزینه هر GB خدمت کرده است، $ در هر 1 p. p. پیشرفت LCP.
Caching/denormalization: خواندن «cache ROI» = (صرفه جویی در CPU-ms − هزینه کش).
مناطق گرم و سرد: بارگیری به CDN/لبه، تکرار فقط خواندنی.

8) شیوه های مشاهده و پروفایل

ردیابی: شناسه های توزیع شده در تمام هاپ ها ؛ نمونه گیری هوشمند (مبتنی بر دم) است.
معیارها: Prometheus/OpenTelemetry، نماد تک نام و برچسب.
سیاهههای مربوط: با همبستگی ردیابی/طول، بودجه برای ورود به سیستم سر و صدا، ویرایش PII.
پروفایل: پروفایل CPU/Heap/A/Lock، پروفایل مداوم (eBPF).
نمونه های نمونه: انفجار P99 مرتبط با یک تماس خاص/SQL/PSP.

9) معیارهای انتشار و تیم (برای کامل بودن)

DORA: فرکانس استقرار، زمان سرب، تغییر نرخ شکست، MTTR.
فضا: رضایت، عملکرد، فعالیت، ارتباطات، کارایی.
این معیارها در مورد آهن نیستند، اما به طور مستقیم بر ثبات عملکرد تاثیر می گذارد.

10) ضد الگوهای

میانگین تعقیب: نادیده گرفتن p95/p99.
نرخ خطای «جهانی»: نقاط پایانی دردناک را پنهان می کند.
بدون انتساب توسط نسخه ها: گرفتن رگرسیون مشتری غیرممکن است.
هشدار هرزنامه: آستانه بدون هیسترزیس و اصلاح فصلی.
بهینه سازی کور: بدون درجه بندی یا ردیابی.

مخلوط کردن UX و تأخیر باطن: نتیجه گیری نادرست از تجربه مشتری

11) چک لیست

استاندارد متریک یکپارچه

  • فرهنگ لغت معیارها با فرمول ها، واحدها، صاحبان
  • درصد اجباری p50/p90/p95/p99
  • ردیابی همبستگی و ورود به سیستم همبستگی
  • برچسب ها: منطقه, نسخه, ارائه دهنده, دستگاه, کانال شبکه
  • آستانه با هیسترزیس و deduplication

قبل از انتشار

  • پایه p95/p99 در مرحله و تحریک
  • ترافیک قناری + A/B مقایسه متریک
  • ویژگی پرچم برگشت سریع
  • دفترچه نظارت

به طور منظم

  • کمترین بالا N پرس و جو/SQL نقد و بررسی
  • سیاست های حافظه پنهان حسابرسی و TTL
  • بررسی طراوت و تکرار پایگاه داده
  • تست های تخریب ارائه دهنده خارجی (PSP، KYC)

12) کتاب های کوچک (به عنوان مثال)

تخریب p95/api/پرداخت

1. بررسی خطا% و زمانهای خارجی PSP.
2. چک کردن صف تاخیر مصرف کننده collbecks.

3. مشاهده نمونه های p99 ردیابی تنگنا SQL/HTTP ؟

4. فعال کردن پوشه/محدود کردن حافظه پنهان، کاهش N + 1.
5. بودجه: به طور موقت منابع کارگران را 20٪ افزایش می دهد، شامل مقیاس خودکار است.
6. پس از رفع: شاخص توسط (psp_id، وضعیت، created_at)، retray-jitter.

رشد RepLag در DB

1. درخواست های «سنگین» و معاملات طولانی را بررسی کنید.
2. افزایش همزمانی تکرار، تنظیم بازرسی.
3. بارگیری فقط حافظهٔ پنهان/المثنی.
4. در پنجره اوج - دنورم جزئی + دسته.

13) نمونه هایی از فرمول/SQL (ساده شده)

نرخ خطا توسط نقطه پایانی

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

p95 تاخیر (TDigest/تقریبا)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

تاخیر مصرف کننده (زمان)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

وب سایت LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) جاسازی در داشبورد و گزارش

کارت های KPI: تاخیر p95، خطا٪، RPS، اشباع با روند WoW/DoD.
بالا N «بدترین» endpoints/SQL/منابع، قابل کلیک مته پایین → ردیابی.
نسخه مشتری همبستگی: ستون «نسخه → p95 LCP/INP → تبدیل».
نقشه جهان: تأخیر جغرافیایی (CDN)، تأخیر PSP بر اساس منطقه.
پانل SLO: سهم زمان در SLO، سقوط از SLO، «بودجه خطا».

15) مجموع

معیارهای عملکرد یک رشته سیستم هستند: واژگان تک، صدکها، اسناد، قابلیت مشاهده خوب و SLO های دقیق. با ترکیب فنی (تاخیر، تاخیر، بازدید کش) و سیگنال های محصول (زمان KYC، سپرده P95، LCP)، کیفیت تجربه و هزینه تحویل آن را مدیریت می کنید - قابل پیش بینی و مقیاس پذیر.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.