عملیات و معیارهای عملکرد مدیریت
معیارهای عملکرد
1) چرا معیارهای عملکرد
عملکرد توانایی یک سیستم برای ارائه SLO های هدف در زمان پاسخ و توان عملیاتی با هزینه معین است. بدون متریک غیرممکن است:- تشخیص تخریب قبل از حوادث
- پیش بینی ظرفیت و بودجه،
- مقایسه جایگزین (کش در مقابل DB, gRPC در مقابل REST),
- مدیریت رگرسیون پس از انتشار.
اصول: یک فرهنگ لغت واحد از معیارها، جمع آوری صدکها (p50/p90/p95/p99)، حسابداری جداگانه برای مسیرهای «گرم» و «سرد»، زمینه (نسخه، منطقه، ارائه دهنده، دستگاه).
2) طبقه بندی معیارها
2. 1 فریم های پایه SRE
چهار سیگنال طلایی: تاخیر، ترافیک، خطاها، اشباع.
RED (برای میکروسرویس ها): نرخ، خطا، مدت زمان.
USE (برای سخت افزار): استفاده، اشباع، خطاها.
2. 2 سطح
زیرساخت: CPU، RAM، دیسک، شبکه، ظروف، گره ها.
بستر های نرم افزاری/خدمات: نقاط پایانی API, صف, کش, پایگاه داده, اتوبوس رویداد.
تجربه مشتری: حیاتی وب، SDK های تلفن همراه، جریان، CDN.
پلت فرم داده: ETL/ELT، جریان، فروشگاه، تاخیر BI.
کسب و کار جریان بحرانی: مجوز، KYC، سپرده/پرداخت، دور بازی.
3) کاتالوگ معیارهای کلیدی و فرمول ها
3. 1 API و خدمات میکرو
RPS (درخواست در ثانیه)
تاخیر p50/p95/p99 (ms) - ترجیحا «پایان دادن به پایان» و «فقط باطن».
نرخ خطا (٪) = 5xx + 4xx اعتبار/تمام درخواست ها.
Saturation: میانگین طول صف کارکنان، درخواستهای حین پرواز.
نرخ شروع سرد (برای FaaS).
درخواست های کاهش یافته/کاهش یافته
مثال SLO: تاخیر p95 ≤ 250 میلی ثانیه با RPS تا 2k در منطقه اتحادیه اروپا شرق ؛ خطا ≤ 0 5%.
3. 2 پایگاه داده ها
QPS/معاملات/s، میانگین زمان پرس و جو، زمان پرس و جو p95.
قفل انتظار/بن بست، نسبت ردیف/شاخص ضربه، بافر کش خانم٪.
RepLag (تکرار)، زمان بازرسی/فلاش، تاخیر Autovacuum.
کلید های داغ/چوله - کلید N بالا توسط بار.
فرمول «درخواست های اصلی»: QPS/ vCPU_core_count → یک سیگنال برای sharding.
3. 3 کش و CDN
Hit Ratio (%), اخراج/بازدید کنندگان, P95 تاخیر, صدک اندازه مورد.
منبع تخلیه (٪) для CDN، TTFB، Stale-while-revalidate ضربه٪.
3. 4 صف/جریان
ورود/خروج msg/s، تاخیر مصرف کننده، میزان تعادل.
زمان پردازش p95، نرخ DLQ.
3. 5 زیرساخت ها/ظروف
استفاده از CPU٪، CPU دریچه گاز٪، طول صف را اجرا کنید.
حافظه RSS/کار مجموعه، OOM می کشد، گسل صفحه.
IOPS دیسک/تاخیر/توان، شبکه RTT/retransmits.
اشباع گره: غلاف در انتظار، فشار (CPU/حافظه/IO).
3. 6 مشتری وب (UX)
هسته وب حیاتی: LCP، INP، CLS.
TTFB، FCP، TTI، زمان بندی منابع (DNS، TLS، TTFB، دانلود).
نرخ خطا (JS)، وظایف طولانی، زمان تغییر مسیر SPA.
CDN Geo-Latency (درصد)
3. 7 مشتری موبایل
زمان شروع برنامه (سرد/گرم)، نرخ ANR، جلسات بدون تصادف٪.
شبکه دور سفر/جلسه، اندازه بار، تخلیه باتری/جلسه.
نرخ موفقیت آفلاین
3. 8 پلت فرم داده و گزارش
تاخیر طراوت (T-در حال حاضر → витрина)، ردیف توان/ثانیه، موفقیت شغلی٪.
هزینه هر TB پردازش شده، چوله توسط حزب، رویدادهای اواخر٪.
BI Time-to-Render P95 برای داشبورد های کلیدی.
3. 9 جریان بحرانی دامنه (به عنوان مثال iGaming)
Auth p95, KYC TTV (زمان برای تأیید), واریز/برداشت p95.
بازی مدت زمان دور P95, تاخیر تماس RNG, ارائه دهنده P95 RTT.
میزان موفقیت PSP پرداخت، SLA بررسی بازپرداخت.
4) Normalization، percentles و attribution
صدک در مقابل میانگین: ثابت P50/P90/P95/P99 - به طور متوسط صاف کردن اوج درد.
بخش ها: نسخه برنامه، منطقه، ارائه دهنده، کانال شبکه (4G/Wi-Fi)، دستگاه.
همبستگی: ما معیارهای «فقط باطن» و «کاربر واقعی» را برای زنجیره های علی مرتبط می کنیم.
نمونه/آثار: درصد شدید با آثار مرتبط است.
5) آستانه و هشدار (شبکه تقریبی)
p95 تاخیر (API هسته): هشدار> 250 ms، بحرانی> 400 ms 5 دقیقه در یک ردیف.
میزان خطا: هشدار> 0. 5٪، بحرانی> 2٪ (نقطه پایانی، جهانی نیست).
DB RepLag: هشدار> 2 s، بحرانی> 10 s.
تاخیر مصرف کننده کافکا (زمان): هشدار> 30 ثانیه، بحرانی> 2 دقیقه.
وب سایت LCP (p75): هشدار> 2. 5 s، بحرانی> 4 s.
ANR موبایل: هشدار> 0. 5٪، بحرانی> 1٪.
تازگی ETL: هشدار> + 15 دقیقه، بحرانی> 60 دقیقه от SLA.
ما از آستانه های استاتیک + تطبیقی (فصلی، الگوهای روز)، تقسیم بندی و گروه بندی هشدارها توسط خدمات/انتشار استفاده می کنیم.
6) تست عملکرد
انواع: پایه، استرس، طولانی مدت (خیس خوردن)، هرج و مرج (لینک های کاهش/PSP).
پروفایل های بار: برای معاملات واقعی (مبتنی بر توزیع)، «انفجار»، قله های منطقه ای.
اهداف: دستیابی به SLO با هدف RPS و عملیات مخلوط، اعتبار سنجی فشار به عقب.
معیارهای اجرا: توان، خطا٪، تاخیر p95، مکث GC، دریچه گاز CPU، تاخیر صف، هزینه/اجرا.
قانون رگرسیون: انتشار موفقیت آمیز در نظر گرفته می شود اگر p95> 10٪ با مشخصات برابر نباشد، و هزینه درخواست (CPU-ms/request) افزایش نیافته است> 15٪.
7) برنامه ریزی ظرفیت و قیمت/عملکرد
مدل تقاضا: RPS ساعت × متوسط کار/درخواست (CPU-ms، IO-ops).
Headroom: 30-50٪ حاشیه برای مسیرهای بحرانی، خودکار مقیاس بندی توسط P95.
KPI های هزینه: هزینه هر درخواست 1k، هزینه هر GB خدمت کرده است، $ در هر 1 p. p. پیشرفت LCP.
Caching/denormalization: خواندن «cache ROI» = (صرفه جویی در CPU-ms − هزینه کش).
مناطق گرم و سرد: بارگیری به CDN/لبه، تکرار فقط خواندنی.
8) شیوه های مشاهده و پروفایل
ردیابی: شناسه های توزیع شده در تمام هاپ ها ؛ نمونه گیری هوشمند (مبتنی بر دم) است.
معیارها: Prometheus/OpenTelemetry، نماد تک نام و برچسب.
سیاهههای مربوط: با همبستگی ردیابی/طول، بودجه برای ورود به سیستم سر و صدا، ویرایش PII.
پروفایل: پروفایل CPU/Heap/A/Lock، پروفایل مداوم (eBPF).
نمونه های نمونه: انفجار P99 مرتبط با یک تماس خاص/SQL/PSP.
9) معیارهای انتشار و تیم (برای کامل بودن)
DORA: فرکانس استقرار، زمان سرب، تغییر نرخ شکست، MTTR.
فضا: رضایت، عملکرد، فعالیت، ارتباطات، کارایی.
این معیارها در مورد آهن نیستند، اما به طور مستقیم بر ثبات عملکرد تاثیر می گذارد.
10) ضد الگوهای
میانگین تعقیب: نادیده گرفتن p95/p99.
نرخ خطای «جهانی»: نقاط پایانی دردناک را پنهان می کند.
بدون انتساب توسط نسخه ها: گرفتن رگرسیون مشتری غیرممکن است.
هشدار هرزنامه: آستانه بدون هیسترزیس و اصلاح فصلی.
بهینه سازی کور: بدون درجه بندی یا ردیابی.
مخلوط کردن UX و تأخیر باطن: نتیجه گیری نادرست از تجربه مشتری
11) چک لیست
استاندارد متریک یکپارچه
- فرهنگ لغت معیارها با فرمول ها، واحدها، صاحبان
- درصد اجباری p50/p90/p95/p99
- ردیابی همبستگی و ورود به سیستم همبستگی
- برچسب ها: منطقه, نسخه, ارائه دهنده, دستگاه, کانال شبکه
- آستانه با هیسترزیس و deduplication
قبل از انتشار
- پایه p95/p99 در مرحله و تحریک
- ترافیک قناری + A/B مقایسه متریک
- ویژگی پرچم برگشت سریع
- دفترچه نظارت
به طور منظم
- کمترین بالا N پرس و جو/SQL نقد و بررسی
- سیاست های حافظه پنهان حسابرسی و TTL
- بررسی طراوت و تکرار پایگاه داده
- تست های تخریب ارائه دهنده خارجی (PSP، KYC)
12) کتاب های کوچک (به عنوان مثال)
تخریب p95/api/پرداخت
1. بررسی خطا% و زمانهای خارجی PSP.
2. چک کردن صف تاخیر مصرف کننده collbecks.
3. مشاهده نمونه های p99 ردیابی تنگنا SQL/HTTP ؟
4. فعال کردن پوشه/محدود کردن حافظه پنهان، کاهش N + 1.
5. بودجه: به طور موقت منابع کارگران را 20٪ افزایش می دهد، شامل مقیاس خودکار است.
6. پس از رفع: شاخص توسط (psp_id، وضعیت، created_at)، retray-jitter.
رشد RepLag در DB
1. درخواست های «سنگین» و معاملات طولانی را بررسی کنید.
2. افزایش همزمانی تکرار، تنظیم بازرسی.
3. بارگیری فقط حافظهٔ پنهان/المثنی.
4. در پنجره اوج - دنورم جزئی + دسته.
13) نمونه هایی از فرمول/SQL (ساده شده)
نرخ خطا توسط نقطه پایانی
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
p95 تاخیر (TDigest/تقریبا)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
تاخیر مصرف کننده (زمان)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
وب سایت LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) جاسازی در داشبورد و گزارش
کارت های KPI: تاخیر p95، خطا٪، RPS، اشباع با روند WoW/DoD.
بالا N «بدترین» endpoints/SQL/منابع، قابل کلیک مته پایین → ردیابی.
نسخه مشتری همبستگی: ستون «نسخه → p95 LCP/INP → تبدیل».
نقشه جهان: تأخیر جغرافیایی (CDN)، تأخیر PSP بر اساس منطقه.
پانل SLO: سهم زمان در SLO، سقوط از SLO، «بودجه خطا».
15) مجموع
معیارهای عملکرد یک رشته سیستم هستند: واژگان تک، صدکها، اسناد، قابلیت مشاهده خوب و SLO های دقیق. با ترکیب فنی (تاخیر، تاخیر، بازدید کش) و سیگنال های محصول (زمان KYC، سپرده P95، LCP)، کیفیت تجربه و هزینه تحویل آن را مدیریت می کنید - قابل پیش بینی و مقیاس پذیر.