مقاييس أداء العمليات وإدارة →
مقاييس الأداء
1) لماذا مقاييس الأداء
الأداء هو قدرة النظام على توفير المنظمات المستدامة المستهدفة في وقت الاستجابة والإنتاجية بتكلفة معينة. من المستحيل بدون مقاييس:- اكتشاف التدهور قبل وقوع الحوادث،
- التنبؤ بالقدرات والميزانية،
- مقارنة البدائل (ذاكرة التخزين المؤقت مقابل DB، gRPC مقابل REST)،
- إدارة الانحدارات اللاحقة للإطلاق.
المبادئ: قاموس واحد للمقاييس، التجميع حسب المئوية (p50/p90/p95/p99)، المحاسبة المنفصلة للمسارات «الساخنة» و «الباردة»، السياق (النسخة، المنطقة، المزود، الجهاز).
2) تصنيف المقاييس
2. 1 إطارات أساسية SRE
أربع إشارات ذهبية: الكمون، حركة المرور، الأخطاء، التشبع.
RED (للخدمات الدقيقة): السعر والأخطاء والمدة.
الاستخدام (للأجهزة): الاستخدام، التشبع، الأخطاء.
2. 2 مستويات
البنية التحتية: وحدة المعالجة المركزية، ذاكرة الوصول العشوائي، القرص، الشبكة، الحاويات، العقد.
المنصة/الخدمات: نقاط نهاية واجهة برمجة التطبيقات، وقوائم الانتظار، والمخابئ، وقواعد البيانات، وحافلات الأحداث.
تجربة العملاء: Web Vitals، SDKs المتنقلة، البث، CDN.
منصة البيانات: ETL/ELT، التدفقات، واجهات المحلات، تأخيرات BI.
التدفق الحرج للأعمال: الإذن، KYC، الودائع/المدفوعات، جولات الألعاب.
3) فهرس المقاييس والصيغ الرئيسية
3. 1 واجهة برمجة التطبيقات والخدمات الدقيقة
RPS (الطلبات في الثانية).
Latency p50/p95/p99 (ms) - ويفضل «من طرف إلى طرف» و «backend-only».
معدل الخطأ (%) = 5xx + 4xx مصدق/جميع الطلبات.
التشبع: متوسط طول قائمة انتظار العمال، طلبات الطيران.
معدل البداية الباردة (لـ FaaS).
طلبات الخنق/الإسقاط.
مثال SLO: زمن الوصول p95 ≤ 250 ms مع RPS حتى 2 k في منطقة الاتحاد الأوروبي والشرق ؛ أخطاء ≤ 0. 5%.
3. 2 قاعدة بيانات
QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits/Deadlocks، Row/Index Hit Ratio، Buffer Cache Miss٪.
RepLag (تكرار)، Checkpoint/Flush time، Autovacuum lag.
Hot Keys/Skew - أعلى مفاتيح N عن طريق التحميل.
صيغة «الطلبات الأساسية»: QPS/ vCPU_core_count → إشارة للشحن.
3. 3 مخبأ و CDN
نسبة الإصابة (٪)، عمليات الإخلاء/الإخلاء، الكمون p95، حجم العنصر المئوي.
Origin Offload (٪) для CDN و TTFB و Stale-whine-revalidate ضرب٪.
3. 4 طوابير/تدفقات
الدخول/الخروج msg/s، تأخر المستهلك، معدل إعادة التوازن.
وقت المعالجة p95، معدل DLQ.
3. 5 البنية التحتية/الحاويات
استخدام CPU٪، CPU Chottle٪، تشغيل قائمة الانتظار الطويلة.
Memory RSS/Working Set، OOM يقتل، أخطاء الصفحة.
Disk IOPS/Latency/Entroput، Network RTT/retransmits.
تشبع العقدة: قرون معلقة، ضغط (وحدة المعالجة المركزية/الذاكرة/IO).
3. 6 عميل الويب (UX)
Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
معدل الخطأ (JS)، المهام الطويلة، وقت تغيير مسار SPA.
CDN Geo-Latency (بالمائة).
3. 7 عميل متنقل
وقت بدء التطبيق (بارد/دافئ)، معدل ANR، جلسات خالية من الأعطال٪.
رحلات/جلسات الشبكة ذهابا وإيابا، حجم الحمولة، استنزاف/جلسة البطارية.
معدل النجاح غير المتصل بالإنترنت.
3. 8 قاعدة البيانات والإبلاغ
تأخر النضارة (T-now → витрина)، صفوف/s الإنتاجية، نجاح الوظيفة٪.
التكلفة لكل سل تمت معالجته، Skew by party، Late events%.
BI Time-to-Render p95 للوحات القيادة الرئيسية.
3. 9 التدفق الحرج للمجال (iGaming كمثال)
Auth p95, KYC TTV (Time-to-Verify), Deposit/Department p95.
مدة جولة اللعبة p95، وقت اتصال RNG، مزود RTT p95.
معدل نجاح PSP الدفع، تحقيق Chargeback SLA.
4) التطبيع والمئوية والإسناد
المئوية مقابل المتوسطات: إصلاح p50/p90/p95/p99 - متوسطات تخفيف آلام الذروة.
الأقسام: إصدار التطبيق، المنطقة، المزود، قناة الشبكة (4G/Wi-Fi)، الجهاز.
الارتباط: نربط مقاييس «الخلفية فقط» و «المستخدم الحقيقي» للسلاسل السببية.
النماذج/الآثار: ربط المئوية القصوى مع الآثار.
5) العتبات والتنبيهات (شبكة تقريبية)
الكمون p95 (واجهة برمجة التطبيقات الأساسية): تحذير> 250 مللي ثانية، حرج> 400 مللي ثانية 5 دقائق على التوالي.
معدل الخطأ: تحذير> 0. 5٪، حرجة> 2٪ (نقطة النهاية، وليست عالمية).
DB RepLag: تحذير> 2 s، حرج> 10 s.
تأخر المستهلك كافكا (الوقت): تحذير> 30 ثانية، حرج> 2 دقيقة.
Web LCP (p75): تحذير> 2. 5 s، حرجة> 4 s.
الجوال ANR: تحذير> 0. 5٪، حرجة> 1٪.
نضارة ETL: تحذير> + 15 دقيقة، حرجة> + 60 دقيقة от SLA.
نحن نستخدم عتبات ثابتة + تكيفية (الموسمية، وأنماط النهار)، والتفريغ وتجميع التنبيهات حسب الخدمات/الإصدارات.
6) اختبار الأداء
الأنواع: خط الأساس، الإجهاد، (النقع) المطول، الفوضى (الروابط المتدهورة/PSP).
ملفات تعريف التحميل: للمعاملات الحقيقية (على أساس التوزيع)، «الانفجارات»، القمم الإقليمية.
الأهداف: تحقيق SLO مع RPS المستهدف وخلط العمليات والتحقق من الضغط الخلفي.
مقاييس التشغيل: الإنتاجية، الخطأ٪، زمن الوصول p95، توقف GC مؤقتًا، دواسة الوقود CPU، تأخر الانتظار، التكلفة/التشغيل.
قاعدة الانحدار: يعتبر الإصدار ناجحًا إذا لم يتم تدهور p95> 10٪ مع ملف تعريف متساوٍ، ولم تزداد تكلفة الطلب (CPU-ms/request)> 15٪.
7) تخطيط القدرات والأسعار/الأداء
نموذج الطلب: RPS حسب الساعة × متوسط العمل/الطلب (CPU-ms، IO-ops).
غرفة الرأس: هامش 30-50٪ للمسارات الحرجة، والقياس التلقائي حسب P95.
التكلفة KPIs: التكلفة لكل 1 ألف طلب، التكلفة لكل GB خدمة، $ لكل 1 ص. تحسينات LCP.
Caching/demormalization: read «cache ROI» = (CPU ms savings − cache cost).
المناطق الدافئة والباردة: تفريغ CDN/edge، تكرار للقراءة فقط.
8) ممارسات الرصد والتنميط
الآثار: توزيع بطاقات الهوية النزرة على جميع القفزات ؛ وأخذ العينات ذكي (قائم على الذيل).
المقاييس: Prometheus/OpenTelemetry، تدوين واحد للأسماء والملصقات.
السجلات: مع ارتباط/امتداد ضئيل، ميزانية لتسجيل الضوضاء، تحرير PII.
ملفات تعريف: وحدة المعالجة المركزية/Heap/Alloc/Lock profiles، التنميط المستمر (eBPF).
أمثلة العينات: انفجارات زميلة p99 مع فترة محددة/مكالمة SQL/PSP.
9) مقاييس الإصدار والفريق (للاكتمال)
DORA: تواتر النشر، وقت الرصاص، معدل فشل التغيير، MTTR.
الفضاء: الرضا، الأداء، النشاط، الاتصال، الكفاءة.
هذه المقاييس لا تتعلق بالحديد، ولكنها تؤثر بشكل مباشر على استقرار الأداء.
10) الأنماط المضادة
مطاردة المتوسطات: تجاهل p95/p99.
معدل الخطأ «العالمي»: يخفي نقاط النهاية المؤلمة.
بدون إسناد عن طريق الإصدارات: من المستحيل التقاط تراجعات العملاء.
تنبيه البريد العشوائي: عتبات بدون تصحيح الهستيريا والموسمية.
التحسين الأعمى: لا درجات أو آثار.
مزج UX والكمون الخلفي: استنتاجات غير صحيحة من تجربة العملاء.
11) القوائم المرجعية
المعيار المتري الموحد
- قاموس المقاييس مع الصيغ والوحدات والمالكين
- المئوية الإلزامية p50/p90/p95/p99
- الارتباط النزير وارتباط السجل
- العلامات: المنطقة، الإصدار، المزود، الجهاز، قناة الشبكة
- عتبات مع الهستيريا والتفريغ
قبل الإصدار
- خط الأساس p95/p99 على خشبة المسرح والحث
- حركة مرور الكناري + مقارنة مقياس A/B
- ميزة Fast Rollback Flag
- دفتر المراقبة
بانتظام
- أبطأ استعلام N/مراجعة SQL
- سياسات ذاكرة التخزين المؤقت للتدقيق و TTL
- التحقق من النضارة واستنساخ قاعدة البيانات
- اختبارات تدهور المورد الخارجي (PSP، KYC)
12) كتب اللعب المصغرة (مثال)
التدهور p95/api/المدفوعات
1. تحقق من الخطأ% والوقت الخارجي لـ PSP.
2. تحقق من قوائم انتظار تأخر المستهلك.
3. شاهد p99 أمثلة تتبع عنق الزجاجة SQL/HTTP ؟
4. مكّن دليل/حد ذاكرة التخزين المؤقت، تقليل N + 1.
5. الميزانية: زيادة موارد العمال مؤقتًا بنسبة 20٪، بما في ذلك المقياس الذاتي.
6. ما بعد الإصلاح: الفهرس حسب (psp_id، الحالة، created_at)، الرافعة.
نمو RepLag في DB
1. تحقق من الطلبات «الثقيلة» والمعاملات الطويلة.
2. زيادة تزامن التكرار، وضبط نقطة التفتيش.
3. أفرغ ذاكرة التخزين المؤقت للقراءة فقط/نسخة طبق الأصل.
4. عند نوافذ الذروة - دفعات دينورم + جزئية.
13) أمثلة على الصيغ/SQL (مبسطة)
معدل الخطأ حسب نقطة النهاية
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
Latency p95 (TDiest/حوالي)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
تأخر المستهلك (الوقت)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) تضمين لوحات القيادة والإبلاغ
بطاقات KPI: زمن الانتظار p95، الخطأ٪، RPS، التشبع باتجاهات WoW/DoD.
Top N «أسوأ» نقاط النهاية/SQL/الموارد، مثقاب قابل للنقر لأسفل → تتبع.
ارتباط إصدار العميل: عمود «نسخة → p95 LCP/INP → تحويل».
خريطة العالم: الكمون الجغرافي (CDN)، زمن انتقال PSP حسب المنطقة.
لوحة SLO: حصة الوقت في SLO، تحطم من SLO، «ميزانية الخطأ».
15) المجاميع
مقاييس الأداء هي نظام أنظمة: مفردات مفردة، مئوية، إسناد، قابلية جيدة للمراقبة، و SLOs صارمة. من خلال الجمع بين الإشارات التقنية (زمن الوصول، والتأخير، وضربات التخزين المؤقت) وإشارات المنتج (وقت KYC، إيداع p95، LCP)، فإنك تدير جودة التجربة وتكلفة تقديمها - يمكن التنبؤ بها وقابلة للتطوير.