GH GambleHub

مقاييس أداء العمليات وإدارة →

مقاييس الأداء

1) لماذا مقاييس الأداء

الأداء هو قدرة النظام على توفير المنظمات المستدامة المستهدفة في وقت الاستجابة والإنتاجية بتكلفة معينة. من المستحيل بدون مقاييس:
  • اكتشاف التدهور قبل وقوع الحوادث،
  • التنبؤ بالقدرات والميزانية،
  • مقارنة البدائل (ذاكرة التخزين المؤقت مقابل DB، gRPC مقابل REST)،
  • إدارة الانحدارات اللاحقة للإطلاق.

المبادئ: قاموس واحد للمقاييس، التجميع حسب المئوية (p50/p90/p95/p99)، المحاسبة المنفصلة للمسارات «الساخنة» و «الباردة»، السياق (النسخة، المنطقة، المزود، الجهاز).

2) تصنيف المقاييس

2. 1 إطارات أساسية SRE

أربع إشارات ذهبية: الكمون، حركة المرور، الأخطاء، التشبع.
RED (للخدمات الدقيقة): السعر والأخطاء والمدة.
الاستخدام (للأجهزة): الاستخدام، التشبع، الأخطاء.

2. 2 مستويات

البنية التحتية: وحدة المعالجة المركزية، ذاكرة الوصول العشوائي، القرص، الشبكة، الحاويات، العقد.
المنصة/الخدمات: نقاط نهاية واجهة برمجة التطبيقات، وقوائم الانتظار، والمخابئ، وقواعد البيانات، وحافلات الأحداث.
تجربة العملاء: Web Vitals، SDKs المتنقلة، البث، CDN.
منصة البيانات: ETL/ELT، التدفقات، واجهات المحلات، تأخيرات BI.
التدفق الحرج للأعمال: الإذن، KYC، الودائع/المدفوعات، جولات الألعاب.

3) فهرس المقاييس والصيغ الرئيسية

3. 1 واجهة برمجة التطبيقات والخدمات الدقيقة

RPS (الطلبات في الثانية).
Latency p50/p95/p99 (ms) - ويفضل «من طرف إلى طرف» و «backend-only».
معدل الخطأ (%) = 5xx + 4xx مصدق/جميع الطلبات.
التشبع: متوسط طول قائمة انتظار العمال، طلبات الطيران.
معدل البداية الباردة (لـ FaaS).
طلبات الخنق/الإسقاط.

مثال SLO: زمن الوصول p95 ≤ 250 ms مع RPS حتى 2 k في منطقة الاتحاد الأوروبي والشرق ؛ أخطاء ≤ 0. 5%.

3. 2 قاعدة بيانات

QPS/Transactions/s, avg/median query time, p95 query time.
Lock Waits/Deadlocks، Row/Index Hit Ratio، Buffer Cache Miss٪.
RepLag (تكرار)، Checkpoint/Flush time، Autovacuum lag.
Hot Keys/Skew - أعلى مفاتيح N عن طريق التحميل.

صيغة «الطلبات الأساسية»: QPS/ vCPU_core_count → إشارة للشحن.

3. 3 مخبأ و CDN

نسبة الإصابة (٪)، عمليات الإخلاء/الإخلاء، الكمون p95، حجم العنصر المئوي.
Origin Offload (٪) для CDN و TTFB و Stale-whine-revalidate ضرب٪.

3. 4 طوابير/تدفقات

الدخول/الخروج msg/s، تأخر المستهلك، معدل إعادة التوازن.
وقت المعالجة p95، معدل DLQ.

3. 5 البنية التحتية/الحاويات

استخدام CPU٪، CPU Chottle٪، تشغيل قائمة الانتظار الطويلة.
Memory RSS/Working Set، OOM يقتل، أخطاء الصفحة.
Disk IOPS/Latency/Entroput، Network RTT/retransmits.
تشبع العقدة: قرون معلقة، ضغط (وحدة المعالجة المركزية/الذاكرة/IO).

3. 6 عميل الويب (UX)

Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Resource Timing (DNS, TLS, TTFB, download).
معدل الخطأ (JS)، المهام الطويلة، وقت تغيير مسار SPA.
CDN Geo-Latency (بالمائة).

3. 7 عميل متنقل

وقت بدء التطبيق (بارد/دافئ)، معدل ANR، جلسات خالية من الأعطال٪.
رحلات/جلسات الشبكة ذهابا وإيابا، حجم الحمولة، استنزاف/جلسة البطارية.
معدل النجاح غير المتصل بالإنترنت.

3. 8 قاعدة البيانات والإبلاغ

تأخر النضارة (T-now → витрина)، صفوف/s الإنتاجية، نجاح الوظيفة٪.
التكلفة لكل سل تمت معالجته، Skew by party، Late events%.
BI Time-to-Render p95 للوحات القيادة الرئيسية.

3. 9 التدفق الحرج للمجال (iGaming كمثال)

Auth p95, KYC TTV (Time-to-Verify), Deposit/Department p95.
مدة جولة اللعبة p95، وقت اتصال RNG، مزود RTT p95.
معدل نجاح PSP الدفع، تحقيق Chargeback SLA.

4) التطبيع والمئوية والإسناد

المئوية مقابل المتوسطات: إصلاح p50/p90/p95/p99 - متوسطات تخفيف آلام الذروة.
الأقسام: إصدار التطبيق، المنطقة، المزود، قناة الشبكة (4G/Wi-Fi)، الجهاز.
الارتباط: نربط مقاييس «الخلفية فقط» و «المستخدم الحقيقي» للسلاسل السببية.
النماذج/الآثار: ربط المئوية القصوى مع الآثار.

5) العتبات والتنبيهات (شبكة تقريبية)

الكمون p95 (واجهة برمجة التطبيقات الأساسية): تحذير> 250 مللي ثانية، حرج> 400 مللي ثانية 5 دقائق على التوالي.
معدل الخطأ: تحذير> 0. 5٪، حرجة> 2٪ (نقطة النهاية، وليست عالمية).
DB RepLag: تحذير> 2 s، حرج> 10 s.
تأخر المستهلك كافكا (الوقت): تحذير> 30 ثانية، حرج> 2 دقيقة.
Web LCP (p75): تحذير> 2. 5 s، حرجة> 4 s.
الجوال ANR: تحذير> 0. 5٪، حرجة> 1٪.
نضارة ETL: تحذير> + 15 دقيقة، حرجة> + 60 دقيقة от SLA.

نحن نستخدم عتبات ثابتة + تكيفية (الموسمية، وأنماط النهار)، والتفريغ وتجميع التنبيهات حسب الخدمات/الإصدارات.

6) اختبار الأداء

الأنواع: خط الأساس، الإجهاد، (النقع) المطول، الفوضى (الروابط المتدهورة/PSP).
ملفات تعريف التحميل: للمعاملات الحقيقية (على أساس التوزيع)، «الانفجارات»، القمم الإقليمية.
الأهداف: تحقيق SLO مع RPS المستهدف وخلط العمليات والتحقق من الضغط الخلفي.
مقاييس التشغيل: الإنتاجية، الخطأ٪، زمن الوصول p95، توقف GC مؤقتًا، دواسة الوقود CPU، تأخر الانتظار، التكلفة/التشغيل.

قاعدة الانحدار: يعتبر الإصدار ناجحًا إذا لم يتم تدهور p95> 10٪ مع ملف تعريف متساوٍ، ولم تزداد تكلفة الطلب (CPU-ms/request)> 15٪.

7) تخطيط القدرات والأسعار/الأداء

نموذج الطلب: RPS حسب الساعة × متوسط العمل/الطلب (CPU-ms، IO-ops).
غرفة الرأس: هامش 30-50٪ للمسارات الحرجة، والقياس التلقائي حسب P95.
التكلفة KPIs: التكلفة لكل 1 ألف طلب، التكلفة لكل GB خدمة، $ لكل 1 ص. تحسينات LCP.
Caching/demormalization: read «cache ROI» = (CPU ms savings − cache cost).
المناطق الدافئة والباردة: تفريغ CDN/edge، تكرار للقراءة فقط.

8) ممارسات الرصد والتنميط

الآثار: توزيع بطاقات الهوية النزرة على جميع القفزات ؛ وأخذ العينات ذكي (قائم على الذيل).
المقاييس: Prometheus/OpenTelemetry، تدوين واحد للأسماء والملصقات.
السجلات: مع ارتباط/امتداد ضئيل، ميزانية لتسجيل الضوضاء، تحرير PII.
ملفات تعريف: وحدة المعالجة المركزية/Heap/Alloc/Lock profiles، التنميط المستمر (eBPF).
أمثلة العينات: انفجارات زميلة p99 مع فترة محددة/مكالمة SQL/PSP.

9) مقاييس الإصدار والفريق (للاكتمال)

DORA: تواتر النشر، وقت الرصاص، معدل فشل التغيير، MTTR.
الفضاء: الرضا، الأداء، النشاط، الاتصال، الكفاءة.
هذه المقاييس لا تتعلق بالحديد، ولكنها تؤثر بشكل مباشر على استقرار الأداء.

10) الأنماط المضادة

مطاردة المتوسطات: تجاهل p95/p99.
معدل الخطأ «العالمي»: يخفي نقاط النهاية المؤلمة.
بدون إسناد عن طريق الإصدارات: من المستحيل التقاط تراجعات العملاء.
تنبيه البريد العشوائي: عتبات بدون تصحيح الهستيريا والموسمية.
التحسين الأعمى: لا درجات أو آثار.
مزج UX والكمون الخلفي: استنتاجات غير صحيحة من تجربة العملاء.

11) القوائم المرجعية

المعيار المتري الموحد

  • قاموس المقاييس مع الصيغ والوحدات والمالكين
  • المئوية الإلزامية p50/p90/p95/p99
  • الارتباط النزير وارتباط السجل
  • العلامات: المنطقة، الإصدار، المزود، الجهاز، قناة الشبكة
  • عتبات مع الهستيريا والتفريغ

قبل الإصدار

  • خط الأساس p95/p99 على خشبة المسرح والحث
  • حركة مرور الكناري + مقارنة مقياس A/B
  • ميزة Fast Rollback Flag
  • دفتر المراقبة

بانتظام

  • أبطأ استعلام N/مراجعة SQL
  • سياسات ذاكرة التخزين المؤقت للتدقيق و TTL
  • التحقق من النضارة واستنساخ قاعدة البيانات
  • اختبارات تدهور المورد الخارجي (PSP، KYC)

12) كتب اللعب المصغرة (مثال)

التدهور p95/api/المدفوعات

1. تحقق من الخطأ% والوقت الخارجي لـ PSP.
2. تحقق من قوائم انتظار تأخر المستهلك.

3. شاهد p99 أمثلة تتبع عنق الزجاجة SQL/HTTP ؟

4. مكّن دليل/حد ذاكرة التخزين المؤقت، تقليل N + 1.
5. الميزانية: زيادة موارد العمال مؤقتًا بنسبة 20٪، بما في ذلك المقياس الذاتي.
6. ما بعد الإصلاح: الفهرس حسب (psp_id، الحالة، created_at)، الرافعة.

نمو RepLag في DB

1. تحقق من الطلبات «الثقيلة» والمعاملات الطويلة.
2. زيادة تزامن التكرار، وضبط نقطة التفتيش.
3. أفرغ ذاكرة التخزين المؤقت للقراءة فقط/نسخة طبق الأصل.
4. عند نوافذ الذروة - دفعات دينورم + جزئية.

13) أمثلة على الصيغ/SQL (مبسطة)

معدل الخطأ حسب نقطة النهاية

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

Latency p95 (TDiest/حوالي)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

تأخر المستهلك (الوقت)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) تضمين لوحات القيادة والإبلاغ

بطاقات KPI: زمن الانتظار p95، الخطأ٪، RPS، التشبع باتجاهات WoW/DoD.
Top N «أسوأ» نقاط النهاية/SQL/الموارد، مثقاب قابل للنقر لأسفل → تتبع.
ارتباط إصدار العميل: عمود «نسخة → p95 LCP/INP → تحويل».
خريطة العالم: الكمون الجغرافي (CDN)، زمن انتقال PSP حسب المنطقة.
لوحة SLO: حصة الوقت في SLO، تحطم من SLO، «ميزانية الخطأ».

15) المجاميع

مقاييس الأداء هي نظام أنظمة: مفردات مفردة، مئوية، إسناد، قابلية جيدة للمراقبة، و SLOs صارمة. من خلال الجمع بين الإشارات التقنية (زمن الوصول، والتأخير، وضربات التخزين المؤقت) وإشارات المنتج (وقت KYC، إيداع p95، LCP)، فإنك تدير جودة التجربة وتكلفة تقديمها - يمكن التنبؤ بها وقابلة للتطوير.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.