GH GambleHub

مؤشرات الأداء الرئيسية للبنية التحتية ووقت التشغيل

لماذا تحتاجه ؟

تحول مؤشرات الأداء الرئيسية للبنية التحتية «المشاعر» حول الاستقرار إلى أهداف قابلة للقياس، وإدارة المخاطر وتركيز العمل. تربط المقاييس الصحيحة SLIs التقنية بنتائج الأعمال (التحويل، Time-to-Wallet، LTV) وتسمح لك بالتخطيط للتطوير والتحميل والمشاركة في الابتكار مقابل الموثوقية.

المفاهيم الأساسية: SLI و SLO و SLA وميزانية الأخطاء

SLI (مؤشر مستوى الخدمة) - مؤشر الجودة المقاس: نسبة الطلبات الناجحة، زمن الانتظار p95، وقت التشغيل لكل فترة زمنية.
SLO (هدف مستوى الخدمة) - هدف SLI (على سبيل المثال، "النجاح ≥ 99. 9 في المائة في 30 يوما").
(اتفاق) - وعد خارجي بعقوبات/ائتمانات. مشتق دائمًا من SLO ولكن ليس مساويًا له.
ميزانية الخطأ = '1 − SLO'. هذا هو الحد الأقصى المسموح به لمعدل الفشل لكل نافذة قياس. تستخدم لاتخاذ قرارات بشأن الإصدارات والتجارب المحفوفة بالمخاطر.

مثال:
  • توافر SLO 99. 95٪ في 30 يومًا → ميزانية الخطأ 0. 05% ≈ 21. 6 دقائق من «الفشل» في شهر تقويمي.

أربع إشارات ذهبية وإضافية

1. الكمون (p50/p90/p95/p99، الذيل أهم من المتوسط).
2. أخطاء (5xx/مهلة/أخطاء تجارية).
3. حركة المرور/الإنتاجية (RPS/QPS، MBps).
4. التشبع (CPU/RAM/IO/FD/connections/GC/Cosas).
إضافي: البداية الباردة، قوائم الانتظار/الأعمال المتراكمة، وقت النشر، امتثال SLO.

نموذج SLI لأنواع مختلفة من الخدمات

HTTP/API

التوافر: '(2xx/3xx ناجح − أخطاء منطقية )/( جميع الطلبات)'

الكمون: 'p95' للاستفسارات الناجحة ؛ الهدف على الطرق الساخنة.
الجودة: نسبة الطلبات مع «الجمهور/النطاق» صحيحة (بدون أخطاء authZ).

طوابير/غير متزامنة

وقت معالجة الرسائل: p95 من البداية إلى النهاية ≤ N ثانية

التراكم: متوسط <X، الذيل p99 <Y.
خطأ التسليم: ≤ Z ppm.

DB/Cache

زمن انتقال العملية: p95 get/put/commission.
التشبع: استخدام حمام السباحة، نسبة إصابة المخبأ.
الأخطاء: المهلة، الجمود، عواصف الإخلاء.

CDN/Static

نسبة الإنجاز: المستوى المستهدف ≥ ؛ التدهور → نمو الحمل عند المنشأ.
توافر POP: على أي حال، يتم تعويض الإخفاقات من قبل الجيران.

المدفوعات (SLI للأعمال)

Time-to-Wallet p95، نجاح الودائع/المخرجات٪، معدل فشل PSP.

حساب التوافر ووقت التشغيل

توافر الخدمة = «الطلبات الناجحة/جميع الطلبات» (ويفضل ألا تكون «دقائق التشغيل»).
البديل لعقد البنية التحتية هو «الوقت الأخضر/وقت النافذة».
نافذة التقويم: 28-31 يومًا، النافذة المنزلقة: آخر 30/90 يومًا.
ساعات العمل/النوافذ الحرجة: يمكن اعتبار المكتب الخلفي وقت التشغيل وفقًا للجدول الزمني (على سبيل المثال، 08: 00-22: 00 بالتوقيت المحلي).

تكوين التبعيات (مبسط): إذا كانت الخدمة A تعتمد على B و C، فإن الإخفاقات المستقلة:
  • «التوافر (أ) ≈ Av (B) × Av (C) × Av (A 'B، C)» - من المهم وضع SLOs على الحدود.

مثال مجموعة SLO (عينة)

واجهة برمجة التطبيقات البوابة: ≥ 99 متاحة. 95 في المائة/30 (د) ؛ p95 ≤ 120 مللي ثانية ؛ خطأ ≤ 0. 2%.
الدفع/الدفع: نجاح الإيداع ≥ 98. 5 في المائة/30 (د) ؛ Time-to-Wallet p95 ≤ 90 с; مهلات PSP ≤ 0. 3%.
قاعدة البيانات: p95 قراءة ≤ 10 مللي ثانية ؛ p95 كتابة ≤ 25 مللي ثانية ؛ طبق الأصل lag p95 ≤ 150 мс.
المخبأ: نسبة الإصابة ≥ 85٪ ؛ عواصف الإخلاء = 0/30д.
المدفوعات: تجهيز p95 ≤ 5 دقائق ؛ الاحتيال والسقوط الإيجابي ≤ 0. 3%.

الميزانية الخاطئة وإدارة التغيير

إذا تم استنفاد ميزانية الخطأ بنسبة 50٪ + قبل منتصف النافذة، يتم إدخال «تجميد» للميزات/الإصدارات، يتم التركيز على الاستقرار.
إذا تم إنفاق الميزانية ببطء، يمكنك تسريع التجارب/جزر الكناري.
ربط استهلاك الميزانية بإطلاقات/حوادث محددة عبر 'الإصدار _ id'.

التنبيه: كيف لا «يتصل في الليل» عبثًا

تنبيهات فقط لتدهور SLO والأعراض الحيوية، وليس لكل مقياس.
نافذة متعددة، معدل حرق متعدد: نافذة قصيرة (5-15 دقيقة) + نافذة طويلة (1-6 ساعة).
مثال: «معدل الحرق 14 × في 5 دقيقة و 6 × في 1 ساعة» → صفحة تحت الطلب.
ساعات هادئة للإشارات non-P1 ؛ توجيه الملكية.

لوحات المعلومات وممارسات التصور

فريق SLO: الامتثال للخدمات، الميزانية المتبقية، خرائط التبعية.
فريق الوقت: p50/p90/p95/p99، التحلل حسب الطرق/المستأجرين/البلدان/ASN.
لوحة الخطأ: الرموز/الأسباب، الارتباط بالإصدارات/أعلام الميزات.
فريق القدرات: وحدة المعالجة المركزية/إدارة السجلات والمحفوظات/المكتب الدولي/الشبكة/إدارة الشؤون المالية/الاتصالات والاتجاهات والتنبؤات.
لوحة الأعمال: التحويل، الوقت إلى المحفظة، الودائع/السحب، تأثير الحماية (WAF/Anti-Bots).

الحوادث و MTTR وتشريح الجثث

رد فعل KPI:
  • MTTD (الكشف)، MTTA (قبول)، MTTR/MTTC (الاستعادة/الاحتواء)،٪ حوادث بدون RCA في الوقت المحدد.
  • كتب اللعب: من يتصاعد، وكيفية تشغيل الأعلام/الكتل المميزة، وكيفية التراجع عن الإصدار، والتواصل مع الشركة.
  • تشريح الجثة (بلا لوم): حقائق، خط زمني، الأسباب الجذرية (تلك/العمليات)، الإجراءات: فورية/طويلة الأجل، اختبارات الانحدار، التأثير على SLO.

الأداء والتشبع والتحلل

الحيز الرأسي: الحيز الرأسي للموارد المستهدفة (على سبيل المثال وحدة المعالجة المركزية <70٪ p95، ذاكرة الوصول العشوائي <75٪ p95).
المسارات الساخنة: تحديد الطرق الحرجة ؛ «p99» أهم من المتوسط.
أنماط التحلل: مخبأ فقط، قراءة فقط، إسقاط الطلبات غير المهمة، «حد السعر «/الحصة.

صيغ وأمثلة للحسابات

1) التوافر عند الطلب


availability = (total_requests - error_requests) / total_requests

حيث «خطأ _ طلبات» = 5xx + مهلة + أخطاء عمل (قابلة للتكوين).

2) ميزانية خطأ (دقائق)


error_budget_minutes = window_minutes (1 - SLO)

مثال: 30 يومًا (43200 دقيقة)، SLO 99. 95% → 21. 6 دقائق.

3) معدل الحرق


burn_rate = observed_error_ratio / (1 - SLO)

إذا كان SLO 99. 9٪ (الميزانية 0. 1٪) والخطأ 1٪ → burn_rate = 10 ×.

4) توافر المركبات


A_total ≈ A_gw × A_auth × A_db × A_psp

تضرب الشلالات الصغيرة بشكل عام A.

سياسات القياس والاستثناء

نوافذ غير مجدولة (حوادث) - تؤخذ في الاعتبار.
نوافذ الصيانة المقررة - لا تؤخذ في الاعتبار إلا إذا كان جيش تحرير السودان محددا على هذا النحو ؛ بالنسبة للمنظمات المحدودة الحجم التي لا تطرح في كثير من الأحيان (أو توضع علامة منفصلة على أنها «مخطط لها - وقت التوقف»).
Synthetics مقابل المستخدمين الحقيقيين: من المفيد أن يكون لديك كلتا القناتين (فحوصات RUM + الاصطناعية).

أمثلة على القطع الأثرية

KQL/PromQL (أفكار)

خطأ SLI (5xx + مهلة) في 5 دقائق:
promql sum(rate(http_requests_total{status=~"5..    timeout"}[5m]))
/
sum(rate(http_requests_total[5m]))
p95 زمن الانتقال по الطريق:
promql histogram_quantile(0. 95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, route))
معدل الحرق 5 م/1 ساعة:
promql
(
sum(rate(errors_total[5m])) / sum(rate(requests_total[5m]))
) / (1 - 0. 999)

SQL (الدفع Business SLI)

sql
SELECT date_trunc('minute', finished_at) AS ts,
100. 0 sum((status='SUCCESS')::int)::float / count() AS payment_success_pct,
percentile_cont(0. 95) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (finished_at - started_at))) AS ttw_p95_sec
FROM payments
WHERE finished_at > now() - interval '30 days'
GROUP BY 1 ORDER BY 1;

إدارة التبعيات والسلسلات التعاقبية

عقود SLO بين الفرق: gateway↔auth↔wallet↔PSP.
سياسات التدهور: عندما تنخفض التبعية، تدخل الخدمة في «وضع مبسط».
أعلام الميزة: تعطيل الوظائف غير الحرجة، «إطلاق رمادي» لتقليل ذيول الكمون.

تخطيط القدرات والتنبؤات

شوميس. توقعات RPS/MBps حسب الاتجاهات والأحداث (البطولات والمباريات والترقيات).
اختبار التحميل بواسطة «المسارات الذهبية»، اختبارات منفصلة لـ PSP/المدفوعات.
المخزون عند الذروة: العامل المستهدف 1. 3 × -2. 0 × من الحمل المتوقع.

قائمة مرجعية لتنفيذ مبادرة تحرير السودان/المبادرة

1. حدد مسارات المستخدم الحرجة وتفاوض على SLI «من منظور العميل».
2. انتقِ SLO أهداف ونافذة (30/90 يوم) ؛ حساب ميزانية الخطأ.
3. بناء مجموعة مترية في بوابات/خدمات، تطبيع الرموز/الأسباب.
4. قم بتهيئة تنبيهات معدل الحرق (نافذة قصيرة + طويلة) والتوجيه وعند الطلب.
5. تصور امتثال SLO، وربط الإصدارات/أعلام الميزات.
6. وضع ميزانية ضد سياسة التغيير وعملية التجميد.
7. الرجوع إلى الماضي و RCAs في كل فائض، اختبارات الانحدار.
8. استعراض المكتب الإقليمي لأفريقيا كل ثلاثة أشهر لمعرفة الاستخدام الفعلي للميزانية وأهداف العمل.

أخطاء شائعة

قم بقياس «وقت التشغيل بواسطة ping»، مع تجاهل أخطاء التطبيق.
تم تعيين SLOs «في الاحتياطي» (99. 999٪)، ولكن لا يمكن تحقيقه ولا حل أي شيء.
تنبيهات على مقاييس منخفضة المستوى بدلاً من أعراض المستخدم.
لا توجد خريطة تبعية → ليس من الواضح أين تحترق.
لا توجد علاقة بين SLO والإصدارات → ليس من الواضح من «أكل» الميزانية.
تجاهل ذيل p99 → متوسط جيد ولكن سيئ لمستخدمي UX VIP.

iGaming/fintech specific

القمم المجدولة: المباريات/الأحداث/العروض الترويجية - زيادة السعة مقدمًا، إحماء ذاكرة التخزين المؤقت/CDN، بما في ذلك ملفات تعريف الحد الخاص.
Business SLI: Time-to-Wallet, deposit/reduction supply, «payout speed» p95; في جذور لوحات القيادة.
PSP/الشركاء: SLO/لوحات القيادة الفردية حسب المزود، تبديل المسار التلقائي.
مكافحة الروبوت/مكافحة الاحتيال: يجب ألا تكون هناك ميزانية للأخطاء - فصل «الكتل المشروعة» عن «الأخطاء الفنية».
التنظيم: تخزين السجلات، قابلية تكرار حسابات SLO/SLA، تقارير الحوادث.

الأسئلة الشائعة

هل أحتاج إلى طرح العمل المخطط له من SLO ؟

عادة لا: يعكس SLO التجربة التي عاشها المستخدم. يمكنك تحديد استثناءات لـ SLAs.

لماذا p95، ليس متوسط ؟

الوسط يخفي الذيول ؛ UX تعريف الذيول (p95/p99).

هل يمكنني الحصول على SLO واحد للمنتج بأكمله ؟

أنت بحاجة إلى شجرة SLO: مجمعة حسب المنتج والأطفال حسب المسارات/المكونات الحرجة.

المجموع

نظام KPI القوي للبنية التحتية هو SLIs المخصصة، و SLOs الواقعية، وميزانية الخطأ كرافعة للتحكم في التغيير، والتنبيه الذكي وانضباط الحوادث، و RCAs. ربط المؤشرات الفنية بمقاييس الأعمال، وأتمتة الجمع والتصور - وستصبح البنية التحتية قابلة للتنبؤ، وسيتم التحكم في وقت التشغيل حتى في سيناريوهات الذروة.

Contact

اتصل بنا

تواصل معنا لأي أسئلة أو دعم.نحن دائمًا جاهزون لمساعدتكم!

Telegram
@Gamble_GC
بدء التكامل

البريد الإلكتروني — إلزامي. تيليغرام أو واتساب — اختياري.

اسمك اختياري
البريد الإلكتروني اختياري
الموضوع اختياري
الرسالة اختياري
Telegram اختياري
@
إذا ذكرت تيليغرام — سنرد عليك هناك أيضًا بالإضافة إلى البريد الإلكتروني.
WhatsApp اختياري
الصيغة: رمز الدولة + الرقم (مثال: +971XXXXXXXXX).

بالنقر على الزر، فإنك توافق على معالجة بياناتك.