لوحات معلومات البنية التحتية
1) لماذا تحتاجه
صورة واحدة للدولة: من المجموعات والشبكات إلى قواعد البيانات وقوائم الانتظار.
RCA السريع وتشريح الجثة: مجموعة من المقاييس ↔ سجلات ↔ آثار.
SLO حسب الخدمة والمنصة: التحكم في التوافر والوقت.
شفافية FinOps: الحجم/التكلفة حسب الخدمات والمستأجر والبيئات.
الامتثال/الأمن: حالة التصحيحات/نقاط الضعف، حالات الوصول، الحالات الشاذة.
المنهجيات: الإشارات الذهبية (زمن الوصول، حركة المرور، الأخطاء، التشبع)، RED (المعدل، الأخطاء، المدة) للطلبات، USE (الاستخدام، التشبع، الأخطاء) للموارد.
2) مبادئ لوحة القيادة الجيدة
تستجيب كل لجنة قابلة للتنفيذ لـ «ماذا تفعل بعد ذلك».
التسلسل الهرمي: نظرة عامة → المجالات → الغوص العميق → الخام.
النماذج/المتغيرات: 'العنقود'، 'مساحة الاسم'، 'الخدمة'، 'المستأجر'، 'env'.
وحدات موحدة: ms لكمون،%، RPS، ops/sec، bytes.
جهاز تحديد الوقت المتسق: افتراضي من 1 إلى 6 ساعات، تحديدات مسبقة سريعة 5 م/15 م/24 ساعة.
Drilldown: من اللوحة إلى جذوع الأشجار (Loki/ELK) والمسار (Tempo/Jaeger).
الملكية: تمت الإشارة إلى المالك على لوحة القيادة، SLO، دفتر التشغيل، الاتصال عند الطلب.
3) هيكل المجلد والأدوار
00_Overview - لمحة عامة رفيعة المستوى عن المنبر.
10_Kubernetes - مجموعات، عقد، أعباء عمل، HPA/VPA، حاويات.
20_Network_Edge - الدخول/المبعوث/Nginx، LB، DNS، CDN، WAF.
30_Storage_DB - PostgreSQL/MySQL، Redis، Kafka/RabbitMQ، تخزين الكائن.
40_CICD_Runner - خطوط الأنابيب، الوكلاء، القطع الأثرية، التسجيل.
50_Security_Compliance - نقاط الضعف والتصحيحات والمكتب الإقليمي لآسيا والمحيط الهادئ وأحداث مراجعة الحسابات.
60_FinOps_Cost - التكلفة لكل خدمة/مستأجر/مجموعة، التخلص.
99_Runbooks - وصلات إلى التعليمات وبطاقات SLO.
الأدوار: Platform-SRE (الوصول الكامل)، مالك الخدمة (المساحات الخاصة)، الأمن/الامتثال، التمويل/FinOps، View-only.
4) نظرة عامة على المنصة (الهبوط)
الهدف: في غضون ≤30 ثانية لفهم ما إذا كان كل شيء على ما يرام.
الأفرقة الموصى بها:- منصة SLO (حافة توافر API): القيمة المستهدفة، الفعلية، عصر الأخطاء، معدل الحرق.
- p50/p95/p99 زمن الوصول حسب نقاط الدخول الرئيسية.
- أخطاء 4xx/5xx ونقاط النهاية العليا مع الانحدار.
- تشبع الموارد (وحدة المعالجة المركزية، ذاكرة الوصول العشوائي، الشبكة، القرص) - p95 حسب المجموعة.
- الحوادث/التنبيهات (النشطة) والإصدارات الأخيرة.
- التكلفة/الساعة (تقريبية) والاتجاه حسب الأسبوع.
النماذج المتغيرة: 'env'، 'region'، 'cluster'، 'مستأجر'.
5) Kubernetes: مجموعات وحلقات عمل
المجموعات الرئيسية:1. المجموعة/العقد
وحدة المعالجة المركزية/التخلص من الذاكرة، الضغط (الذاكرة/المعالج المركزي)، قرص IO، inode.
النظم الفرعية: kube-api, etcd, controllers; صحة kubelet.
2. دوامة
RPS/RPM، الكمون p95، معدل الخطأ، إعادة التشغيل، الخنق، OOMKills.
أهداف HPA مقابل المقاييس الفعلية.
3. مسار الشبكة داخل المجموعة
eBPF/Netflow: كبار المتحدثين، القطرات، إعادة الإرسال.
4. الأحداث K8s
معدل التحذير по/الجدولة الفاشلة/التراجع.
أمثلة على PromQL:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) الحافة والشبكة و DNS
اللوحات:- الدخول/المبعوث/Nginx: RPS، p95، 4xx/5xx، upstream_errors، active_conns.
- LB/Anycast: توزيع حركة المرور حسب المناطق، الأحداث الفاشلة.
- DNS: زمن انتقال الدقة، NXDOMAIN/SERVFAIL، مخبأ نسبة الإصابة.
- CDN/WAF: محجوبة بالقواعد، حركة مرور غير طبيعية (روبوتات/مكشطات).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) قواعد البيانات والمخازن
PostgreSQL/MySQL: qps، زمن الوصول، فترات انتظار القفل، تأخر النسخ، النسخ الاحتياطية/الإخفاقات.
Redis: نسبة الضرب، الإخلاء، الذاكرة، الأوامر البطيئة.
كافكا/RabbitMQ: تأخر مجموعات المستهلكين، إعادة التوازن، الرسائل غير المعبأة.
تخزين الكائن: الاستفسارات، الأخطاء، الخروج، lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
كافكا (مثال):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD والتحف
نظرة عامة على خط الأنابيب: النجاح/وقت التشغيل، قائمة انتظار العداء.
صحة النشر: الإصدارات، حالة الكناري/الأزرق والأخضر، وقت الإحماء.
سجلات الصور: الحجم والدفعة الأخيرة والتخلص.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) السلامة والامتثال
التصحيحات ونقاط الضعف: نسبة العقد/الصور التي تحتوي على CVEs حرجة، متوسط «وقت التصحيح».
RBAC والأسرار: محاولات الوصول غير الناجحة، والوصول إلى الأسرار.
أحداث مراجعة الحسابات: المدخلات/التغييرات في العناصر الحيوية، الانحراف.
مراجعة WAF/DLP/PII: أقفال القواعد، أخطاء الإخفاء.
10) السجلات والمسارات: مراجعة من طرف إلى طرف
ملخص الأخطاء من جذوع الأشجار (Loki/ELK): أعلى الاستثناءات، التوقيعات الجديدة.
Button "Go to logs with filters' (LogQL/ES query).
الآثار: أعلى الامتدادات البطيئة، النسبة المئوية للطلبات بدون سياق ضئيل.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: التكلفة والتخلص
التكلفة حسب الخدمات/المستأجرين/المجموعات (وفقا للفواتير/المصدرين).
العقد الساخنة/الباردة: الموارد الخاملة، توصيات الحجم الصحيح (CPU/Mem).
خروج البيانات وطلبات L7 وتكلفتها.
الديناميكيات: أسبوع/شهر، توقعات.
- cost_per_rps، cost_per_request، storage_cost_gb_day، idle_cost.
- عامل الكفاءة: «RPS/$» أو «SLO-minutes/$».
12) SLO، الأخطاء ومعدل الحروق
بطاقة SLO على كل لوحة تحكم: الهدف، الفترة، الأخطاء (الميزانية).
تنبيهات معدل الحرق (سرعتان: سريعة/بطيئة).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) معايير التصور
أنواع اللوحات: سلسلة زمنية للسلسلة، إحصائيات لـ KPI، جدول لأعلى N، خريطة حرارة لكمون.
الأساطير والوحدات: مطلوب ؛ ملصقات مختصرة، تنسيق SI.
مناطق الألوان: الأخضر/الأصفر/الأحمر بواسطة SLO/العتبة (موحد).
وصف اللوحة: ما نقيسه، المصدر، رابط الدليل، المالك.
14) نماذج لوحة (بداية سريعة)
(أ) نظرة عامة على واجهة برمجة التطبيقات
KPI: «RPS»، «p95»، «5xx٪»، «خطأ _ ميزانية _ متبقية».
نقاط النهاية العليا عن طريق الخطأ/الكمون.
Drilldown in the 'trace _ id = $ trace' logs.
(ب) صحة العقدة
وحدة المعالجة المركزية/الذاكرة/القرص/الشبكة - p95 حسب العقدة، قائمة «الساخنة».
الضغط، الخنق، قطرات الطرد.
(C) DB Health
TPS، الكمون p95، الأقفال، تأخر النسخ، الاستفسارات البطيئة.
حالة النسخ الاحتياطي/آخر نجاح.
(د) كافكا لاغ
تأخر حسب المجموعة، معدل الاستهلاك مقابل الإنتاج، إعادة التوازن.
(E) التكلفة وأوتيل
التكلفة/الساعة حسب الخدمات، الخمول٪، التلميحات الصحيحة، التوقعات.
15) المتغيرات والعلامات (المجموعة الموصى بها)
'env' (prod/stage/dev)
'region '/' az'
«بطل»
'المساحة '/' الخدمة '/' عبء العمل'
«إيجار»
'component' (edge/db/cache/queue)
'version' (release/git_sha)
16) التكامل مع إدارة التنبيه والحوادث
القواعد في تنبيهات Alertmanager/Graphana مع روابط إلى لوحة القيادة المطلوبة والمتغيرات المستبدلة بالفعل.
P1/P2 بمعايير SLO، يتم تعيين تلقائيًا عند الطلب.
شروح الإصدارات/الحوادث على الرسوم البيانية.
17) جودة لوحات القيادة: قائمة مرجعية
- المالك والاتصال.
- تم توثيق عتبات/عتبات SLO.
- تعمل المتغيرات وتحد من حجم الاستفسارات.
- جميع اللوحات مع الوحدات والأسطورة.
- حفر إلى سجلات/مسارات.
- تتناسب الألواح مع 2-3 «شاشات» (بدون تمرير لكل كيلومتر).
- وقت الاستجابة ≤2 -3 ثانية (ذاكرة التخزين المؤقت، عينة سفلية).
- لا توجد ألواح ميتة أو مقاييس متدهورة.
18) أداء وتكلفة لوحات القيادة نفسها
تقليل/تسجيل قواعد التجميعات الثقيلة.
Caching (query-frontend/repeater) وحدود النطاق/الخطوة.
حظيرة اختبار: تحميل على TSDB/مجموعات لطلبات لوحة القيادة النموذجية.
تعقيم الملصقات (الكاردينالية المنخفضة)، التخلي عن بطاقات البدل.
19) خطة التنفيذ (تكرارات)
1. الأسبوع 1: هبوط + مراجعات K8s/Edge، SLOs الأساسية، المالكين.
2. الأسبوع 2: DB/قوائم الانتظار، تكامل السجل والتتبع (الحفر)، تنبيهات معدل الحرق.
3. الأسبوع 3: لوحات معلومات FinOps، توصيات الحجم الصحيح، تقرير التكلفة.
4. الأسبوع 4 +: الأمان/الامتثال، التوليد التلقائي لبطاقة SLO، اختبارات تراجع لوحة القيادة.
20) الأسئلة الشائعة الصغيرة
كم عدد لوحات القيادة التي تحتاجها ؟
مراجعة 1 على الأقل + واحدة لكل نطاق (K8s، Edge، DB، Queues، CI/CD، Security، Cost). الباقي هو النضج.
ما هو الأهم - المقاييس أم الجذوع ؟
مقاييس للأعراض و SLO، سجلات للأسباب. ضع حزمة من خلال «تتبع _ معرف» وملصقات متسقة.
كيف لا «تغرق» في الألواح ؟
التسلسل الهرمي والمالكين الصريحين والنظافة المترية والمراجعات المنتظمة وإزالة الألواح «الميتة».
المجموع
لوحات القيادة الخاصة بالبنية التحتية ليست «رسومًا بيانية جميلة»، ولكنها أداة إدارة: التحكم في SLO و RCA السريع و FinOps الواعية. توحيد المتغيرات والأنماط البصرية والمالكين ؛ توفير التنقيب عن السجلات/المسارات وأتمتة تنبيهات معدل الحرق. سيعطي هذا إمكانية التنبؤ وسرعة رد الفعل وشفافية التكلفة على مستوى المنصة بأكملها.