GH GambleHub

داشبورد کنترل مرکزی

1) اهداف و اصول

داشبورد کنترل مرکزی (از این پس به عنوان CDU نامیده می شود) یک پنجره واحد برای تصمیم گیری در عملیات است. این سیگنال ها را از تله متری، ITSM، CI/CD، کاتالوگ خدمات، تقویم کاری و ارائه دهندگان جمع آوری می کند و آنها را به ویدجت های قابل اجرا تبدیل می کند.

اصول:
  • SLO اول: بالا - SLO هدف و نرخ سوختن توسط Tier-0/1.
  • با یک کلیک به عمل: از ویجت - به playbook/runbook یا بلیط.
  • فرهنگ لغت یکپارچه: همان SEV، وضعیت، رنگ و آستانه.
  • حاشیه نویسی رویداد: انتشار/پیکربندی/ویندوز در تمام نمودار.
  • نقش ها و مجوز ها: دیدگاه های شخصی (در تماس، IC، مدیریت).
  • سر و صدای کم - حد نصاب منبع، deduplication، و windowing.

2) نقش ها و سناریوهای کلیدی

در تماس (P1/P2): به سرعت درک «چه خبر است» و باز کردن playbook (≤1 کلیک کنید).
IC: اعلام SEV، شروع جنگ اتاق حالت، کنترل آهنگ از کام به روز رسانی.
مدیر انتشار: دروازه ها، پیشرفت قناری، آمادگی برگشت را ببینید.
مالک سرویس/محصول: SLI کسب و کار (موفقیت پرداخت/ثبت نام)، تاثیر ویژگی های.
SRE/بستر های نرم افزاری: ظرفیت، مقیاس خودکار، ناهنجاری ها، آمادگی DR.
FinOps: $/واحد، هزینه های بیش از حد، هشدار بودجه.
امنیت/حقوقی: وضعیت، گواهینامه های کلیدی، پنجره های چرخش، لینک های حسابرسی WORM.

3) معماری اطلاعات CDA

قفسه بالا (پانل قهرمان):
  • SLO по Tier-0/1 (در دسترس بودن/تاخیر/موفقیت) с نرخ سوختن 2- окна.
  • وضعیت SEV: حوادث فعال و جدول زمانی آنها.
  • وضعیت انتشار: قناری/آبی سبز، دروازه های فعال.
  • ارائه دهندگان چراغ راهنمایی (PSP/KYC/CDN)
قفسه میانی (عامل):
  • پنجره های تعمیر و نگهداری (در حال حاضر/24 ساعت)، کارت سرکوب.
  • ظرفیت: تاخیر CPU/RAM/IO/queue-depth/p95 با پیش بینی.
  • FinOps: $/1k txn، هزینه روزانه در مقابل بودجه، ناهنجاری حجم ورودی.
  • DataOps: تازگی ویترین، خطوط لوله SLA، خطاهای DQ.
  • امنیت: مدت گواهینامه، چرخش مخفی، آسیب پذیری های بحرانی (سن/SLA).
قفسه پایین (تشخیص/حفاری - ดาวn):
  • همبستگی «انتشار ↔ SLO»، «ارائه دهنده ↔ شکست/تاخیر».
  • لینک های سریع: سیاهههای مربوط، مسیرهای پیاده روی، بلیط، playbooks، SOP، ماتریس تشدید.

4) ابزارک (مجموعه مرجع)

1. SLO و نرخ سوختگی

SLI فعلی، هدف و خطای مصرف بودجه (1h/6h) را نشان می دهد.
عمل: کتابچه راهنمای تخریب خدمات را باز کنید.

2. حوادث (پانل SEV)

فعال/اخیر، اعلام/Comms تایمر، IC/Comms نقش.
عمل: اتاق جنگ باز، قالب به روز رسانی، چک لیست IC.

3. انتشارها/پیکربندی ها

Canary 1 → 5 → 25٪، پرچم ها، بازگشت (دکمه/لینک SOP).
حاشیه نویسی: نسخه، تعهد، نویسنده.

4. پنجره های نگهداری

فعلی/آینده, تحت تاثیر خدمات/مناطق; ماسک سرکوب کننده

اقدام: اطلاعیه ها را هماهنگ کنید، نگهبانان SLO را فعال کنید.

5. ظرفیت/مقیاس خودکار

پیش بینی مصرف (Naive/AR)، هات اسپات کارت، استخر گرم.
اقدام: درخواست سهمیه/قوانین مقیاس (PR به سیاست بازپرداخت).

6. عملیات مالی

$/واحد, بالا «گران» نمایش داده شد/سیاهههای مربوط, سوزاندن روزانه در مقابل بودجه.
اقدام: گزارش و توصیه را باز کنید (سیاهههای مربوط به نمونه برداری، آرشیو).

7. ارائه دهندگان

وضعیت SLA/PSP/KYC/CDN، وزن مسیر، آمادگی folback.
اقدام: تغییر وزن، قالب ارتباطی به شرکا.

8. امنیت

گواهینامه ها (≤30d)، تاخیر در چرخش، آسیب پذیری ها (سن)، رویدادهای مشکوک.
اقدام: دفترچه پخش/بلیط IR را باز کنید.

9. عملیات داده ها

طراوت پنجره، درصد پرش، شکست خط لوله، DLQ.
اقدام: تحول برگشتی/قرنطینه/برگشت.

5) حالت/رنگ/آستانه (مرجع)

سبز: SLI در هدف، نرخ سوختن <1 ×.
کهربا: SLI تنزل، سوختگی نرخ 1-2 ×، رشد p95، اما یک راه حل وجود دارد.

قرمز: نقض یا پیش بینی سوختگی <1h ؛ باز کردن SEV-1/0

خاکستری: سرکوب، بدون تله متری (خطای منبع).

6) حاشیه نویسی و همبستگی

وضعیت انتشار/پیکربندی/پنجره/ارائه دهنده در نمودارهای SLO نمایش داده می شود.
روی نشانگر → diff، نویسنده، دروازه ها، دکمه Rollback/Folback/SOP کلیک کنید.
در این حادثه، جدول زمانی از حاشیه نویسی و اقدامات ChatOps ساخته شده است.

7) منابع داده و تأیید

تله متری: متریک/دنباله/سیاهههای مربوط با trace_id.

ITSM: حوادث/مسائل/تغییرات (وضعیت/SLAs)

CI/CD: انتشار، امضا، مصنوعات، تست ها.
دایرکتوری سرویس/CMDB: صاحبان، SLO، وابستگی ها.
تقویم: پنجره های تعمیر و نگهداری.
ارائه دهندگان: تایید دستی وضعیت API + (فرود در یک ویترین جداگانه).
FinOps: برچسب های صورتحساب/منابع، حجم ورودی، خروج.

کنترل کیفیت: حد نصاب، پروب های تکراری، طراوت SLA، هشدار به منابع «گنگ».

8) حالت های نمایش

اتاق جنگ: طرح ثابت SLO/حوادث/انتشار/Comms-timer.
اجرایی (28 روز): روند MTTR/MTTD/SEV مخلوط، $/واحد، SLO-پایبندی.
در تماس: پانل جمع و جور «شب» (حالت تاریک، تعداد زیادی).
چند مستاجر/منطقه: فیلترهای سرویس/منطقه/مستاجر ؛ ایستگاه از پیش تنظیم شده.

9) ناوبری و اقدامات (یک کلیک)

دکمه ها: «/اعلام sev1 »، «/freeze»، «/rollback »، «/status update»، «playbook باز».
Drill- ดาวn: SLO → graph → logs/trails با فیلترهای از پیش پر شده (trace_id, release_id).
اشتراک گذاری: عکس فوری از پانل ها در یک صفحه بلیط/وضعیت.

10) امنیت، دسترسی، حسابرسی

SSO/OIDC + RBAC/ABAC: نقش ها و حوزه ها (مشاهده/عمل).
JIT/JEA: اقدام «خطرناک» تنها با افزایش موقت در دسترس است.
حسابرسی غیر قابل تغییر: چه کسی چه چیزی را فشار داد، چه درخواست ها/دستورات باقی مانده است.
اسرار: نمایش داده نمی شود، فقط لینک به مدیر مخفی.

11) معیارهای بلوغ CDU

عملی بودن ≥ 90٪: کلیک ها منجر به اقدامات می شوند، نه فقط نمودارها.
زمان اولین اقدام ≤ 2 دقیقه از CCD در طول SEV-1/0.
نسبت حوادثی که CDU «منبع حقیقت» بود 95٪ ≥.
تازه بودن ویدجت:٪ با داده «تازه 5 دقیقه».
پوشش:٪ از خدمات مهم با کارت های SLO و حاشیه نویسی انتشار.
نقاط کور صفر: منابع خاموش برای هفته = 0.

12) چک لیست

طراحی سایت

  • نقش ها و اسکریپت ها شرح داده شده اند (P1/P2/IC/Exec/FinOps/Security/DataOps).
  • فرهنگ لغت رنگ/SEV/آستانه سازگار است.
  • DataSources با حد نصاب و SLA ها طراوت.
  • اتاق جنگ/در تماس/طرح های اجرایی.
  • ChatOps/ITSM/CI/CD/CMDB برنامه ادغام.

عملیات

  • ابزارک عبور linter (زمینه های مورد نیاز، مالک، آستانه).
  • یک بار در هفته - تشدید/هشدار نقد و بررسی با بهبود DPC.
  • عکس های حادثه به AAR/RCA متصل می شوند.
  • حالت تاریک/از پیش تعیین شده وظیفه موبایل.
  • تست برای منابع «خاموش» و صحت حاشیه نویسی.

13) قالب (ایده ها)

13. 1 تعریف ویجت (YAML)

yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red:  { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"

13. 2 کارت حادثه (JSON)

json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}

13. 3 ارتباط با انتشار

yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }

13. 4 ویجت FinOps

yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"

14) ضد الگوهای

«دیوار نمودارها» بدون اقدامات و playbooks.
رنگ های مختلف/آستانه در دستورات → سردرگمی در SEV.
بدون حاشیه نویسی انتشار/پنجره - همبستگی علت پیچیده.
منابع تکراری بدون quorum صفحه/نویز کاذب هستند.
اسرار/کلید در پانل - خطر نشت.
رندر آهسته (درخواست ها/تجمع ها ذخیره نمی شوند) - پانل ها در نبرد باز نمی شوند.

15) نقشه راه پیاده سازی (4-8 هفته)

1. «ند». 1: مجموعه ای از الزامات توسط نقش ها، فرهنگ لغت وضعیت/رنگ، طرح بندی سه حالت.
2. «ند». 2: SLO/حوادث/انتشار/اتصال ویندوز، حاشیه نویسی، اقدامات ChatOps.
3. «ند». 3: اضافه کردن FinOps/ظرفیت/ارائه دهندگان/DataOps/امنیت، حد نصاب منابع.
4. «ند». 4: حالت اتاق جنگ، عکس های فوری در ITSM، خلبان در Tier-0.
5. «ند». 5-6: بهینه سازی عملکرد، از پیش تعیین شده موبایل/تماس، ویجت.
6. «ند». 7-8: معیارهای بلوغ، بررسی هفتگی، توصیه های خودکار (سیاهههای مربوط به نمونه گیری، سهمیه ها، folback).

16) خط پایین

CDU ها «نمودارهای زیبا» نیستند، بلکه یک پانل از راه حل ها هستند: SLO و burn-rate از بالا، حوادث/انتشار/ویندوز در یک زمینه، اقدامات فوری از طریق ChatOps و SOP، منابع تایید شده و حاشیه نویسی. این داشبورد MTTA/MTTR را کاهش می دهد، ارتباطات را ساده می کند، از FinOps پشتیبانی می کند و عملیات را شفاف و قابل پیش بینی می کند.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.