داشبورد عملیاتی
(بخش: عملیات و مدیریت)
1) اهداف و اصول
داشبورد عملیاتی یک «پنجره واحد» برای نظارت بر سلامت پلتفرم و اقدام است. این معیارها، رویدادها، هشدارها و ارقام کلیدی کسب و کار را در زمینه نقش کاربر (SRE، محصول، مالی، انطباق، پشتیبانی، شرکا) جمع می کند.
اصول:- عملی توسط طراحی: هر ویجت دارای یک دکمه عمل (برگشت، pauze، دوباره اجرا، دوباره مسیر).
- آگاهی از نقش: حقوق و سطوح جزئیات به نقش/مستاجر/منطقه بستگی دارد.
- منبع حقیقت: اعداد با صورتحساب/سیاهههای مربوط/صورتحساب همگرا می شوند.
- نزدیک به زمان واقعی + historicity: ثانیه/دقیقه برای حوادث، ماه/سال برای روند.
- توضیح پذیری: هر مجموع به یک رویداد خام با 'trace _ id' گسترش می یابد.
۲) نقشها و فیلمنامهها (چه کسی میآید و چرا)
SRE/Platform: در دسترس بودن، p50/p95/p99 تاخیر، خطا/بازپرداخت، ظرفیت، هزینه در هر 1k رویداد.
محصول/عملیات: نرخ E2E-Success، تبدیل، زمان ورود شریک، phicheflags.
امور مالی/FinOps: درآمد/COGS/CM در هر واحد، خروج/ورود، بودجه و کلاه، انحراف.
انطباق/امنیت: رسید/امضا، درخواست PII، نقض SoD، وضعیت جواز مجدد.
پشتیبانی/CS: صف بلیط، MTTA/MTTR، SLA توسط شریک و منطقه.
همکاران/مستاجران: معیارهای SLO خود، وضعیت وب سایت، استفاده و سهمیه ها.
3) ستاره شمالی و کلید SLI/SLO
ستاره شمالی: میزان موفقیت E2E در مسیرهای بحرانی در هدف p95 در هر منطقه.
SLI (مثال):- در دسترس بودن در هر کانال/منطقه.
- P50/P95/P99 تاخیر.
- نرخ خطا و نسبت بازپرسیها.
- میزان موفقیت تحویل Webhook (٪ با رسید).
- هزینه 1K حوادث و خروج/ورود در هر واحد.
- خلاصه حوادث: MTTA، MTTR، خطا در بودجه.
- دسترسی ≥ 99 95 ٪/منطقه/کانال.
- p95 ≤ 120 ms (ویترین)، ≤ 250 ms (پرداخت/نقل قول).
- موفقیت وب سایت ها ≥ 99 5% در 5 دقیقه پنجره.
- Δ بین نقل قول و پرداخت = 0 (± 1 واحد جزئی با توجه به قوانین تخصیص).
- زمان واکنش در P1 ≤ 10 دقیقه، MTTR ≤ 60 دقیقه.
4) معماری داده داشبورد
اتوبوس رویداد: تله متری (ردیابی/متریک/سیاهههای مربوط)، رویدادهای کسب و کار، صدور صورت حساب، انطباق.
جریان/تجمع: T + 5s/T + 1m پنجره برای نزدیک به زمان واقعی ؛ CDC/outbox برای تحویل تضمین شده.
ذخیره سازی: سری زمانی (RAM)، OLAP (تاریخ طولانی)، گزارش های WORM (حسابرسی).
لایه معنایی: فرهنگ لغت معیارها، واحدها، عادی سازی بر اساس منطقه و مستاجران.
پیوند به مواد اولیه: تمرین به 'trace _ id '/' event _ id' و امضا (receipt_hash).
5) طراحی رابط و ویجت
هدر جهانی: فیلترها (زمان، منطقه، مستاجر، محصول، محیط زیست)، شاخص های وضعیت.
کاشی ها (KPI ها): E2E موفقیت، در دسترس بودن، p95، میزان خطا، هزینه/1k، خروج.
نمودارها: روند جرقه، نقشه گرما بر اساس منطقه، نمودار صدک.
جداول: اشتباهات بالا، شرکای با تخریب، بیش از سهمیه، حوادث باز نشده.
بخش های عمل: «توقف تبلیغی»، «ویژگی بازگشت»، «افزایش سهمیه»، «تحویل راه اندازی مجدد».
Context-help: نکاتی در مورد معیارها/تکنیک ها و ارتباط با SLO.
6) ماژول های داشبورد (مجموعه توصیه می شود)
1. سلامت پلت فرم: در دسترس بودن/تاخیر/خطاها، سوزاندن خطا بودجه.
2. یکپارچگی شریک: وضعیت webhook، رسید، طول می کشد idemotent، صف تاخیر.
3. پرداخت & قیمت: انطباق vitrina↔checkout, 'fx _ version', 'tax _ rule _ version', موارد شکست.
4. محتوا/دایرکتوری ها: زمان انتشار، خطاهای حافظه پنهان/نامعتبر، طراوت.
5. RTP & محدودیت ها (در صورت وجود): در مقابل RTP مشاهده شده، تحریک محدودیت ها، قرار گرفتن در معرض.
6. FinOps: COGS/واحد، خروج/ورود، محاسبه/ذخیره سازی، بودجه/کلاه-هشدار.
7. امنیت/انطباق: SoD، JIT، MFA، عملیات امضا شده، درخواست PII و سیاهههای مربوط.
8. پشتیبانی: صف، MTTA/MTTR، دلایل، کتابهای خودکار.
9. انتشار/ویژگی پرچم: وضعیت انتشار، مناطق قناری، خودکار چسباندن رگرسیون با حوادث.
10. آزمایشات: گارد محافظ A/B، تاثیر ویژگی های SLI/ROI.
7) هشدارها، زنگ ها و تشدید
هشدار سطح P1-P3 با لغو سر و صدا و 'ردیابی _ id' deduplication.
Auto-runbooks: هنگامی که باعث - شروع چک/رفع (پاک کردن کش, تعویض مسیریابی, مکث تبلیغی).
تشدید: ماتریس 24 × 7، SLO پاسخ، کانال (چت/صدا/اس ام اس)، «دکمه قرمز».
پس از حادثه: الگوهای گزارش علی و موارد اقدام.
8) چند منطقه ای و چند مستاجر
برش ها: منطقه/مستاجر/کانال/ارائه دهنده، SLO مستقل و بودجه.
مناطق اطمینان: داده های PII/امور مالی - فقط در مناطق مربوطه قابل مشاهده است، بقیه - جمع می شوند.
هزینه آگاه: مقایسه مسیرها با قیمت در همان p95 ؛ توصیه های بهینه سازی
9) امنیت و حریم خصوصی
RBAC/ABAC: دید و اقدامات توسط نقش ؛ ReBAC برای مالکیت محصول/مستاجر.
امضا و رسید: برای رویدادهای مالی/بحرانی - هش و رسید DSSE.
بهداشت PII: نشانه گذاری، ماسک کردن، دسترسی تنها از طریق jabs تایید شده است.
حسابرسی: سیاهههای مربوط به WORM برای تغییرات پیکربندی/نقش/محدودیت، تکرارپذیری.
10) مدل داده متریک (مثال)
'metric' {نام، واحد، نوع: شمارنده/سنج/hist، مالک، sla_ref}'
'dim' '{منطقه، مستاجر، محصول، ارائه دهنده، نسخه، محیط زیست}'
'point' '{متریک، مقدار، ts، dims {}، trace_id، امضا ؟}'
"event" {نوع، شدت، subject_id، payload_hash، receipt_hash، ts} "
'slo' {نام، هدف، پنجره، burn_rate، صاحبان []، runbook_url}'
'alert' {slo _ ref, وضعیت, ack_by, acknowledged_at, runbook_step}'
11) داشبورد API/webhooks
'POST/ingest/metrics' - معیارهای دریافت (طرح، محدودیت ها، احراز هویت).
'POST/ingest/events' - رویدادهای کسب و کار (نسخه/امضا).
'GET/KPIS ؟ فیلترها... '- برای ویجت ها جمع می شود.
'GET/traces/{ trace _ id}' - تبلیغات عمیق.
Вебхуки: 'IncidentRaised', 'QuotaCapReached', 'PriceMismatch', 'WebhookDeliveryLag', 'SecuritySoDViolation'.
12) کیفیت داده ها و تست ها
قراردادهای داده: طرحها و اعتبارسنجی در پذیرش، نسخهبندی ('گسترش → مهاجرت → قرارداد').
ناهنجاری: نظارت بر حذفیات/جهش, آستانه «خط صاف «/» سر و صدا ».
نمونه برداری: برای معیارهای QPS بالا - کشویی، در حالی که حفظ نمایندگی.
Backfill: نسخه امن برچسب backloads.
13) معیارهای داشبورد خود (معیارها)
در دسترس بودن UI/API ≥ 99. 9%.
درخواست های API p95 تاخیر ≤ 300 میلی ثانیه.
Completeness: درصد منابعی که داده ها را به پنجره ارسال می کنند 99 ≥. 5%.
تازگی: به روز رسانی افزایشی تاخیر ≤ 30 ثانیه.
صحت: اختلاف با گزارش های مرجع ≤ 0. 1%.
14) اقتصاد و FinOps در داشبورد
هزینه هر رویداد 1k تجزیه شده توسط ارائه دهنده/منطقه.
نقشه های حرارتی خروج/ورود، توصیه های ذخیره سازی/مسیریابی.
بودجه/کلاه هشدار: 80/90/100٪، خودکار تجارت و اولویت بندی.
15) در دسترس بودن و UX
تم شب، زیرنویس های کوتاه، آیکون های وضعیت.
ناوبری صفحه کلید و a11y: کنتراست، alt، برچسب های آریا.
ایستگاه از پیش تنظیم ذخیره شده: «وظیفه SRE»، «امور مالی»، «شریک».
عکس های فوری و به اشتراک گذاری: ضبط دولت با فیلتر و لینک/صادرات.
16) خطرات و ضد الگوهای
Dash-sprawl: 20 داشبورد مختلف بدون یک فرهنگ لغت واحد از معیارها.
معیارهای غرور: نمودارهای زیبا بدون اتصال به SLO/اقدامات.
ناسازگاری ارقام: گزارش ها ≠ صورتحساب/حسابرسی.
هشدار پر سر و صدا: خستگی و حذفیات P1.
عدم وجود تمرین پایین: غیر ممکن است برای رسیدن به اولیه و علل.
17) چک لیست پیاده سازی
- تعریف نقش ها و اسکریپت ها ؛ با ستاره شمالی و SLI/SLO موافقم.
- ایجاد یک فرهنگ لغت از معیارها و واحدها ؛ قراردادهای اطلاعاتی را رسمی کنید.
- پیکربندی مصرف (معیارها/رویدادها/ردیابی)، OLAP و حسابرسی WORM.
- پیاده سازی ماژول های کلیدی (سلامت، شرکا، پرداخت، FinOps، امنیت).
- شامل هشدار با runes و افزایش ؛ «دکمه قرمز»
- اقدامات rollback/pause/re-route/raise-limit را اضافه کنید.
- ساخت نقشه گرما توسط منطقه/مستاجر ؛ فیلترها و پیش تنظیمات
- ارقام خروجی را با صورتحساب/صورتحساب تأیید کنید.
- بازی روز (GameDay): قطع ارتباط از ارائه دهنده, بهمن از retras, desynchronization از قیمت.
- بررسی هفتگی SLO و کیفیت پس از مرگ.
18) RACI
19) سوالات متداول
آیا می توان همه گزارش ها را با داشبورد جایگزین کرد ؟
نه، اينطور نيست داشبورد - برای RAM و اقدامات ؛ گزارش رسمی/حسابرسی - مصنوعات فردی.
چقدر «زمان واقعی» نیاز دارید ؟
برای حوادث - ثانیه/دقیقه، برای اقتصاد - دقیقه/ساعت ؛ ثبات مهم است، نه مطلق «آنلاین».
چگونه با سر و صدای هشدارها مقابله کنیم ؟
شرایط SLO گرا، تجمع، deduplication توسط 'trace _ id'، اولویت بندی و خودکار runbooks.
چگونه صحت معیارها را بررسی کنیم ؟
آشتی منظم با گزارش های مرجع، خوراک تست، نمونه های کنترل و سیاهههای مربوط به WORM.
داشبورد عملیاتی یک «هیئت مدیره زیبا» نیست، بلکه یک ابزار مدیریتی است: SLI/SLO تک، اقدامات از رابط، ردیابی به مواد خام و سازگاری دقیق با صدور صورت حساب و حسابرسی. آن را در یک معماری رویداد بسازید، زمینه را با نقش، خطوط و تشدید اضافه کنید - و عملیات قابل پیش بینی، تصمیمات سریع و رشد پایدار را دریافت می کنید.