לוח בקרה מרכזי
1) מטרה ועקרונות
לוח המחוונים המרכזי (באנגלית: Central Control Dashboard) הוא חלון הזדמנויות לקבלת החלטות. הוא צובר אותות מטלמטריה, ITSM, CI/CD, קטלוג שירות, לוח שנה עבודה וספקים, והופך אותם לויידג 'טים ברי פעולה.
עקרונות:- SLO-ראשון: למעלה - מטרה SLO ושריפה קצב על ידי Tier-0/1.
- לחיצה אחת לפעולה: החל מהווידג 'ט ועד פנקס המהלכים או הכרטיס.
- מילון מאוחד: אותו סב "ב, סטטוסים, צבעים וסף.
- אנוטציות אירוע: משחרר/הגדרות/חלונות על כל הגרפים.
- תפקידים והרשאות: השקפות אישיות (תורן, IC, ניהול).
- קוורום בעל מקור רעש נמוך, שכפול ורוחות.
2) תפקידים ותרחישי מפתח
On-Call (P1/P2): מהר להבין ”מה הוא על” ולפתוח את ספר המהלכים (לחצו על 1).
הכרז SEV, התחל מצב-חדר-מלחמה, בקרת קדנציה של עדכוני com.
מנהל שחרור: ראה שערים, התקדמות קנרית, גלגול חוזר מוכנות.
בעל שירות/מוצר: SLI עסקי (הצלחה של תשלומים/רישום), השפעה של תכונות.
SRE/פלטפורמה: קיבולת, אוטוסקלה, חריגות, מוכנות לד "ר.
פינאופס: $/יחידה, התעמרות יתר, התראות תקציב.
אבטחה/משפטית: יציבה, תעודות מפתח, חלונות סיבוב, קישורי ביקורת תולעת.
3) ארכיטקטורת מידע של CDA
מדף עליון (לוח גיבורים):- SLO Tier-0/1 (זמינות/הצלחה/latency/latency) הוא שיעור 2-burn.
- תקריות פעילות וציר הזמן שלהם.
- מצב שחרור: קנרית/כחול-ירוק, שערים פעילים.
- ספקי רמזורים (PSP/KYC/CDN).
- חלונות תחזוקה (עכשיו/24h), כרטיס דיכוי.
- קיבולת: CPU/RAM/IO/queue-depth/p95 איחור עם תחזית.
- FinOps: $1k txn, הוצאות יומיות נגד תקציב, אנומליות יומן נפח.
- DataOps: רעננות של תצוגות ראווה, צינורות SLA, שגיאות DQ.
- אבטחה: מונח תעודה, סיבוב סודי, נקודות תורפה קריטיות (גיל/SLA).
- קורלציות ”לשחרר ↔ SLO”, ”ספק ↔ כשל/latency”.
- קישורים מהירים: יומנים, שבילים, כרטיסים, ספרי משחק, סופ "ש, מטריצת הסלמה.
4) וידג 'טים (סט התייחסות)
1. SLO & שרפה-קצב
מציג את צריכת התקציב הנוכחית של SLI, המטרה והשגיאה (1h/6h).
פעולה: פתח את ספר המהלכים להשפלת השירות.
2. תקריות (לוח סוו)
Timers Active/Resident, Creating/Comms, IC/Comms.
פעולה: חדר מלחמה פתוח, תבנית עדכון, רשימת בקרת מחלות.
3. משחרר/הגדרות
Canary 1 # 5 + 25%, דגלים, rollback (כפתור/SOP קישור).
הערות: גרסה, התחייבות, מחבר.
4. חלונות תחזוקה
נוכחי/קרוב, מושפע שירותים/אזורים; מסכת דיכוי.
פעולה: לתאם הודעות, לאפשר שומרי SLO.
5. קיבולת/אוטוסקלה
תחזית צריכה (נאיבי/AR), קלף חם, בריכה חמה.
פעולה: מכסות בקשה/כללי קנה מידה (PR לביטול מדיניות).
6. FinOps
יחידה $/יחידה, שאילתות ”יקרות” עליונה/יומנים, צריבה יומית נגד תקציב.
פעולה: פתח את הדו "ח והמלצתו (רישומי דגימה, ארכיונים).
7. ספקים
SLA/PSP/KYC/CDN מצב, משקולות מסלול, מוכנות עממית.
פעולה: לעבור משקל, תבנית תקשורת לשותפים.
8. אבטחה
תעודות (30d), עיכובים בסיבובים, נקודות תורפה (גיל), אירועים חשודים.
פעולה: פתח את ספר המהלכים/כרטיס.
9. DataOps
רעננות החלון, דילוג על אחוזים, כשל צינור, DLQ.
פעולה: Backfill/הסגר/rollback transformation.
5) מצבים/צבעים/סף (התייחסות)
ירוק: SLI בתוך היעד, לשרוף קצב <1 ×.
אמבר: SLI מתפרק, קצב צריבה 1-2 ×, גידול p95, אבל יש מעקף.
אדום: הפרה או חיזוי לשרוף-out <1h; פתח את SEV-1/0.
אפור: דיכוי, אין טלמטריה (שגיאת מקור).
6) אנוטציות וקורלציות
שחרור/הגדרה/חלון/סטטוסים מוצגים בגרפי SLO.
לחץ על סימון הדיף, מחבר, שערים, Rollback/Folback/SOP.
בתקרית, ציר הזמן בנוי מהערות ומעשים.
7) מקורות מידע ואימות
טלמטריה: מדדים/שבילים/יומנים עם trace_id.
ITSM: תקריות/סוגיות/שינויים (Statuses/SLAs).
CI/CD: שחרור, חתימות, חפצים, בדיקות.
ספריית שירות/CMDB: בעלים, SLO, תלויות.
לוח שנה: חלונות תחזוקה.
ספקים: אישור מצב-API + ידני (נחיתה בתצוגה נפרדת).
FinOps: תגי חיוב/משאבים, כרכי יומן, יציאה.
בקרת איכות: מניין, גשושיות כפולות, רעננות SLA, התראות למקורות ”מטומטמים”.
8) מצבי תצוגה
חדר מלחמה: פריסה קבועה SLO/תקריות/שחרור/טיימר תקשורת.
(28 ימים): טרנדים MTTR/MTTD/SEV מיקס, $/unit, SLO-addhence.
בכוננות: לוח ”לילה” קומפקטי (מצב אפל, מספרים גדולים).
רב-דייר/אזור: מסנני שירות/אזור/דייר; קדימונים.
9) ניווט ופעולות (לחיצה אחת)
כפתורים: '/הכרזה על סבי1 ', '/הקפאה', '/rollback ', '/עדכון מצב', 'ספר משחקים פתוח'.
Drill- ดาวn: SLO: SLO * graph # logs/trails עם מסננים ממולאים (trace_id, release_id).
שיתוף: צילום של לוחות בדף כרטיס/סטטוס.
10) אבטחה, גישה, ביקורת חשבונות
SSO/OIDC + RBAC/ABAC: תפקידים וסקופים (תצוגה/פעולה).
הפעולה ה ”מסוכנת” זמינה רק עם העלאה זמנית.
ביקורת בלתי ניתנת לשינוי: מי לחץ על מה, אילו בקשות/פקודות עזבו.
סודות: לא מוצגים, רק קישורים למנהל הסודי.
11) מדריכי בגרות CDU
פעילות של 90%: קליקים מובילים לפעולות, לא רק גרפים.
זמן לפעולה ראשונה 2 דק מ CCD במהלך SEV-1/0.
הפרופורציה של תקריות בהן המעבד היה ”מקור האמת” היא 95%.
רעננות של וידג 'טים:% עם נתונים ”5 דקות טריות”.
כיסוי:% מהשירותים הקריטיים עם כרטיסי SLO ושחרור הערות.
נקודות אפס: מקורות שקטים לשבוע = 0.
12) רשימות בדיקה
עיצוב
[ ] תפקידים ותסריטים מתוארים (P1/P2/IC/Exec/FinOps/Security/DateOps).
[ ] מילון הצבע/SEV/סף עקבי.
[ ] Datastrics עם מניין ורעננות SLAA.
[ ] חדר מלחמה/בכוננות/פריסות מנהלים.
[ ] צ 'טופ/ITSM/CI/CD/CMDB.
מבצע
[ ] Widgets pass linter (שדות דרושים, בעלים, סף).
[ ] פעם בשבוע - סקירת הסלמה/התראה עם שיפורים ב-DPC.
[ תצלומי תקרית ] מחוברים ל AAR/RCA.
[ ] Dark Mode/Mobile Duty Preset.
[ ] מבחנים למקורות ”אילמים” ולתקינות של הערות.
13) תבניות (רעיונות)
13. הגדרת ווידג 'ט 1 (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. כרטיס תקרית 2 (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 חיבור עם השחרור
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 FinOps widget
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) אנטי דפוסים
”קיר של גרפים” ללא פעולות וספרי משחק.
צבעים/סף שונים על פקודות = בלבול ב-SEV.
אין שחרור/הזמנת חלון - מתאם סיבות מורכב.
מקורות כפולים ללא מניין הם עמודים/רעש מזויפים.
סודות/מפתחות בפאנל - סיכון לדליפה.
מעבד איטי (בקשות/אגרגציות אינן מטופלות) - לוחות אינם נפתחים בקרב.
15) מימוש מפת דרכים (שבועות 4-8)
1. נד. 1: אוסף של דרישות לפי תפקידים, מילון סטטוסים/צבעים, פריסות של שלושה מצבים.
2. נד. 2: SLO/תקריות/שחרור/חיבור חלונות, הערות, פעולות שאטופס.
3. נד. 3: הוספת FinOps/Cability/Spectures/DataOPs/Security, מניין מקורות.
4. נד. 4: מצב חדר מלחמה, צילומים ב-ITSM, טייס על Tier-0.
5. נד. 5-6: אופטימיזציה ביצועית, ניידת/כוננות מראש, וויידג 'ט לינטר.
6. נד. 7-8: מדדי בגרות, סקירה שבועית, המלצות אוטומטיות (דגימות יומנים, מכסות, פולבק).
16) השורה התחתונה
CDUs אינם ”גרפים יפים”, אלא פאנל של פתרונות: SLO וקצב צריבה מלמעלה, תקריות/שחרור/חלונות בהקשר אחד, פעולות מיידיות באמצעות ChatOps ו-SOP, מקורות מאושרים והערות. לוח המחוונים הזה מפחית את MTTA/MTR, מפשט את התקשורת, תומך ב-FinOps והופך את הפעולה לשקופה וצפויה.