לוחות מחוונים של תשתיות
1) למה אתה צריך את זה
תמונה אחת של המדינה: מאשכול ורשתות למאגרי מידע ותורים.
אר-סי-איי מהיר ופוסט-מורטמים: חבורה של מדדים ↔ יומנים ↔ עקבות.
SLO על ידי שירות ופלטפורמה: שליטה על זמינות ולאחור.
שקיפות FinOps: נפח/עלות על ידי שירותים, דייר וסביבות.
ציות/ביטחון: מצב של טלאים/נקודות תורפה, גישה, חריגות.
מתודולוגיות: אותות זהב (LATENCY, תנועה, שגיאות, רוויה), RED (קצב, שגיאות, משך) עבור בקשות, שימוש (ניצול, רוויה, שגיאות) עבור משאבים.
2) עקרונות לוח מחוונים טוב
כל פנל בר-פעולה מגיב ל ”מה לעשות הלאה”.
היררכיה: סקירה * domains = צלילה עמוקה = גולמי.
תבניות/משתנים: ”אשכול”, ”שם”, ”שירות”, ”דייר”, ”env”.
יחידות אחידות: ms עבור latency,%, RPS, ops/second, betes.
קוצב זמן עקבי: ברירת מחדל 1-6 שעות, מכוון מראש 5m/15m/24h.
קידוח: מהלוח ליומנים (Loki/ELK) ומהרצועה (Tempo/Jaeger).
בעלות: הבעלים רשום על לוח המחוונים, SLO, רישום, יצירת קשר בכוננות.
3) מבנה תיקייה ותפקידים
00_Overview - סקירה ברמה גבוהה של הפלטפורמה.
10_Kubernetes - אשכולות, צמתים, עומס עבודה, HPA/VPA, מכולות.
20_Network_Edge - כניסה/שליח/נגינקס, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, אחסון אובייקטים.
40_CICD_Runner צינורות, סוכנים, חפצים, רישום.
50_Security_Compliance - נקודות תורפה, טלאים, RBAC, אירועי ביקורת.
עלות 60_FinOps_Cost לכל שירות/דייר/אשכול, סילוק.
קישורים 99_Runbooks להוראות וכרטיסי SLO.
תפקידים: Platform-SRE (גישה מלאה), Service-בעלים (רווחים משלו), Security/Complication, Finance/FinOps, View-only.
4) לוח מחוונים לסקירת פלטפורמה (נחיתה)
מטרה: 30 שניות כדי להבין אם הכל בסדר.
לוחות מומלצים:- פלטפורמת SLO (קצה זמינות API): ערך מטרה, בפועל, עידן של טעויות, קצב צריבה.
- p50/p95/p99 לינה על ידי נקודות כניסה עיקריות.
- 4xx/5xx שגיאות ונקודות קצה עליונות עם רגרסיות.
- רווית משאבים (מעבד, RAM, רשת, דיסק) - p95 על ידי אשכול.
- תקריות/התראות (פעילות) ושחרורים אחרונים.
- עלות/שעה (משוער) ומגמה בשבוע.
תבניות משתנות: ”env”, ”אזור”, ”אשכול”, ”דייר”.
5) קוברנטס: אשכולות וסדנאות
קבוצות מפתח:1. אשכול/צמתים
מעבד/סילוק זיכרון, לחץ (זיכרון/מעבד), דיסק IO, אינודה.
תת-מערכות: kube-api, etcd, בקרים; בריאות קובלט.
2. Vorkloads
RPS/RPM, latency p95, קצב שגיאות, התחלות מחדש, מצערת, OOMKILS.
מטרות HPA נגד מדדים בפועל.
3. נתיב רשת בתוך אשכול
eBPF/Netflow: דברנים עליונים, טיפות, תרגומים מחדש.
4. אירועים K8s
דרג אזהרה/לוח זמנים/גיבוי.
דוגמאות ל ־ PromQL:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) קצה, רשת ו ־ DNS
פנלים:- כניסה/שליחה/נגינקס: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: הפצת תנועה לפי אזורים, כשלים באירועים.
- DNS: latency רזולוציה, NXDOMAIN/SERVFAIL קצב, מטמון להיט יחס.
- CDN/WAF: חסום על ידי כללים, תנועה לא תקינה (bots/gruppers).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) מסדי נתונים ואחסונות
PostGreSQL/MySQL: qps, latency, lock waits, lag שכפול, גיבויים/כשלים.
רדיס: יחס פגיעה, פינוי, זיכרון, פקודות איטיות.
Kafka/RabbitMQ: פיגור של קבוצות צרכנים, איזון מחדש, הודעות לא מבוטלות.
אחסון אובייקטים: שאילתות, שגיאות, יציאה, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
קפקא (דוגמה):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD וחפצים
סקירת צינור: הצלחה/זמן ריצה, תור רץ.
בריאות פריסה: גרסאות, מצב כנרי/כחול-ירוק, זמן חימום.
רישומי תמונות: גודל, דחיפה אחרונה, וסילוק.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) בטיחות וציות
טלאים ופגיעות: פרופורציה של צמתים/תמונות עם CVS קריטי, ממוצע ”זמן תיקון”.
ניסיון גישה כושל, גישה לסודות.
אירועי ביקורת: קלט/שינויים ברכיבים קריטיים, סחיפה.
WAF/DLP/PII: מנעולי שלטון, שגיאות מיסוך.
10) יומנים ושבילים: סקירה מקצה לקצה
סיכום שגיאות מתוך יומנים (Loki/ELK): יוצאים מן הכלל עליונים, חתימות חדשות.
כפתור ”עבור לרישומים עם מסננים” (שאילתת LogQL/ES).
עקבות: מרווחים איטיים עליונים, אחוז הבקשות ללא הקשר עקבות.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) פינוקס: עלות וסילוק
עלות על ידי שירותים/דיירים/אשכולות (לפי חיוב/יצואנים).
צמתים חמים/קרים: משאבים בטלים, המלצות נכונות (CPU/Mem).
יציאת נתונים, בקשות אל-7 ועלותם.
דינמיקה: שבוע/חודש, תחזית.
- , , .
- גורם יעילות: ”RPS/$ 'או' SLO-דקות/$”.
12) SLO, באגים וקצב צריבה
כרטיס SLO על כל לוח מחוונים תחום: מטרה, נקודה, שגיאות (תקציב).
התראות בקצב צריבה (שתי מהירויות: מהיר/איטי).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) תקני ויזואליזציה
סוגי פאנל: סדרות זמן לסדרות, Stat עבור KPI, טבלה עבור top-N, hatmap עבור latency.
אגדות ויחידות: דרושים; תוויות מקוצרות, תבנית SI.
אזורי צבע: ירוק/צהוב/אדום על ידי SLO/סף (אחיד).
תיאור לוח: מה שאנחנו מודדים, מקור, לינק ריצה, בעלים.
14) תבניות לוח (התחלה מהירה)
(א) סקירה של API
KPI: ”RPS”, ”p95”, ”5xx%”, ”שגיאה _ תקציב _ שארית”.
נקודות סוף עליונות על ידי שגיאה/איחור.
Drilldown ברישומי "trace _ id' = עקבות $.
(B) Node Health
מעבד/זיכרון/דיסק/רשת - p95 על ידי צומת, רשימת ”חם”.
לחץ, חנק, חבילת טיפות.
(C) DB בריאות
TPS, latency p95, מנעולים, lag שכפול, שאילתות איטיות.
גיבוי מצב/הצלחה אחרונה.
(ד) קפקא לג
לאג אחרי קבוצה, שיעור הצריכה נגד ייצור, איזון מחדש.
(E) עלות & Util
עלות/שעה על ידי שירותים,% סרק, רמזים נכונים, תחזית.
15) משתנים ותגים (סט מומלץ)
'env' (prod/stage/dev)
'region '/' azz&fos
"צבירה &ft
'Namespace '/' שירות '/' עבודה loadlad&pos
'tenantfost &ft
'component' (קצה/db/מטמון/תור)
version '(release/git_sha)
16) אינטגרציה עם התראה וניהול אירוע
כללים ב Alertmanager/Graphana מתריעים עם קישורים ללוח המחוונים הרצוי וכבר החליפו משתנים.
P1/P2 לפי קריטריונים של SLO, הקצאה אוטומטית לתורנות.
הערות של שחרור/תקריות על גרפים.
17) איכות לוחות מחוונים: רשימה
[ ] בעלים וקשר.
[ ] SLO/הסף מתועדים.
[ משתנים ] עובדים ומגבילים את גודל השאילתות.
[ ] כל הלוחות עם יחידות ואגדה.
[ ] קידוחים לרישומים/עקבות.
[ ] הלוחות מתאימים ל-2-3 ”מסכים” (ללא גלגול לקילומטר).
[ ] זמן תגובה 2 - 3 שניות (מטמון, למטה).
[ ] אין לוחות מתים או מדדים מושבתים.
18) ביצועים ועלויות של לוחות מחוונים עצמם
מנמיך/מקליט כללים להתקבצות כבדה.
מטמון (שאילתה-פרונטנד/חוזר) ומגבלות טווח/צעד.
האנגר מבחן: טען על אשכולות TSDB/עבור בקשות טיפוסיות ללוח מחוונים.
חיטוי תווית (קרדינליות נמוכה), נטישת כרטיסי בר.
19) תוכנית יישום (איטרציות)
1. שבוע 1: נחיתה + K8s/Edge ביקורות, סל "ד בסיסי, בעלים.
2. שבוע 2: DB/תורים, רישום ועקבות אינטגרציה (drilldown), התראות בקצב צריבה.
3. שבוע 3: לוחות מחוונים, המלצות נכונות, דו "ח עלות.
4. שבוע 4 +: אבטחה/ציות, אוטוגנרציה של כרטיס SLO, בדיקות רגרסיה של לוח מחוונים.
20) מיני ־ FAQ
כמה לוחות מחוונים אתה צריך?
לפחות סקירה 1 + 1 לכל תחום (K8s, אדג ', DB, תורים, CI/CD, אבטחה, עלות). השאר הוא על ידי בגרות.
מה חשוב יותר - מדדים או בולי עץ?
מדדים לתסמינים ו-SLO, יומנים לסיבות. חוט דרך "trace _ id' ותוויות עקביות.
איך לא ”לטבוע” בלוחות?
היררכיה, בעלים מפורשים, היגיינה מטרית, ביקורות סדירות והסרת לוחות ”מתים”.
סך הכל
לוחות מחוונים הם לא ”גרפים יפים”, אלא כלי ניהול: SLO, RCA מהיר ו-FinOps מודע. תקן משתנים, תבניות חזותיות, ובעלים; לספק קידוחים לרישומים/מסלולים והתראות אוטומטיות. זה ייתן יכולת חיזוי, מהירות תגובה ושקיפות עלויות ברמה של כל הפלטפורמה.