לוחות מחוונים של תשתיות

1) למה אתה צריך את זה

תמונה אחת של המדינה: מאשכול ורשתות למאגרי מידע ותורים.
אר-סי-איי מהיר ופוסט-מורטמים: חבורה של מדדים ↔ יומנים ↔ עקבות.
SLO על ידי שירות ופלטפורמה: שליטה על זמינות ולאחור.
שקיפות FinOps: נפח/עלות על ידי שירותים, דייר וסביבות.
ציות/ביטחון: מצב של טלאים/נקודות תורפה, גישה, חריגות.

מתודולוגיות: אותות זהב (LATENCY, תנועה, שגיאות, רוויה), RED (קצב, שגיאות, משך) עבור בקשות, שימוש (ניצול, רוויה, שגיאות) עבור משאבים.

2) עקרונות לוח מחוונים טוב

כל פנל בר-פעולה מגיב ל ”מה לעשות הלאה”.
היררכיה: סקירה * domains = צלילה עמוקה = גולמי.
תבניות/משתנים: ”אשכול”, ”שם”, ”שירות”, ”דייר”, ”env”.
יחידות אחידות: ms עבור latency,%, RPS, ops/second, betes.
קוצב זמן עקבי: ברירת מחדל 1-6 שעות, מכוון מראש 5m/15m/24h.
קידוח: מהלוח ליומנים (Loki/ELK) ומהרצועה (Tempo/Jaeger).
בעלות: הבעלים רשום על לוח המחוונים, SLO, רישום, יצירת קשר בכוננות.

3) מבנה תיקייה ותפקידים

00_Overview - סקירה ברמה גבוהה של הפלטפורמה.
10_Kubernetes - אשכולות, צמתים, עומס עבודה, HPA/VPA, מכולות.
20_Network_Edge - כניסה/שליח/נגינקס, LB, DNS, CDN, WAF.
30_Storage_DB - PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, אחסון אובייקטים.
40_CICD_Runner צינורות, סוכנים, חפצים, רישום.
50_Security_Compliance - נקודות תורפה, טלאים, RBAC, אירועי ביקורת.
עלות 60_FinOps_Cost לכל שירות/דייר/אשכול, סילוק.
קישורים 99_Runbooks להוראות וכרטיסי SLO.

תפקידים: Platform-SRE (גישה מלאה), Service-בעלים (רווחים משלו), Security/Complication, Finance/FinOps, View-only.

4) לוח מחוונים לסקירת פלטפורמה (נחיתה)

מטרה: 30 שניות כדי להבין אם הכל בסדר.

לוחות מומלצים:

פלטפורמת SLO (קצה זמינות API): ערך מטרה, בפועל, עידן של טעויות, קצב צריבה.
p50/p95/p99 לינה על ידי נקודות כניסה עיקריות.
4xx/5xx שגיאות ונקודות קצה עליונות עם רגרסיות.
רווית משאבים (מעבד, RAM, רשת, דיסק) - p95 על ידי אשכול.
תקריות/התראות (פעילות) ושחרורים אחרונים.
עלות/שעה (משוער) ומגמה בשבוע.

תבניות משתנות: ”env”, ”אזור”, ”אשכול”, ”דייר”.

5) קוברנטס: אשכולות וסדנאות

קבוצות מפתח:

1. אשכול/צמתים

מעבד/סילוק זיכרון, לחץ (זיכרון/מעבד), דיסק IO, אינודה.
תת-מערכות: kube-api, etcd, בקרים; בריאות קובלט.

2. Vorkloads

RPS/RPM, latency p95, קצב שגיאות, התחלות מחדש, מצערת, OOMKILS.
מטרות HPA נגד מדדים בפועל.

3. נתיב רשת בתוך אשכול

eBPF/Netflow: דברנים עליונים, טיפות, תרגומים מחדש.

4. אירועים K8s

דרג אזהרה/לוח זמנים/גיבוי.

דוגמאות ל ־ PromQL:

promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))

Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))

Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))

6) קצה, רשת ו ־ DNS

פנלים:

כניסה/שליחה/נגינקס: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
LB/Anycast: הפצת תנועה לפי אזורים, כשלים באירועים.
DNS: latency רזולוציה, NXDOMAIN/SERVFAIL קצב, מטמון להיט יחס.
CDN/WAF: חסום על ידי כללים, תנועה לא תקינה (bots/gruppers).

דוגמה (Nginx):

promql sum(rate(nginx_http_requests_total[5m])) by (status)

7) מסדי נתונים ואחסונות

PostGreSQL/MySQL: qps, latency, lock waits, lag שכפול, גיבויים/כשלים.
רדיס: יחס פגיעה, פינוי, זיכרון, פקודות איטיות.
Kafka/RabbitMQ: פיגור של קבוצות צרכנים, איזון מחדש, הודעות לא מבוטלות.
אחסון אובייקטים: שאילתות, שגיאות, יציאה, lat p95.

PostGreSQL (דוגמה):

promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)

Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])

קפקא (דוגמה):

promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)

8) CI/CD וחפצים

סקירת צינור: הצלחה/זמן ריצה, תור רץ.
בריאות פריסה: גרסאות, מצב כנרי/כחול-ירוק, זמן חימום.
רישומי תמונות: גודל, דחיפה אחרונה, וסילוק.

דוגמה:

promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate

9) בטיחות וציות

טלאים ופגיעות: פרופורציה של צמתים/תמונות עם CVS קריטי, ממוצע ”זמן תיקון”.
ניסיון גישה כושל, גישה לסודות.
אירועי ביקורת: קלט/שינויים ברכיבים קריטיים, סחיפה.
WAF/DLP/PII: מנעולי שלטון, שגיאות מיסוך.

10) יומנים ושבילים: סקירה מקצה לקצה

סיכום שגיאות מתוך יומנים (Loki/ELK): יוצאים מן הכלל עליונים, חתימות חדשות.
כפתור ”עבור לרישומים עם מסננים” (שאילתת LogQL/ES).
עקבות: מרווחים איטיים עליונים, אחוז הבקשות ללא הקשר עקבות.

דוגמאות ל ־ LogQL:


{app="api", level="error"}     = "NullReference"
{app="nginx"}      json      status="5.."      count_over_time([5m])

11) פינוקס: עלות וסילוק

עלות על ידי שירותים/דיירים/אשכולות (לפי חיוב/יצואנים).
צמתים חמים/קרים: משאבים בטלים, המלצות נכונות (CPU/Mem).
יציאת נתונים, בקשות אל-7 ועלותם.
דינמיקה: שבוע/חודש, תחזית.

מדדי מפתח:

, , .
גורם יעילות: ”RPS/$ 'או' SLO-דקות/$”.

12) SLO, באגים וקצב צריבה

כרטיס SLO על כל לוח מחוונים תחום: מטרה, נקודה, שגיאות (תקציב).
התראות בקצב צריבה (שתי מהירויות: מהיר/איטי).

דוגמאות ל-PromQL (שגיאה כ ”5xx או p95> סף”):

promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))

Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4

💡 תחליף את 'SLO' שלך ורב חלונות, מקדמים רב-צריבה.

13) תקני ויזואליזציה

סוגי פאנל: סדרות זמן לסדרות, Stat עבור KPI, טבלה עבור top-N, hatmap עבור latency.
אגדות ויחידות: דרושים; תוויות מקוצרות, תבנית SI.
אזורי צבע: ירוק/צהוב/אדום על ידי SLO/סף (אחיד).
תיאור לוח: מה שאנחנו מודדים, מקור, לינק ריצה, בעלים.

14) תבניות לוח (התחלה מהירה)

(א) סקירה של API

KPI: ”RPS”, ”p95”, ”5xx%”, ”שגיאה _ תקציב _ שארית”.
נקודות סוף עליונות על ידי שגיאה/איחור.
Drilldown ברישומי "trace _ id' = עקבות $.

(B) Node Health

מעבד/זיכרון/דיסק/רשת - p95 על ידי צומת, רשימת ”חם”.
לחץ, חנק, חבילת טיפות.

(C) DB בריאות

TPS, latency p95, מנעולים, lag שכפול, שאילתות איטיות.
גיבוי מצב/הצלחה אחרונה.

(ד) קפקא לג

לאג אחרי קבוצה, שיעור הצריכה נגד ייצור, איזון מחדש.

(E) עלות & Util

עלות/שעה על ידי שירותים,% סרק, רמזים נכונים, תחזית.

15) משתנים ותגים (סט מומלץ)

'env' (prod/stage/dev)

'region '/' azz&fos

"צבירה &ft

'Namespace '/' שירות '/' עבודה loadlad&pos

'tenantfost &ft

'component' (קצה/db/מטמון/תור)

version '(release/git_sha)

16) אינטגרציה עם התראה וניהול אירוע

כללים ב Alertmanager/Graphana מתריעים עם קישורים ללוח המחוונים הרצוי וכבר החליפו משתנים.
P1/P2 לפי קריטריונים של SLO, הקצאה אוטומטית לתורנות.
הערות של שחרור/תקריות על גרפים.

17) איכות לוחות מחוונים: רשימה

[ ] בעלים וקשר.

[ ] SLO/הסף מתועדים.

[ משתנים ] עובדים ומגבילים את גודל השאילתות.

[ ] כל הלוחות עם יחידות ואגדה.

[ ] קידוחים לרישומים/עקבות.

[ ] הלוחות מתאימים ל-2-3 ”מסכים” (ללא גלגול לקילומטר).

[ ] זמן תגובה 2 - 3 שניות (מטמון, למטה).

[ ] אין לוחות מתים או מדדים מושבתים.

18) ביצועים ועלויות של לוחות מחוונים עצמם

מנמיך/מקליט כללים להתקבצות כבדה.
מטמון (שאילתה-פרונטנד/חוזר) ומגבלות טווח/צעד.
האנגר מבחן: טען על אשכולות TSDB/עבור בקשות טיפוסיות ללוח מחוונים.
חיטוי תווית (קרדינליות נמוכה), נטישת כרטיסי בר.

19) תוכנית יישום (איטרציות)

1. שבוע 1: נחיתה + K8s/Edge ביקורות, סל "ד בסיסי, בעלים.
2. שבוע 2: DB/תורים, רישום ועקבות אינטגרציה (drilldown), התראות בקצב צריבה.
3. שבוע 3: לוחות מחוונים, המלצות נכונות, דו "ח עלות.
4. שבוע 4 +: אבטחה/ציות, אוטוגנרציה של כרטיס SLO, בדיקות רגרסיה של לוח מחוונים.

20) מיני ־ FAQ

כמה לוחות מחוונים אתה צריך?
לפחות סקירה 1 + 1 לכל תחום (K8s, אדג ', DB, תורים, CI/CD, אבטחה, עלות). השאר הוא על ידי בגרות.

מה חשוב יותר - מדדים או בולי עץ?
מדדים לתסמינים ו-SLO, יומנים לסיבות. חוט דרך "trace _ id' ותוויות עקביות.

איך לא ”לטבוע” בלוחות?
היררכיה, בעלים מפורשים, היגיינה מטרית, ביקורות סדירות והסרת לוחות ”מתים”.

סך הכל

לוחות מחוונים הם לא ”גרפים יפים”, אלא כלי ניהול: SLO, RCA מהיר ו-FinOps מודע. תקן משתנים, תבניות חזותיות, ובעלים; לספק קידוחים לרישומים/מסלולים והתראות אוטומטיות. זה ייתן יכולת חיזוי, מהירות תגובה ושקיפות עלויות ברמה של כל הפלטפורמה.

לוחות מחוונים של תשתיות

(B) Node Health

(C) DB בריאות

(ד) קפקא לג

(E) עלות & Util

סך הכל

צרו קשר

חיבור מהיר

הווידאו יעודכן בקרוב

אנחנו עמוסים מאוד בפרויקטים כרגע