Operations and Ac.Management Metrics
Performance Metrics
1) מדוע מדדי ביצועים
ביצועים (באנגלית: Performance) היא היכולת של מערכת לספק ליעדים SLOS בזמן תגובה ופריטה במחיר נתון. זה בלתי אפשרי בלי מדדים:- לזהות השפלה לפני תקריות,
- לחזות יכולת ותקציב,
- השוו חלופות (מטמון נגד DB, gRPC נגד מנוחה),
- לנהל רגרסיות לאחר שחרור.
עקרונות: מילון יחיד של מדטים, צבירה של אחוזון (p50/p90/p95/p99), חשבון נפרד עבור ”חם” ו ”קר” שבילים, הקשר (גרסה, אזור, ספק, התקן).
2) טקסונומיה של מדדים
2. 1 מסגרות SRE בסיסיות
ארבעה אותות זהב: Latency, תנועה, שגיאות, רוויה.
קצב, שגיאות, משך.
ניצול, רוויה, שגיאות.
2. רמות 2
תשתית: מעבד, RAM, דיסק, רשת, מכולות, צמתים.
פלטפורמה/שירותים: API מצביע, תורים, מטמונים, מסדי נתונים, אוטובוסים.
חוויית לקוח: איברים חיוניים ברשת, SDKs ניידים, הזרמה, CDN.
פלטפורמת נתונים: ETL/ELT, זרמים, חנויות, עיכובי BI.
זרימה ביקורתית עסקית: אישור, KYC, הפקדות/תשלומים, סיבובי משחק.
3) קטלוג של מדדי מפתח ונוסחאות
3. 1 API ומיקרו-רווחים
RPS (בקשות לשנייה).
Latency p50/p95/p99 (ms) - רצוי ”מקצה לקצה” ו ”backend-only”.
שיעור שגיאה (%) = 5xx + 4xx מאומת/כל הבקשות.
רוויה: אורך תור עובד ממוצע, בקשות לטיסה.
קצב התחלה קר (עבור FAS).
בקשות חנק/ירד.
SLO דוגמה: p95 latency letency progress 250 ms עם RPS עד 2K באזור האירופי-מזרח; שגיאות מצביעות על 0. 5%.
3. 2 בסיסי נתונים
QPS/Transactions/S, avg/median שאילתה זמן, p95 שאילתה.
Lock Waits/Deadlocks, Ratio/Index Hit Ratio, Buffer Cache Miss%.
RepLag (שכפול), זמן ביקורת/זרימה, Autovacuum lag.
מפתחות חמים/סקיו - מקשים N עליונים על ידי טעינה.
הנוסחה ל ”בקשות ליבה”: QPS/ vCPU_core_count.
3. 3 מטמון ו ־ CDN
יחס להיט (%), פינוי/s, Latency p95, פריט גודל אחורי.
Origin Offload (%) itDDN, TTFB, Tale-בזמן-ביטול להיט%.
3. 4 תורים/נחלים
Ingress/egress msg/s, Consumer Lag, שיעור איזון מחדש.
עיבוד זמן p95, קצב DLQ.
3. 5 תשתיות/מכולות
ניצול מעבד%, מצערת מעבד%, אורך תור הפעלה.
RSS/Working Set, OOM הורג, Page Faults.
Disk IOPS/Latency/Breakput, Network RTT/Retransmits.
רווית Node: תרמילים תלויים ועומדים, לחץ (CPU/Memory/IO).
3. 6 לקוח רשת (UX)
סימנים חיוניים ברשת: LCP, INP, CLS.
TFB, FCP, TTI, תזמון משאבים (DNS, TLS, TTFB, הורדה).
קצב שגיאה (JS), משימות ארוכות, מסלול SPA לשנות זמן.
CDN Geo-Latency (אחוז).
3. 7 לקוח נייד
זמן התחלה (קר/חם), שיעור ANR, הפעלות ללא קריסה%.
רשת הלוך ושוב/הפעלה, גודל מטען, ניקוז בטריה/הפעלה.
אחוזי הצלחה לא מקוונים.
3. 8 פלטפורמת נתונים ודיווח
רעננות לאג (T-Now = היום = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = =
עלות שחפת מעובדת, סקיו במסיבה, אירועים מאוחרים%.
BI-to-Render p95 ללוחות מחוונים מפתח.
3. 9 זרימה דומיין-קריטית (iGaming כדוגמה)
Auth p95, KYC TTV (זמן לאמת), הפקדה/משיכה p95.
משחק סיבוב משך p95, RNG קורא latency, ספק RTT p95.
אחוזי הצלחה בתשלום, חקירה על צ 'רגבק.
4) נורמליזציה, אחוזון וייחוס
אחרונים לעומת ממוצעים: לתקן p50/p90/p95/p99 - ממוצע מחליק את כאב השיא.
סעיפים: גרסת יישום, אזור, ספק, ערוץ רשת (4G/Wi-Fi), התקן.
קורלציה: אנחנו מקשרים מדדים של ”backend-only” ו ”real-user” עבור שרשראות סיבתיות.
מופת/עקבות: לקשר אחוזים קיצוניים עם עקבות.
5) סף והתראות (רשת משוערת)
Latency p95 (ליבה API): אזהרה> 250 ms, קריטי> 400 ms 5 min ברצף.
קצב שגיאה: אזהרה> 0. 5%,> קריטי 2% (סוף נקודה, לא גלובלי).
DB Replag: אזהרה> 2 s, קריטי> 10 s.
קפקא פיגור צרכני (זמן): אזהרה> 30 s, קריטי> 2 min.
רשת LCP (p75): אזהרה> 2. 5 אס, קריטי> 4 אס.
נייד ANR: אזהרה> 0. 5%,> קריטי 1%.
רעננות ETL: אזהרה> + 15 דקות, קריטי> + 60 דקות SLA.
אנו משתמשים בסף סטטי + אדפטיבי (עונה, דפוסי יום), שכפול וקיבוצים של התראות על ידי שירותים/שחרורים.
6) בדיקת ביצועים
סוגים: קו בסיס, מתח, ספוג ממושך, כאוס (קישורים מושפלים/PSP).
פרופילים: עבור עסקאות אמיתיות (מבוססות הפצה), ”התפרצויות”, פסגות אזוריות.
מטרות: הישגי SLO עם RPS מטרה ופעולות מיקס, אימות תרמיל גב.
הפעל מדדים: דרך, שגיאה%, p95 latency, GC pause, מעבד מצערת, תור lag, עלות/ריצה.
כלל רגרסיה: השחרור נחשב מוצלח אם p95 אינו מושפל> 10% עם פרופיל שווה, ועלות הבקשה (CPU-ms/request) לא עלתה> 15%.
7) תכנון קיבולת ומחיר/ביצועים
מודל דרישה: RPS לפי שעה × עבודה/בקשה ממוצעת (CPU-ms, IO-Ops).
מרווח ראש: 30-50% עבור נתיבים קריטיים, הגדלה אוטומטית על ידי P95.
עלות KPIs: עלות לכל 1k בקשות, עלות לכל GB מוגשת, $ לכל 1 p. p. LCP שיפורים.
Cache ROI = (CPU-ms חיסכון - עלות מטמון).
אזורים חמים וקרים: לפרוק CDN/Edge, לקרוא בלבד שכפול.
8) יכולת התבוננות ואפיון פרקטיקות
עקבות: מבוזר עקבות-זיהוי על פני כל כפות; דגימה היא חכמה (מבוססת זנב).
Metrics: Prometheus/OpenTelemetry, סימון יחיד של שמות ותוויות.
יומנים: עם איתור/תוחלת, תקציב לרישום רעש, עריכת PII.
פרופילים: פרופילי CPU/Heap/Alloc/Lock, פרופילים רציפים (eBPF).
דוגמאות: שיוך התפרצויות p99 עם קריאת Squan/SQL/PSP מסוימת.
9) שחרור ומדדים קבוצתיים (עבור שלמות)
תדר פריסה, זמן עופרת, קצב כישלון שינוי, MTTR.
שביעות רצון, ביצועים, פעילות, תקשורת, יעילות.
מדדים אלה אינם קשורים לברזל, אלא משפיעים ישירות על יציבות הביצועים.
10) אנטי דפוסים
רדיפה אחרי ממוצעים: התעלמות מ-p95/p99.
שיעור השגיאות הגלובלי: מסתיר נקודות קצה כואבות.
ללא ייחוס על ידי גרסאות: זה בלתי אפשרי לתפוס רגרסיות לקוח.
דואר זבל זהיר: סף ללא היסטריה ותיקון עונתי.
אופטימיזציה עיוורת: אין ציונים או עקבות.
ערבוב UX ו-Latend Latency: מסקנות שגויות מניסיון הלקוח.
11) רשימות בדיקה
תקן מטרי אחיד
[ ] מילון מדדים עם נוסחאות, יחידות, בעלים
[ ] האחוזון המנדטורי p50/p90/p95/p99
[ ] מתאם עקבות וקורלציה יומן
[ תגיות ]: אזור, גרסה, ספק, התקן, ערוץ רשת
[ ] הסף עם היסטריה ושכפול
לפני השחרור
[ ] Baseline p95/p99 על הבמה
[ ] תנועה כנרית + A/B השוואה מטרית
[ ] דגל ההילוכים המהירים
[ ריחות ] תצפית
באופן קבוע
[ ] שאילתת N/SQL האיטית ביותר
[ מדיניות מטמון הביקורת ] ו TTL
[ ] בודק רעננות ושכפול מסדי נתונים
[ ] מבחני התפלה של ספק חיצוני (PSP, KYC)
12) מיני ספרי משחק (דוגמה)
הידרדרות p95/api/תשלומים
1. בדוק שגיאה% ופסקי זמן חיצוניים PSP.
2. בדוק את תור הצרכן.
3. הצג דוגמאות p99 עקבות צוואר בקבוק SQL/HTTP?
4. אפשר מטמון ספרייה/הגבלה, הפחת N + 1.
5. תקציב: זמנית לגייס משאבי עובדים ב-20%, כולל אוטוסקלה.
6. לאחר תיקון: אינדקס לפי (psp_id, מצב, created_at), מגש-ג 'יטר.
צמיחה חוזרת ב ־ DB
1. בדוק בקשות ”כבדות” ועסקאות ארוכות.
2. הגדלת שכפול, נקודת ביקורת מנוגנת.
3. הורד מטמון קריאה/העתק בלבד.
4. בחלונות שיא - דינורם חלקי + חבורות.
13) דוגמאות של נוסחאות/SQL (פשט)
קצב שגיאה על ידי נקודת סוף
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
Latency p95 (TDiingt/Associx)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
צרכן לג (זמן)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
Web LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) הטבעה בלוחות מחוונים ודיווח
כרטיסי KPI: p95 latency, שגיאה%, RPS, רוויה עם מגמות WoW/DoD.
Top N ”brough” endpoints/SQL/resources, slickable-down actrace.
קורלציה לגרסת הלקוח: Tore ”grass # p95 LCP/INP # המרה”.
מפה עולמית: Geo-latency (CDN), PSP latency by region.
פאנל SLO: שיתוף זמן ב-SLO, קריסות מ-SLO, ”תקציב שגיאות”.
15) סיכומים
מדדי פרפורמנס (באנגלית: Performance metrics) הם דיסציפלינה מערכתית: אוצר מילים יחיד, אחוריים, ייחוס, יכולת תצפית טובה, ו-SLOs קפדניים. על ידי שילוב טכני (latency, lags, tache pits) ואותות מוצר (KYC time, p95 peducit, LCP), אתה מנהל את איכות החוויה ואת עלות אספקתה - צפויה וניתנת לחיזוי.