דו "חות עלייה וביקורת SLA
1) מדוע אנו זקוקים לתהליך דיווח רשמי?
ביטחון לקוחות ושקיפות חוזה - טכניקת מדידה אחת, חישובים ניתנים לחזרה.
SLO וניהול תקציבים שגויים - מקשרים את העובדה של זמינות עם שחרור ותקריות.
הלוואות SLA נכונות הן נוסחאות אובייקטיביות, תשלומים/קיזוז צפויים.
קיימות משפטית בסיס ראיות, ביקורת עצמאית, אחיזה משפטית.
2) תנאים וגבולות
SLI זמינות - אחוז של אימות/עסקאות מוצלחות לכל תקופה.
SLO - מטרה פנימית (למשל. 99. 95% ב-28 ימים).
SLA - מחויבות חיצונית (למשל. 99. הלוואות שירות 9 %/חודש +).
חלון מדידה - חודש לוח שנה (SLA) וחלון גלגול (SLO).
היקף - אילו רכיבים כלולים בחישוב (קצה, API, תשלומים) ואשר אינם (פורטל אדמין, לא פרוד).
3) מקורות אמת (ומתי מי אחראי)
1. סינתטיקה (blackbox/headless) היא ה-SLI העיקרית של ”נגישות עין-משתמש”.
2. יומנים/מדדים - לאשר את קנה המידה ואת טבעו של הכישלון.
3. אירועים עסקיים הם ”הצלחה בעסקה” (לדוגמה, תשלום מורשה).
4. עמוד מצב - תקשורת ציבורית; נבדק נגד עובדות מס '1-3.
במקרה של אי התאמות: עדיפות ניתנת לסינתטיים עם המניין הנכון מ-MED2 אזורים.
4) מתודולוגיית חישוב זמינות
4. 1 נוסחה בסיסית
Availability = Успешные проверки / Все проверки
ErrorBudget = 1 − SLO
Downtime(m) = (1 − Availability) × Длительность_периода(в мин)
4. 2 מניין רב אזורי
תקרית נספרת אם אזורי N עצמאיים/ASNs בו זמנית מקליטים כשל.
מומלץ: N = 2 מתוך 3 (EU/NA/APAC).
4. 3 סוגי SLI
HTTP SLI: Intelligence 2xx/3xx, Latency underground T.
DNS/TLS SLI: NXDOMAIN/SERVFAIL/FEX.
עסקי SLI: עסקאות מוצלחות/כל הניסיונות (למעט כשלי לקוח).
4. 4 יוצאים מן הכלל (מתועד)
חלונות תחזוקה מתוכננים שהוכרזו מראש N שעות ונצפו.
כוח גדול מ-SLA (לדוגמה, ספק אסונות IX) - רק אם יש ראיות והתראה פומבית.
שגיאות/הגבלות (מכסה חרגה, 4xx).
5) מדיניות תחזוקת חלונות
חריצי זמן מוסכמים בחוזה (לדוגמה: שמש 02: 00-04: 00 UTC + 0).
תחזוקה = true 'markers בכוננות/לוחות = הדרה מ-SLI.
סף הודעה: לפחות 5 ימי עבודה (או כמו בחוזה).
מחוץ לחלון - נשקלת פגיעה ב-SLA.
6) מקרי קצה וכללי עיגול
Brownout (הידרדרות חלקית): לספור את אחוז הכשלים (זמן השבתה משוקלל), לא ”0/1”.
נפנוף: יחידת חשבון מינימלית - מרווח דגימה (לדוגמה, 30-60 שניות) + היסטרזיס (עבור: 2-5 דקות).
סחף שעון: כל הזמנים ב UTC ו- ISO-8601; סינכרון NTP.
7) דוגמאות של PromQL (סינתטיקה * uptime)
הצלחה בסריקה HTTP:promql probe_success{job="blackbox-http"} == 1
p95 latency:
promql histogram_quantile(0.95, sum by (le, target) (rate(probe_http_duration_seconds_bucket[5m])))
SLA UPTime לחודש (שניות):
promql sum_over_time((probe_success==1)[30d]) / (30246060)
מניין הכישלונות (אזור 2 מתוך 3 דקות):
promql sum by (target) (max_over_time((probe_success==0)[3m])) >= 2
8) דוגמאות של SQL (צירוף דיווחים)
העלאה חודשית בזמן והשבתה:sql with checks as (
select target, ts, success -- success: 1/0 from synthetic_checks where ts >=:from and ts <:to
),
agg as (
select date_trunc('month', ts) m, target,
sum(success)::float / count() as availability from checks group by 1,2
)
select m, target, availability,
(1-availability) extract(epoch from (date_trunc('month', m) + interval '1 month' - date_trunc('month', m))) / 60 as downtime_minutes from agg;
פיוס עמוד מצב (תקריות):
sql select a.m, a.target, a.downtime_minutes, s.incident_id, s.start_utc, s.end_utc from monthly_downtime a left join statuspage_incidents s on a.m = date_trunc('month', s.start_utc)
and tstzrange(s.start_utc, s.end_utc) && daterange(a.m, a.m + interval '1 month');
9) תבנית דיווח חודשית (ידידותי ללקוח)
yaml period: "2025-10-01..2025-10-31 (UTC)"
services:
- name: "API Edge"
sla: "99.90%"
measured_availability: "99.93%"
downtime:
total: "30m 14s"
windows:
- start: "2025-10-12T03:12Z"
end: "2025-10-12T03:38Z"
impact: "EU+NA, HTTP 5xx spike, p95>2s"
root_cause: "DB connection pool exhaustion"
rca_link: "INC-20251012-0312"
slo_budget:
period_target: "0.10%"
consumed: "0.07%"
- name: "Payments API"
sla: "99.95%"
measured_availability: "99.97%"
summary:
sla_breaches: 0 service_credits: 0 maintenance:
announced: 2 total_duration: "48m"
signatures:
generated_at: "2025-11-01T10:00Z"
report_id: "SLA-2025-10-API"
10) נקודות זכות SLA: חישוב ויישום
שולחן הקרדיטים: לדוגמה, 99. 0–99. 5% # 5% MRR; 98. 0–99. 0% # 10%, וכו '.
אשראי חל כמו מכתב אשראי לחשבון הבא.
אוטומציה: "אם" נמדד _ זמינות תצוגה ללקוח: כרטיס פורטל ”מאזן נקודות SLA”. 11) ביקורת, ראיות והחזקה משפטית עקבות ביקורת: מי/מה/מתי מחושב, גרסה של המתודולוגיה, צ 'מסומים. 12) פיוס עם עמוד מעמד ציבורי תקרית בדף מצב חייבת להיות ציר זמן ורכיבים. 13) אירועים ודיווחים כל חלון זמן השבתה מתאים לכרטיס זיהוי (SEV, בעלים, RCA, CAPA). 14) בקרת איכות נתונים היגיינה של דגימות:> 99% שאריות מוצלחות של סוכנים, היעדר פערים> 5 דקות. 15) ביטחון ופרטיות TLS/mTLS לבלוע, חתימת חבילה (HMAC). 16) לוחות מחוונים ווידג 'טים של SLO (מה להראות) זמינות כללית על ידי שירות לחודש/רבעון. 17) תוכנית יישום (3 איטרציות) 1. מודל ונתונים (2 שבועות): תיקון SLI/SLO/SLA, כולל סינתטי קוורום, איסוף ”חומרי גלם” ב-DWH. 18) דיווח על רשימת בדיקות איכות 19) מיני ־ FAQ מדוע סינתטיים הם המקור העיקרי? איך לספור השפלה חלקית? האם אני צריך לאחסן צ 'קים ”גולמיים”? דו "חות Uptime וביקורות SLA אינם" דמות בסוף החודש ", אלא מערכת רבייה של מדידות, כללים וראיות: נכון SLIS, בדיקות קוורום, נוסחאות שקופות, קשר עם אירועים וחיוב, שליטה יוצאת מן הכלל ו-Legal Hold. רשמו את המתודולוגיה, עשו אוטומטית את החישוב ואת הקרדיטים, שמרו על עקבות הביקורת, והסלאבים שלכם יהיו ניתנים לשליטה, מובנים ומאובטחים.
נתונים גולמיים הם בלתי ניתנים לשינוי (append-only); התאמות - על ידי רשומות נפרדות.
Hold משפטי: הקפאת טווח הנתונים (דגימות, יומנים, כרטיסי אירוע, התראות).
ארכיון העתק - WORM/S3 נעילת אובייקט.
חוסר התאמה בזמן/קנה מידה נוצר על ידי תקליט אי ההתאמה ומוצב על ידי RCA.
הסיכום של הדו "ח מכיל את סעיף הערות פיוס.
בדו "ח: קישור ל-INC, שורש קצר, מצב CAPA.
במשך SEV-1, נושאים נוספים שנרשמו 48 שעות לפני הסגירה.
אנטי-רעש: מניין + חלון מרובה, לדלות.
דגימת עקבות/רישום מוקלטת ומתועדת.
מבחני שיטה: בדיקות יחידה של חישובים, קבצי זהב המבוססים על נתונים היסטוריים.
מהדורת PII ביומנים/דיווחים; אסור לדו "ח ה ־ SLA לחשוף נתונים אישיים.
RBAC/ABAC על דיווחים; עקבות גישה נכתבו ליומן הביקורת.
חלונות השבתה עם חומרה וערוץ זיהוי.
שריפת תקציב שגיאה (מהיר/איטי) ומגמות.
משחרר כיסוי - הערות של חישובים.
תחזית הקרדיטים של SLA במגמה הנוכחית.
2. חישוב ודיווח (2-3 שבועות): נוסחאות, SQL/PromQL, תבניות YAML/PDF, פורטל לקוחות, קרדיטים אוטומטיים.
3. Audit and Automation (3-4 שבועות): Legal Hold, פיוס עם status page, חתימה על חוברות אינטרנט, תקנות מחלוקת.
[ ], SLI, שיטה וחלון מדידה מוגדרים.[ ] יש מניין וחלון רב; נפנוף הוא מדוכא.[ ] יוצאים מן הכלל (תחזוקה/כוח עליון) מתועדים.[ ] כל חלון זמן השבתה משויך ל-INC ול-RCA.[ ] חישבו נקודות זכות של SLA והשתקפו בחיוב.[ ] Report Rebutible (נוסחה/גרסאות נתונים).[ ] שביל ביקורת והחזקה משפטית כלולים.[ ] עמוד הסטטוס הציבורי מתפייס.
הוא קרוב ביותר לנתיב המשתמש וכולל היקף (DNS/CDN/WAF). מדדים/יומנים - להבהיר את הסיבה.
זמן השבתה משוקלל: הפרופורציה של כשלים × משך החלון, ולא ”הכל או כלום”.
כן, זה מה שעשיתי. לביקורת וחישוב מחדש בוויכוח - נדרשת גלם.
תוצאות