SLA/OLA עם ספקים
1) תנאים וגבולות
מחוון מדיד SLI (זמינות, p99 latency, קובצי אינטרנט מעובדים בהצלחה, RPO/RTO).
SLO - ערך המטרה SLI לכל חלון מדידה (לדוגמה, 99. 9 %/30 ימים).
מסמך מחייב מבחינה משפטית (SLO + הליכים + החזר).
מטרות ותהליכים פנימיים המבטיחים ציות לסלאח.
UC - ”סובסטרט” עם צדדים שלישיים (ערוצים, מרכזי נתונים, CDN וכו ').
גבולות: הפרד באופן ברור את תחום האחריות של הספק (ענן/WAF/CDN/שער התשלום/ספק KYC) מהאזור שלך (קוד, הגדרה, הגדרות לקוח).
2) מטריצות ביקורת ובחירת מודל
ספקי מקטעים לפי השפעה עסקית:המטריצה קובעת את עומק ה-SLA, את היקף הבדיקות ואת הדרישות ל-OLA/UC.
3) מדדים וחלונות מדידה
זמינות, אחוז הזמן שהשירות מבצע שאילתות לפי סובלנות.
Latency: p95/p99 עבור פעולות מפתח; ”הצלחה איטית” נחשב.
אמינות נתונים: RPO (איבוד נתונים ניתן להקצה מקסימלי) ו-RTO (זמן שחזור).
רוחב פס/גבולות: מכסות מובטחות (RPS/MBps).
איכות של אינטגרציות: נתח של פתקי אינטרנט מועברים על גבי X דקות, נתח של תגובות 2xX, חזרות ושכפולים.
חלון מדידה: חודש/גלגול 30 יום, יוצאים מן הכלל (פעילויות מתוכננות) עם גבולות.
- זמינות _ ext = 1 - (Downtime_confirmed_outages/ Total_minutes_in_window) "
- היכן שהפסקה היא מצב שאינו זמין על ידי ניטור חיצוני, ולא רק על ידי דף המצב של הספק.
4) תוכן SLA (תבנית סעיף)
1. נושא והיקף (שירותים, אזורים, גרסאות API).
2. הגדרות (SLI/SLO, ”תקרית”, ”עבודה מתוכננת”).
3. מטרות שירות (SLOs) לפי קטגוריה ואזור בקשה.
4. ניטור ובסיס ראיות: באיזה אופן, של מי החיישנים, באיזה תדר.
5. אירועים והסלמה: ערוצים, זמני תגובה/עדכון, תפקידים.
6. החזרים: נקודות זכות/קנסות/בונוסים, סף, נוסחאות.
7. אבטחה ופרטיות: DPA, הצפנה, יומנים, הודעות הפרה.
8. שינויי שירות: ירידה, חלון הודעה, תאימות.
9. המשכיות וד "ר: RPO/RTO, בדיקות התאוששות.
10. ביקורת ועמידה: הזכות לביקורת, דיווח, הסמכה.
11. תכנית יציאה: יצוא נתונים, תאריכים, פורמט, סיוע הגירה.
12. הוראות משפטיות: סמכות שיפוטית, כוח עליון, סודיות, תקופת תוקף.
5) דוגמאות לניסוח (קטעים)
5. 1 זמינות ומדידה
"ספק מספק 99. 95% זמינות בכל חודש. זמינות נמדדת על ידי ניטור סינתטי חיצוני של הלקוח מ-3 אזורים במרווחים של 1 דקות. אי ־ זמינות מוקלטת ב ־ DMA 2 נחשבת בו ־ זמנית לתקרית ברמה SEV2 ונספרת ב ־ Downtime ".
5. 2 איחור של API מפתח
p99 תגובה זמן 'POST/תשלומים/לאשר "450 ms על 95% של ימי החודש. דו ”ח ניתוח סיבות מסופק לאחוז הבקשות העולות על הסף”
5. 3 תקריות והסלמה
"S1: ack lood 15 min, עדכון כל 30 min, התאוששות יעד 2 hh; S2: ack pago 30 min, עדכונים על 60 min; S3: יום העסקים הבא. ערוצים: טלפון 24 × 7, צ 'אט ברידג', דוא ”ל”
5. 4 החזרים (נקודות זכות)
If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%
הלוואות אינן שוללות שיטות אחרות לפיצוי בגין נזק ברשלנות חמורה.
5. 5 מגמת ירידה ותאימות
"לפחות 180 ימים הודעה לשינויים כי לשבור תאימות. תמיכה משותפת ל vN וvN + 1 לפחות 90 ימים"
5. 6 יציאה
בתוך 30 יום לאחר סיום העבודה, הספק מספק ייצוא מלא של נתונים בפורמטים של Parquet/JSON + ללא תשלום; שירותי הגירה נוספים בתעריף X השמדת עותקים אושרה על ידי המעשה"
6) אולה: תמיכה פנימית ב ־ SLA חיצוני
דוגמה OLA בין ”פלטפורמה” ו ”צוות התשלום”:- מטרות: שער p99 חסום 200 ms, שיעור שגיאה lang 0. 3%, ד "ר: RPO 0, RTO 30 דקות.
- אחריות: SRE-on-call, 24 × 7; לוחות מחוונים והתראות נפוצות.
- תהליכים: כאוס-עשן בשחרור, עשן-סלסול על יחסי ציבור, היוריסטיקה של הצללה.
- שערים: בלוק פריסה כאשר מבחן SLO/xaoc נכשל; עדכון ריצות חובה.
7) מעקב וראיות
גשושיות חיצוניות (HTTP/TCP), נתיב משתמש, ”הצלחה איטית”.
ניטור משתמש אמיתי כדי לאשר את הפגיעה.
קורלציה: ”ספק”, ”אזור”, ”api _ method',” תקרית _ id' תוויות.
חפצים: צילומי מסך/שבילים/רישומים, יצוא KPI, ציר זמן הסלמה.
rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}
8) אירועים ואינטראקציות
חוברת מהלכים:1. סיווג SEV, פתיחת חדר מלחמה, תכלית IC.
2. הודעה על הספק דרך ”ערוץ חם”, שידור של חפצים.
3. מעקפים/דגלים (מעופש, הצללה, מכסה קצב).
4. ציר זמן משותף, התאוששות.
5. פעולות לאחר המוות +: עדכון גבולות ההגדרות, מפתחות, נתיבי גיבוי.
6. חניכה של הלוואות SLA, תיקון בחיוב.
9) אבטחה וDPA
DPA/פרטיות: תפקידי בקר/מעבד, קטגוריות נתונים, בסיס חוקיות, מועדי עיבוד/מטרות, תת-מעבדים ותפקידי SLA שלהם.
הצפנה: TLS1. 2 +, PFS; נתונים ”במנוחה”, ניהול מפתחות (KMS/HSM), סיבוב.
רישומי גישה, הודעות הפרה, 72 שעות, דו "חות מפוארים על בקשה.
לוקליזציה: אזור אחסון, איסור על ייצוא ללא הסכמה.
10) שרשרת אספקה וכושר גישור
SBOM/נקודות תורפה: מדיניות הסף של CVSS וזמני התיקון (ביקורת על 7 הימים האחרונים, 14 שעות ביממה).
התאמת API: בדיקות חוזה, ארגזי חול ואביזרים יציבים.
שינויי ספק: הערות שחרור מוקדם, תצוגות מקדימות/חלונות בטא, תאימות לאחור.
11) מולטי-ספק ופילובר
פעיל/פעיל: קשה יותר ויקר יותר, אך זמינות גבוהה יותר (שקול עקביות).
פעיל/פסיבי: רזרבה קרה/חמה, ד "ר לאימונים קבועים
מופשט/מתאם: חוזה יחיד, בריאות/עלות/ניתוב פחמן (אם זה רלוונטי).
תנאי רישיון/מסחרי: ניידות, הגבלה על תפוקת נתונים, עלות יציאה.
12) תכנית יציאה וחזרות תקופתיות
קטלוג נתונים/דיאגרמה וכרכים.
תסריט הניידות של SDK/API (מקור מינימלי - שני).
בדיקת יציאה יבשה: ייצוא/ייבוא, שחזור, בדיקת אינווריאנטים.
שימור/סילוק חוקי תקופות לאחר השחרור.
13) בדיקות חוזה וקונפורמציה
דגימות API: חיובי/שלילי, גבולות, טעויות ומגשים מחדש.
משלוח אירועים/חוברות אינטרנט: חתימה/זמן/סבא/חזרות.
קווי בסיס: p99, רוחב פס; בדיקות רגרסיה על הערות שחרור של הספק.
אזור חוצה: ההשפלה של אזור אחד לא אמורה להפר את SLO באופן גלובלי.
14) אנטי דפוסים
SLA ”בעמוד מצב” ללא מדידות חיצוניות.
אותן מטרות לכל האזורים/נקודות הסיום.
היעדר זכויות ביקורת ויומני תקרית מפורטים.
אין OLA/UC = אין אף אחד למלא התחייבויות חיצוניות בפנים.
תכנית יציאה לא מוגדרת = = ספק בן ערובה.
”קנסות רק באמצעות הלוואות” ללא הזכות לסיים במקרה של הפרות שיטתיות.
מוריד ללא חלון מעבר.
15) רשימת אדריכלים
1. מוגדר SLI/SLO עבור זרימת מפתח ואזורים?
2. שיטת ניטור חיצונית נבחרת ובסיס ראיות?
3. האם תקריות, הסלמה, חלונות עבודה מתוכננים והגבלת חריגים מאויתים ב-SLA?
4. יש לך סולם אשראי/עונשים וזכות פיטורים על הפרות?
5. DPA/אבטחה: הצפנה, יומנים, הודעות, תת-מעבדים, לוקליזציה?
6. בדיקות חוזה וארגזי חול בצינור?
7. OLAs/UCs פנימי מאפשר SLOS חיצוני?
8. ד "ר: RPO/RTO הוכרז, אימון נערך, דיווחים זמינים?
9. תכנית יציאה: יצוא פורמטים, תזמון, תרגול יציאה יבש?
10. האם שערים ב-CI/CD חוסמים שחרורים המגבירים את הסיכון להפרה של SLA?
16) דוגמאות מיני (סקיצות)
16. 1 מדיניות פריסת שער על סיכון הספק
yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"
16. 2 ייצוא ”ראיות תקרית”
bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '. {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl
16. 3 מבחן Webhook חוזה (פסאודוקודה)
python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency
סיכום
SLA/OLA הוא לא רק ”נייר משפטי”, אלא גם מנגנון אדריכלי לניהול סיכונים ואיכות. המדדים והחלונות הנכונים, ניטור חיצוני, תקריות ברורות ונהלי החזרה, אולטרה-סגול פנימיים, שערים מוצנחים, רבי-ספקים ותוכנית יציאה אמיתית הופכים את התלות הספקית לחלק מבוקר, מדיד וצפוי מבחינה כלכלית של הפלטפורמה שלכם.