GH GambleHub

תקריות וספרי משחק של SRE

1) מהו המקרה וכיצד הוא קשור ל ־ SLO

אירוע הוא אירוע המפר פונקציה של SLO/Service או יוצר סיכון להפרה (תקציב שגוי נשרף במהירות בלתי מתקבלת על הדעת).
מדדים קלאסיים: MTTD, MTTA, MTTR, MTBF.
השגיאה בתקציב ושיעור השרפה קובעים את העדיפות וחלונות ההסלמה.

2) רמות חומרה (SEVs) וקריטריונים

SEVחתום @ action: inהשפעהמטרת MTTR
SEV-1שובר SLO קריטי/סה "כ למטה עבור תנועת מפתחכל המשתמשים/תשלומיםדק 60 דק
SEV-2דלדול (latency p95, שגיאות 5xx/תשלום)חלק משמעותיland4 h
SEV-3סוגיות מקומיות/קווי בסיס נדחושירות/אזור פרטNameיום העסקים 1
SEV-4סיכון/פגם פוטנציאלי ללא השפעה נוכחיתהכנת תיקוניםלפי התוכנית

מפעיל SEV: עולה על 5xx%, p95> סף, ירידה בתשלום ספייק, קפקא-לג> סף, NoedNotReady> X min, TLS פג <7 ימים, אותות/דלף DDOS.

3) תפקידים ואחריות (RACI)

מפקד תקרית (IC) - קבלת החלטות בלעדית, ניהול תזרים משימות, שינוי מצב SEV.
אסטרטגיה טכנית, השערות, תיאום של תיקונים.
תקשורת עופרת (תקשורת) - עדכוני מצב (פנימי/חיצוני), ProductPage/chat/mail.
סקריבה (כרוניקלר) - ציר זמן, פתרונות, חפצים, קישורים לגרפים/יומנים.
מהנדסים/SME - ביצוע של פעולות משחק.
אבטחה/פרטיות - אפשרות לאבטחה או תקריות מח "ש.
FinOps/תשלומים - כאשר משפיע על חיוב/PSP/עלות.

4) אופן חיים של אירוע

1. גילוי (התראה/דיווח/סינתטי) * יצירה אוטומטית של כרטיס אירוע.
2. Triage (IC מוקצה, SEV מוקצה, אוסף הקשר מינימלי).
3. ייצוב (הפחתה: כבה את התכונה/rollback/rate-limit/influver).
4. חקירה (השערות RCA, אוסף עובדות).
5. התאוששות שירות (תוקף SLO, תצפית).
6. תקשורת (בפנים/בחוץ, דו "ח סופי).
7. לאחר המוות (ללא חיובים, תוכנית CAPA, בעלים, מועדים).
8. מניעה (מבחנים/התראות/ספרי משחק/דגלים, אימון נוסף של הקבוצה).

5) תקשורת ו ”חדר מלחמה” ‏

ערוץ תקרית מאוחד ('#' #-sev1-YYYMDD-hmm'), רק עובדות ופעולות.

פרוטוקול רדיו מורה: "IC: אני מקצה rollback גרסה 1. 24. זמן הגעה משוער 10 דקות"

עדכוני מצב: SEV-1 כל 15 דקות, SEV-2 כל 30-60 דקות.
סטטוס עמוד/תקשורת חיצונית - באמצעות תקשורת עופרת על ידי תבנית.
אסור: מקבילים ”שקט” חדרים, לא נבדק השערות לערוץ משותף.

6) התראה ו ־ SLO ־ Burn (כללי דוגמה)

ערוץ מהיר (1-5 דקות) וערוץ איטי (1-2 h) שרפה קצב.
ריבוי אותות: שגיאה בתקציב, 5xx%, p95, קפקא-לג, תשלום ירידה בשיעור, סינתטיקה.
חפש את הסיבה לשורש - רק לאחר ייצוב התסמינים.

דוגמאות (כלליות):
promql
Error rate 5xx> SLO sum (rate (http_requests_total{status=~"5"..}[5m]) )/sum (rate (http_requests_total[5m]))> 0. 01

Burn-rate fast (example)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14. 4

7) ספרי שעשועים נגד חוברות

משחק - תרחיש של פעולות על ידי סוג של אירוע (הסתעפות, תנאים, סיכונים).
Runbook - ”מפה” ספציפית של צעדים/פקודות (צ 'קים, תיקונים, אימות).
כלל: ספר המהלכים מתייחס למספר ספרי הפעלה (גלגולים, דגלי תכונה, כשלים, מדדים, חסימת תנועה וכו ').

8) תבנית כרטיס תקרית

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <name>
comms_lead: <name>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx = 12% (usually <0. 5%), deposit conversion -20%"
mitigation: "rollback to 1. 23. 4, rate-limit 2k rps on, feature X off"
timeline:
- "17:42: alert SLO burn-rate fast"
- "17:46: IC appointed, war-room open"
- "17:52: release 1 found. 24 as a candidate"
- "18:02: Rollback complete, 5xx back to 0. 3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "another surge is possible when turning on feature X"
next_steps: "canary release, tests, postmortem until 2025-11-05"

9) תבנית ספר המהלכים של SRE (Markdown)

markdown
Playbook: <title>
Area/symptoms
List of detectors, signatures in metrics/logs/traces.

Triage & Mitigation
- [] Restrict traffic/enable WAF rule/OFF feature
- [] Rollback/canary release/roll out configuration fix
- [] Enable degradation mode (read-only, cache force)

Diagnostics (RCA hints)
- Metrics:... Logs:... Trails:...
- Common Root Causes/Hypothesis Checklist

Risks and communications
- Internal/external updates, SLA obligations

Verification
- [] SLO restored (threshold/window time)
- [] No recourse for related services

Follow-up
- CAPA, tasks in backlog, updating alerts/dashboards/playbook

10) ספרי משחק טיפוסיים

10. 1 API 5xx Spike

ייצוב: לכבות פישפלאג בעייתי; תגביר את העתקים של API, אפשר לכסות את השחרור.
אבחון: שחרור diff, שגיאות ביומנים (חריגים עליונים), גידול p95, לחץ DB/מטמון.
סיכונים: מפל בתשלומים/גיבוי.

10. 2 Name: lag שכפול/lock storm

ייצוב: השהיית עבודות/דיווחים כבדים; הפניה חוזרת קוראת למכשף להגדיל את wal_buffers/replika-sloty.
אבחון: עסקאות ארוכות, חסימת בקשות, שינויי תוכנית.
קיבעון: אינדקסים/רמזים, פיתוח מחדש של עבודות, שאילתות מפוצלות.

10. 3 עיכוב צרכני קפקהName

ייצוב: באופן זמני היקף הצרכנים; להפחית את הייצור משירותים שאינם קריטיים; להגדיל צדדים/מכסות.
אבחון: איזון מחדש, מדבריות איטית, ג 'י-סי הפוגה.
אימות: lag כפול לערך המטרה, אין טיפות.

10. 4 K8s NodeNotReady/Resource Storm

ייצוב: קורדון + ניקוז; לחלק מחדש את העומסים; בדוק CNI/כיסוי לכבות Daemonsets רועש.
אבחון: לחץ דיסק, חמצן, צניחת רשת.
מניעה: תקציבי שיבוש תרמיל, גבולות משאבים/בקשות.

10. 5 TLS/תעודות פג תוקפו

ייצוב: עדכון כפוי של הסוד/כניסה; מעקף זמני.
אבחון: שרשרת אמון, שעון רזה.
מניעה: התראות T-30/T-7/T-1, אוטומטי.

10. 6 DOS/תנועה לא תקינה

ייצוב: WAF/bot rules, rate-limit/geo-filters, upstream shape load.
אבחון: פרופילי התקפה (L3/4/7), מקורות, מטריות.
מניעה: כל קאסט, ציפוי אוטומטי, מטמון, לשחק נחמד עם ספקים.

10. 7 הפסקות PSP בתשלום

ייצוב: ניתוב חכם לשיטות PSP/חלופיות; להעלות מחדש עם ג 'יטר; ”רך” השפלה UI.
אבחון: ספייק כשל על ידי קודים, API statuses/PSP status pages.
תקשורת: עדכונים שקופים לעסקים ותמיכה, נכון סטטיסטיקת ND/המרה.

10. 8 תקרית בטיחות/דליפת PII

ייצוב: בידוד צומת/סיבוב סודי, חסימת חילוץ, אחיזה חוקית.
אבחון: צירי זמן גישה, נבדקים/שדות מושפעים.
הודעות: רגולטורים/שותפים/משתמשים לפי דרישות תחום השיפוט.
מניעה: שיפור DLP/קטגמנטציה, ”פריבילגיה לפחות”.

11) אוטומציה של ספרי שעשועים

פקודות ChatOps: '/ic להגדיר sev 1 ', '/פריסת rollback api 1. 23. 4 ', '/תכונה את X'.
Runbook-bots: צעדים חצי אוטומטיים (צומת ניקוז, להעיף תנועה, מטמון טיהור).
הווי ריפוי עצמי: גלאי = הפחתה סטנדרטית (rate-limit, restart, scale).
אוטומטי ליצור קלפים/צירי זמן מהתראות ופקודות.

12) איכות פנקס השמעה: רשימת בדיקות

[ ] תסמינים ברורים וגלאים (מדדים/רישומים/עקבות).
[ ] צעדים לייצוב מהיר בהערכת סיכונים.
[ פקודות/תסריטים ] עדכניים, נבדקו בהיערכות.
[ ] אימות התאוששות SLO.
[ תבניות תקשורת ] וקריטריונים לעדכון חיצוני.
[ ] הפניה שלאחר המוות ו CAPA לאחר הסגירה.

13) לאחר המוות (ללא אשמה) ו CAPA

המטרה: ללמוד, לא למצוא את האשם.
תוכן: מה שקרה, מה שנמצא כטוב/רע, תרומה של גורמים (אותם + תהליכים), פעולות למנוע.
מונח: SEV-1 - תוך 48 שעות; SEV-2 3 ימי עבודה.
CAPA: בעלים ספציפיים, תזמון, אפקטים מדידים (MTTR/MTTD מופחת).

14) היבטים משפטיים ובסיס ראיות

אחיזה חוקית: הקפאת יומנים/רצועות/התראות, אחסון פעם בכתב.
שרשרת אחסון של חפצים: גישה לפי תפקיד, בקרת שלמות.
הודעות רגולטוריות: צירי זמן/תבניות לתחום השיפוט (במיוחד עם תשלומים מושפעים/PII).
פרטיות: מח "ש מזערית ומסווה במהלך ניתוח.

15) מטריצות ביצועיות של תהליך תקרית

MTTD/MTTA/MTR לפי רבעון ותחום.
דיוק SEV (מפחית דיוק/מגזים).
נתח של תקריות אוטומטיות.
סיקור של תסריטי N העליונים (> 90%).
לבצע CAPA בזמן.

16) יישום לפי שלב

1. שבוע 1: מטריצת סו-וי, תפקידים תורניים, תבנית כרטיס כללית, תקנות חדר מלחמה.
2. שבוע 2: ספרי משחק לתסמינים 5 ביותר (5xx, DB lag, Kafka-lag, NodNotReady, TLS).
3. שבוע 3: ChatOps/Bots, אוטומטי יצירת כרטיסים, תבניות תקשורת/LookPage.

4. שבוע 4 +: Security Playbooks, PSP Outages, Legal Hold, Regulal Drills/Chaos Games

17) דוגמאות לספרי שיכר ”מהירים” ‏ (קטעים) ‏

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Verification:
kubectl -n prod top pods -l app=api

צומת ניקוז

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

FEATURE-FLAF (דוגמה)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) מיני ־ FAQ

מתי להעלות את SEV-1?
כאשר הפונקציה של SLO/business (תשלומים, התחברות, משחק) סובלת, וקצב השרפה ”אוכל” את התקציב במשך שעות קדימה.

מה חשוב יותר - RCA או התאוששות?
תמיד ייצוב, ואז RCA. זמן לייצוב הוא האינדיקטור העיקרי.

אני צריך לעשות אוטומטי להכל?
אוטומט צעדים תכופים ובטוחים; נדיר/מסוכן - באמצעות חצי אוטומטי ואישור IC.

סך הכל

תהליך התקרית החזקה נשען על שלושה עמודים: תפקידים ברורים וחוקי SEV, ספרי משחק/חוברות איכותיים עם אוטומציה, ותרבות שלאחר המוות ללא אשמה. תבניות לכידה, רכבת בכוננות, מדידת תקציב MTTR/שגוי, ושיפור גלאים וספרי משחק באופן קבוע - דבר זה מקטין באופן ישיר את הסיכון ואת עלות ההשבתה.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.