תיקון שגיאה אוטומטי
1) מטרה ועקרונות
המטרה: לצמצם את MTTR ולמנוע הסלמה של אירועים על ידי שימור SLO, הכנסות וציות.
עקרונות:- פעולה אוטומטית מותרת רק אם יש איום מאושר לתקציב השגיאה.
- אבטחה ראשונה: רדיוס פיצוץ מינימלי, גבולות מפורשים ושעוני זמן.
- ניתן להסביר באמצעות עיצוב: כל פעולה ניתנת להסבר ולראייה.
- כל צעד מלווה בקריטריונים של חזרה.
- אדם-in-the-loop שבו הסיכון גבוה: P1-critical משתנה - באמצעות שליטה כפולה או אישור ICC/on-call (אלא אם כן נקבעה מדיניות אחרת).
2) מונחים
תגובה אוטומטית: תגובה מתוכנתת לאירוע (התראה/חריגה) ללא התערבות אנושית.
מעקות בטיחות: מדיניות הגבלה (סף, משך, מספר ניסיונות, אזור השפעה).
פעולת ריצה: פעולה אטומית עם בדיקות מראש/פוסט וגלגול.
מנוע החלטה - שירות שממפה אירוע למדיניות ומעורר פעולות.
3) ארכיטקטורה
1. אותות: SLO/Burn-rate, KRI, סינתטיים, רום, בריאות עמוקה.
2. מתאם הקשר: שחרור, תווי דגלים, עבודה מתוכננת, ספקים תלויים.
3. מנוע החלטה: חוקים/מדיניות (מדיניות-כקוד), השפעה והערכת סיכונים, בחירת תרחיש.
4. הוצאה להורג: תזמורת פעולות ריצה (idempotency, retrai עם jitter).
5. בקרה: קדם-אימות, לאחר אימות, תיבת זמן, גלגול חוזר.
6. ביקורת חשבונות ויכולת תצפית: עקבות פעילות, מדדי הצלחה, רישום (WORM/immutable).
7. תקשורת: סטטוס דף (דרך תקשורת עופרת), var-room, macros לתמיכה.
4) מדיניות כקוד
דוגמאות לתנאים (פסאודו-רגו/לוגיקה): כשל PSP:- 'הרשה אם burn_rate (תשלומים. auth)> מהר & השפעה> סף & psp_alt. בריאה & within_limits ("psp _ rroute") "
- 'הרשה אם p99 (bet_settlement)> 3x & queue_lag>limit & תכונה (”replay _ center”). Enabledweather &ft
- "הרשה אם consumer_lag>target & cost_budget. אישור & region_capacity. זמינות &fost
- ”אם export_spike & no_ticket & data_class=PII - פעולת> = בלוק + הודע (ציות)”
כל מדיניות מכילה: מצב, פעולה, הגבלה (היקף/זמן/תדר), קריטריון הצלחה, rollback.
5) ספריית פעולות בטוחות (פעולת ריצה אטומית)
תשלומים: לעבור תנועה לבנק PSP/חלופי; שינוי סדר העדיפויות של ניתוב בריאות × עמלה × המרה; אפשר הגבלת מגש מחדש עם ג 'יטר מפושט.
הימורים/משחקים: סולם ליישב עובדים; אפשר חימום מטמון באופן זמני לבטל תכונות לא קריטיות (אנימציות, הזנות משניות); אפשר חדר המתנה/עמוד תור.
תשתית: להסיר מקרים מושחתים (outlier-galector), לפנות את התנועה לאזור AZ/Area הסמוך; הגדל בריכה/מכסה להפעיל מחדש את העובדים עם בדיקות מוך.
נתונים/תורים: חלוקה מחדש של צדדים; להעלות את הצרכנים לכובע; לעבור תנועה קריאה להעתק בריא; אפשר דגימת מסלול הסתגלות.
אבטחה/ציות: לחסום באופן זמני יצוא מח "ש ללא כרטיס; חיזוק מגבלות יציאת המהירות מאפשר שליטה כפולה על פעולות רגישות.
שכבת פסיק: מצב טיוטה אוטומטי + עדכון חריצים עבור עופרת תקשורת; מודיע לשותפים כאשר PSP משפיל.
6) לפני ואחרי אימות
לפני:- בדוק שהבעיה אמיתית ורעננה (חלונות N-of-M; אין שקט/עבודה מתוכננת).
- ודא כי הפעולה מותרת על ידי מדיניות וכי יש תקציב משאבים.
- עלות הערכה (FinOps) ואילוצי ציות.
- אשר הפחתת קצב צריבה/מדדים; רשום את התוצאה; לוח זמנים אוטומטי על פי התנאים.
7) רולבק ”פתח מילוט”
החזרה אוטומטית בעת ייצוב מדדים ודרך פעולות טי-טי-אל מקסימליות.
הפעל כפתור חזרה עבור IC/בתורנות בחדר var.
זכוכית פריצה לגישה חירום בלבד; יש צורך בפוסט-ביקורת.
8) שילוב עם כוננות ותקריות
כל פעולה אוטומטית מצורפת לכרטיס האירוע: מי/מה/מתי/למה, התוצאה, קישורים לגרפים.
הזימונית מיועדת לשכפולים, אך לא לתיקונים אוטומטיים כושלים (הסלמה).
דף הסטטוס מעודכן באמצעות תקשורת עופרת מהתבנית.
9) בטיחות ועיצוב ציות
הרשאות מינימום לתזמור; תפקידים אישיים לכל פעולה/תחום.
סיד ובקרה כפולה לסיכון גבוה: ניתוב PSP, מגבלות בונוס, יצוא PII.
בקרת התולעת/בלתי ניתנת לשינוי של כל הפתרונות האוטומטיים, כולל קלט וגרסאות מדיניות.
ללא מזהים אישיים בתוויות ויומני פעולה.
10) יכולת תצפית של לולאות אוטומטיות
Metrics: הצלחה-שיעור הפעולות, זמן תגובה,% רולבקס, חסכונות MTTR, אפקטים על SLO.
עקבות: עקבות מקצה אל קצה עבור איתות * החלטה * action action ac effect.
יומנים: מובנים, עם policy_id, גרסאות ובדיקות טרום-פוסט.
לוחות דשבורד: Exec (השפעה על הכנסות/SLO), Ops (מטריצת פעולה × domains), FinOps (עלות מדידה אוטומטית).
11) תרחישים לדוגמה (iGaming)
11. 1 פירוק PSP (TR/EU)
אות: הצלחה אוטומטית ב PSP-1 25% תוך 10 דקות, כיסוי> 30% מהעסקאות.
פעולות: לחלק מחדש 40% מהתנועה PSP-2/3; אפשר 3DS מפושט להעלות מגשים מחדש של בקשות בנק X עם jitter.
גבולות: לא יותר מ-60% מהתנועה הכוללת לפי PSP חלופי; טי-טי-אל 45 דקות.
בנורמליזציה של הצלחה בקצב היעד עבור 15 דקות.
11. 2 עולה p99 בסיכון
אות: p99 ”הימור” להתיישב> 3 × נורם + צרכן-לג> סף.
פעולות: היקף החוצה של עובדים לפני מכסה; חימום מטמון מקדם; לכבות באופן זמני ”היסטוריה מחדש”.
rollback: אחרי חדר הראש> X ו ־ p99 בדרך כלל 20 דקות.
11. 3 מאגר הנתונים מפגר מאחור
אות: שכפול-לג> N שניות, נעילה-המתנה צמיחה.
פעולות: להסיט את התנועה אל העתק בריא; אפשר פעולות כתיבה בעדיפות נמוכה.
לאחר נורמליזציה לאג ושגיאות נעילה.
11. 4 PII יצוא ספייק
אות: קצב ייצוא> בסיס xK, אין כרטיסים.
פעולות: בלוק יצוא, הודעת ציות, שליטה כפולה מופעלת.
לאחר אישור בקשות וסגירת הסטייה.
12) KPI USKRI
MTTR עבור תקריות שבו התיקון האוטומטי עבד.
TTD = פעולה: הזמן מהזיהוי לפעולה.
אחוזי הצלחה של פעולות ו Rollback-rate (טוב נמוך, אם לא בשל חיובי כוזב).
קצב פעולה שגוי (פעולות ללא השפעה או עם השפעה שלילית).
הפגיעה ב-SLO נשמרה.
עייפות ביפר (פחות זמזום ידני עם אותו/טוב יותר SLOs).
13) מימוש מפת דרכים (8-12 שבועות)
נד. 1-2: בחר 3-5 תרחישי ROI גבוהים (PSP-feilover, autoscale by lag, feature-degrade); תאר מדיניות/גבולות/גלגולים.
נד. 3-4: לתכנן פעולות, סודות ותפקידים, אינטגרציה עם פלטפורמת אירוע; להוסיף יכולת תצפית וביקורת.
נד. 5-6: טייס במצב ”צל” (simulate-only) * אומדן אפקט A/B; ואז לכלול במוצר עם כיסוי נמוך.
נד. 7-8: להרחיב את ספריית התסריטים (מסד נתונים/מטמון/תורים/חזית), לשייך את עמוד הסטטוס ותקשורת.
נד. 9-10: הוספת כללי הגבלת FinOps (עלות/SLI), הפעלת שליטה כפולה לסיכון גבוה.
נד. 11-12: tablop/chaos tributions, KPI/KRI revision, פרסום קווים מנחים והכשרה תורנית.
14) חפצים ותבניות
מדיניות חידוש אוטומטי: מצב, פעולה, גבולות, טי-טי-אל, רולבק, בעלים, כיתת סיכון.
מפרט הפעולות: תנאים מקדימים, צעדים, בדיקות, שגיאות, ניטור, היגיון גלגול.
שינוי בקרה: מי יכול לשלוט במדיניות, ביקורות יחסי ציבור, מבחנים, דיפ וגרסה.
חפיסת ראיות: רישומי ההשפעה של SLO/שבילים/מדדים, דווחו על ביקורת שלאחר המוות.
15) תרופות אנטי ־ פטריות
”טיפול בתסמין” מבלי לבדוק את הסיבה ו-SLO = נפנוף.
פעולות ללא שיגור וטי-טי-אל.
תסריטים אוניברסליים ללא מעקות בטיחות.
חוסר ביקורת ופוליסה.
התעלמות מעלויות (אוטוסקלה ללא הגבלה) וציות (יצוא PII).
אוטונומיה מלאה ללא סיכוני P1.
סך הכל
תיקון שגיאה אוטומטי הוא לולאה מנוהלת: SLO Signal Extreme Action Production with rollback act observability ו-SLO SLO Extreme Ac גישה זו מפחיתה באופן מדיד את MTTR, שומרת על הכנסות בשפע, ומסירה את השגרה מהתורנות בזמן שהיא נשארת תואמת את דרישות הבטיחות והרגולציה.