מניעת שפע של התראות
1) בעיה ומטרה
עייפות מתרחש כאשר המערכת שולחת יותר מדי הודעות לא רלוונטיות או לא. השורה התחתונה היא התעלמות מדפים, גידול MTTA/MTTR ודילוג על תקריות אמיתיות.
המטרה: להפוך אותות לנדירים, בעלי משמעות וניתנים להפעלה על ידי קישורם ל-SLOS ולספרי משחק.
2) טקסונומיה אותות (ערוץ = השלכות)
עמוד (P0/P1) - מעיר אדם; רק כאשר נדרשת פעולה ידנית עכשיו ויש ריצה.
כרטיס (P2) - עבודה אסינכרוני בשעות/יום; לא מתעורר, אבל הוא במעקב על ידי SLA.
Dash-only (P3) - תצפית/מגמה ללא פעולות פעילות; לא יוצר רעש.
זהירות שקטה - מדדים/ביקורת חשבונות ברקע (עבור RCA/post-mortems).
3) עיצוב התראה ”נכונה”
כל התראה חייבת להיות:- אובייקטיביות/היפותזה (מה שאנחנו מגנים עליו: SLO, ביטחון, כסף, ציות).
- תנאי הפעלה (סף, חלון, מניין מקור).
- Runbook/Playbook (שלב קצר מזהה + קישור).
- בעלים (קבוצה/קבוצת תפקידים).
- קריטריון השלמה (מתי לסגור, רזולוציה אוטומטית).
- מחלקת פגיעות (השפעה על המשתמש/פלטפורמה/אבטחה/עלות).
4) ניטור מונחה SLO
SLI/SLO # אותות עיקריים: זמינות, איחוי, הצלחה בפעילות עסקית.
התראות בקצב צריבה: שני חלונות (קצר + ארוך), למשל:- קיצור: 5% מהתקציב בשעה 1 עמוד.
- ארוך: 2% מהתקציב ב 6 שעות כרטיס.
- קוהורט: התראות על ידי אזור/ספק/מדור VIP - פחות אזעקות שווא גלובליות.
5) טכניקות להפחתת רעש
1. גשושי קוורום: מופעלים רק אם 2 מקורות בלתי תלויים (אזורים/ספקים שונים) מאשרים את הבעיה.
2. שכפול - מפתחות צבירה: service + region + code.
3. היסטריזה/משך: ”באזור האדום - N דקות” כדי לסנן את הקוצים.
4. מגבלת קצב: לא יותר מאשר התראות X/שעה/שירות; אם יעלה על זה, עמוד אחד + סיכום.
5. נודניק אוטומטי/דיכוי אינטליגנטי: התראה חוזרת בחלון T. # תרגום לכרטיס עד שהשורש מבוטל.
6. מתאם אירועים: ”התראת אמן” אחת במקום עשרות תסמינים (למשל: ”DB לא זמין” שיבוש 5xx ממיקרו-רווחים).
7. חלונות תחזוקה: עבודה מתוכננת מדכאת באופן אוטומטי את האותות הצפויים.
8. אנומליה + מעקות בטיחות: חריגות - רק ככרטיס, אם אין אישור על ידי אות SLO.
6) ניתוב וסדרי עדיפויות
סדרי עדיפויות: P0 (עמוד, 15 דקות עדכונים), P1 (עמוד, 30 דקות), P2 (כרטיס, 4-8 ח), P3 (תצפית).
ניתוב על ידי תוויות: service/env/region/terenant.
הסלמת זמן: אין אק ב5 min # P2 # Duty Manager/IC.
שעות שקט: שעות הלילה עבור הלא ביקורתי; דף אסור P2/P3.
מדיניות עייפות: אם למהנדס יש> N עמודים/הזזה - לחלק מחדש ל P2, להסלים זיהום אותות.
7) איכות התראות:
- פעולת 80%: הרוב המכריע של הדפים מובילים לפעולת ריצה.
- חיובי כוזב 5% עבור אותות עמוד.
- זמן לתיקון התראה 7 ימים - התראה פגומה יש לתקן/להסיר.
- בעלות 100% - לכל התראה יש בעלים ומאגר עם ההגדרה שלה.
8) התראה כמחזור חיים של קוד
1. יצירת יחסי ציבור (תיאור מטרה, תנאים, ספר ריצות, בעלים, תוכנית מבחן).
2. ארגז חול/צל: התראת צל כותבת לצ 'אט/יומן, אבל לא דף.
3. Canary: קהל מוגבל בכוננות, למדוד FP/TP.
4. Prod: הכללה עם קצב גבול + תצפית 2-4 שבועות.
5. סקירה שבועית: מדדי איכות, עריכה/משיכות.
6. פחת: אם האות משוכפל גבוה יותר או לא ניתן לפעולה.
9) מדדי בגרות (הצגה על לוח מחוונים)
התראות לפי שעה (חציוני/95 אחוזון).
% ניתן לפעול (יש צעדים שהושלמו) ושיעור חיובי כוזב.
MTTA/MTR סביב עמודים ודף action (לא צריך להיות גבוה).
top-talkers (שירותים/כללים המייצרים 20% רעש).
הגיע הזמן לתקן את הכוננות.
כיסוי קצב צריבה: נתח השירותים עם התראות SLO בשני חלונות.
10) רשימת בדיקות ”היגיינה של התראות”
[ כוננות ] קשורה ל-SLO/SLI או לעסקים/אבטחה.
[ ] יש ספר ריצות ובעלים; צוין ערוץ מגע וחדר מלחמה.
[ ] שני חלונות (קצר/ארוך) ומניין מקורות מוגדרים.
[ ] דדאפ, דרגה מוגבלת, נחישות אוטומטית, ונודניק אוטומטי כלולים.
[ ] תחזוקת חלונות ודיכוי מוגדרים עבור שחרור/נדידה.
[ ] שאדו/קנרי עבר; FP/TP מדוד.
[ ] כלל דו "ח מדדים איכותיים.
11) תבניות מיני
מפרט התראה (רעיון YAML)
yaml id: payments-slo-burn severity: P1 owner: team-payments@sre purpose: "Защитить SLO успеха платежей"
signal:
type: burn_rate sli: payment_success_ratio windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
confirmations:
quorum:
- synthetic_probe: eu,us
- rum: conversion_funnel routing:
page: oncall-payments escalate_after: 5m controls:
dedup_key: "service=payments,region={{region}}"
rate_limit: "1/10m"
auto_snooze_after: "3 pages/1h"
runbook: "rb://payments/slo-burn"
maintenance:
suppress_when: [ "release:payments", "db_migration" ]
טקסט עדכון סטנדרטי (להפחתת רעש)
Импакт: падение success_ratio платежей в EU (-3.2% к SLO, 20 мин).
Диагностика: подтвержден кворумом (EU+US синтетика), RUM — рост отказов на 2 шаге.
Действия: переключили 30% трафика на PSP-B, включили degrade-UX, след. апдейт 20:30.
12) תהליכים: שבועי ”סקירה עירנית”
אג 'נדה (30-45 דקות):1. top-talkers = עריכה/מחיקה.
2. FP/TP ב ־ Page Signal * התאם את הסף/חלונות/מניין.
3. מועמדים להורדה בדרגה (Page Acticle) ולהיפך.
4. זמן לתיקון מצב - עיכובים מחריפים לבעלי שירות.
5. בדיקת כיסוי עם התראות SLO ונוכחות של ספרי הפעלה.
13) קישור לשחרור ופעולות
שחרר אנוטציות באופן אוטומטי הוספת תוספות זמניות.
החלף חלונות: 30 הדקות הראשונות לאחר השחרור - רק אותות SLO.
חוברות השמעה מכילות צעד ”נמוך יותר/לדכא התראת אי-מפתח” כדי להתרכז בשורש.
14) בטיחות וציות
אותות אבטחה (פריצה/דליפה/גישה לא תקינה) - ערוצים נפרדים, ללא שעות שקטות.
רישום ביקורת של כל הדחפים/חלונות שקטים: מי, מתי, למה, מועד אחרון.
דרישה לחוסר יכולת התראה קריטית (חתימת אירוע).
15) אנטי דפוסים
”כל גרף = התראה” * מפולת שלגים.
סף ”= 0 שגיאות” במכירות.
גשש אחד/אזור אחד כמקור האמת.
עמוד בלי ספר ריצות/בעלים.
”דיוקים זמניים” תמידיים ללא מונח.
”תקן את זה מאוחר יותר” התראות פגומות - מצטברות במשך שנים.
ערבוב רעש שחרור עם תקריות ייצור.
16) מימוש מפת דרכים (שבועות 4-6)
1. לפרוק את כל התראות, לשים את בעלים וערוצים.
2. הצג כללי צריבה עם חלונות כפולים עבור שירותים קריטיים.
3. בקרת רעש: אפשר מניין, דעיכה והגבלת קצב, להתחיל סקירה שבועית.
4. סיקור: לסגור 100% של אותות Page עם ספרי משחק.
5. מדיניות פאטיג: גבולות עמוד/משמרת, שעות שקטות, לטעון חלוקה מחדש.
6. אוטומציה: התראה כקוד, צל/קנרית, דיווח על מדדים איכותיים.
17) השורה התחתונה
שתיקה אינה חוסר ניטור, אלא אותות מתוכננים היטב הקשורים ל-SLO ותהליכים. מניין, חלונות כפולים, דה-אפ וניתוב קפדני הופכים התראות לנדירות, מדויקות וניתנות להפעלה. הצוות ישן, המשתמשים שמחים, התקריות תחת שליטה.