Operations and Management # AI עוזר למפעילים
AI עוזר למפעילים
1) למה אתה צריך את זה
מפעילים טובעים בהתראות, יומנים וחפצים מפוזרים. עוזר הבינה המלאכותית הופך אותות הטרוגניים להמלצות מובנות ופעולות מוכנות: מיון מהיר יותר, פחות שגרה ידנית, חיזוי גבוה יותר של SLO.
מטרות:- הפחתת MTTD/MTTR ורעש התראה.
- לשפר את איכות האיברים והתיעוד שלאחר התקרית.
- אוטומטית ”שגרה כבדה” (חיפוש אחר הקשר, סיכום, כרטיסים).
- הקלט תקני תגובה/תקשורת נפוצים.
2) תרחישי יישום (Top-12)
1. מיון תקריות: קיבוצים של התראות = השערות של גורמים לעדיפות עליונה/השפעה.
2. פעולה רמז: ”מה לעשות עכשיו” עם קישורים לאלבום הריצה וכפתורי שיגור.
3. סיכומים אוטומטיים (תקרית TL; ד "ר): לחיצה קצרה לערוצי התקרית/בעלי עניין.
4. חיפוש ידע (RAG): תשובות מהירות על ידי רנבוק/SOP/postmortems/escalation matrix.
5. יצירת כרטיסים/עדכונים: טיוטות של עדכוני Jira/Status באמצעות תבנית.
6. ניתוח התראה: זיהוי ”כללים רועשים”, הצעות לכוונון.
7. Observability Q&A: ”הצג p99 hets-api in 1h” = גרפים/בקשות מוכנים.
8. הקשר ספק: סיכום ספק (מכסות, SLAs, חלונות, תקריות).
9. רמזים מנבאים: ”burnerface drugh + lag drugh ac להכין feiler PSP”.
10. טייס משנה: אוסף חבילת משמרות מלוחות מחוונים/כרטיסים.
11. טייס משנה לאחר המוות: כרונולוגיה מתוך לוגים/אשכולות + טיוטת פעולות תיקון/מניעה.
12. לוקליזציה/טון של הודעות: נכון, עדכוני לקוח עקביים.
3) ארכיטקטורה (ברמה גבוהה)
מקורות: מדדים/לוגים/שבילים (Observability), כרטיסים/תקריות, תצורות/פישפלאגים, סטטוסים מספקים, ספריית SLO/OLA, ספר ריצות/SOP.
שכבת RAG (חיפוש ידע): אינדקס מסמכים עם סימון (תחום, גרסה, תאריך, בעלים). ויואי ”למרכזנית”.
כלים/פעולות: פעולות בטוחות: scale-up HPA, canary pause, ”אפשר מצב בטוח”, ”להחליף PSP”, ”ליצור כרטיס”, ”לאסוף תרשימים”. "כל הפעולות הן באמצעות ברוקר/מתזמר עם ביקורת.
מעקות בטיחות מדיניות: זכויות לפי תפקיד, אישור HITL, גבולות, הפעלה יבשה, מגזין.
אבטחה: KMS/סודות, מסכות PII, MTLS, ביקורת גישה למידע.
ממשקים: צ 'אט/פאנל ב-NOC, ווידג' טים בלוחות מחוונים, פקודות רפוי.
4) תבניות UX (מה שהמפעיל רואה)
כרטיסי תקרית: "השערת הסימפטום" (מדורג) * 3 צעדים מוצעים * קישורים לכפתורי פעולה של נתונים ".
שדה קדימון אחד: ”צור חבילת מסירה ב-4-אייץ 'האחרון לתשלומים”.
הדגשת ביטחון/מקורות: ”מבוסס על: Grafana, Postgres logs, Runbook v3”.
"יבש-Run' כפתור: להראות מה ייעשה ואיפה הסיכונים.
היסטוריית החלטות: מי אישר את הצעד, התוצאה, רולבק/הצלחה.
5) אינטגרציות ופעולות (דוגמאות)
תצפית: מסנני PromQL/LogsQL/Trace, גרפים על ידי לחיצה.
Feature Flags: אפשר מצב בטוח/לגלגל בחזרה את הדגל (עם אישור).
שחרור-קנרית: הפסקה/רול בחזרה; תספרי את הגרפים.
K8s: בדיקת PDB/Project.
ספקים: החלפת מסלול PSP-X = PSP-Y; בודק מכסות.
עדכון טיוטה לערוץ/עמוד מצב.
יצירת ג 'ירה עם חלקים מלאים מראש.
6) מדיניות ביטחון ופרטיות
גישה לפי תפקידים/תחומים: המפעיל רואה רק מערכות ”שלו” ומידע מספיק מינימלי.
יומן פעולה: מי/מתי/מה אישר, תוצאה, גלגול חוזר.
PII/סודות: מסווה בתשובות/יומנים; אי נגישות של סודות ”גולמיים”.
אחסון תוכן: גרסאות של חפצים מופקים (RAGs) עם TTL ותוויות.
האיסור על ”חשיבה” כחפץ: אנו משמרים מסקנות והפניות למקורות, ולא השתקפויות פנימיות של המודל.
ספק-גבולות: רשימה ברורה של נתונים העוזבים את המתחם (אפס כברירת מחדל).
7) מדדי איכות וביצועים
KPI תפעולי:- MTTD/MTTR, Tree-Incident Cate Rate Late, Change Causion Rate, Handoff Quality Score.
- התראה על עייפות, זמן לעדכון ראשון.
- שיעור קבלה, זמן שמור/מקרה, דיוק/חזרה לפי רמה (למשל: P1), שיעור הזיות, תקריות בטיחות = 0.
- זכור (P1) 0. 7, דיוק 0. 6, קבלה 0. 5, הזמן שמור 25%, הזיות 2% עם אזכורים חובה למקורות.
8) הנדסת תעשייה וניהול ידע
תבניות שאילתה: תקן את הניסוח (דוגמאות להלן).
שכבות הקשר: (a) כללי מערכת (ביטחון, סגנון תגובה), (b) מתג קצר/הקשר דומיין, (c) חיפוש RAG במסמכים/לוחות זמנים חדשים.
Wersioning: לכל מדריך/SOP יש ”id @ version” ותאריך, AI מוציא קישור וגרסה.
אימות תגובות: דרוש התייחסות למקורות מידע/לוחות מחוונים לכל ההצהרות העובדתיות.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) הטמעת תהליך (SOP)
תקריות: AI מפרסם TL; ד "ר כל N דקות, מכין את זמן ההגעה המשוער הבא, מציע צעדים.
שחרור: סיכומים מראש ולאחר דיווח; אוטוג בסיכונים חיזוי.
משמרות: חבילת מסירה נוצרת ומאומתת לפי הרשימה.
פעולות שלאחר המוות: טיוטה לפי ציר זמן + תיקון/רשימת פעולות מונעות.
דיווח: עיכול בן שבוע של התראות רעשניות והצעות כוונון.
10) לוחות מחוונים ווידג 'טים (מינימום)
אל מבצעים סקירה: המלצות מקובלות, זמן חסך, הצלחה/רולבק של פעולות.
Triaging Quality: Precision/Recall by Class, Shanged Cases, Top Bugs.
Knowledge Health: Runbook/SOP Covery, Heritage Guars, Sp
התראה היגיינה: רעש מקורות, מכוון מועמד כלל.
בטיחות וביקורת: רישום של פעולות, ניסיונות כושלים, דוחות יבש.
11) אנטי דפוסים
”תיבת הקסם תפתור הכל” - ללא RAG וקישורים, עם ”ניחוש” עובדות.
אוטומטי פעולות בלתי הפיכות ללא HITL/תפקידים/גבולות.
מיזוג של חפצי פרוד/במה בחיפוש.
סודות/מח "ש בתשובות ויומנים של העוזר.
היעדר מדדים איכותיים והערכת תועלת לאחר.
”שיחה אחת לכל המשימות” - ללא כרטיסים, סטטוסים וכפתורי פעולה.
12) רשימת מימושים
[ ] Domains ותסריטים (מיון, סיכומים, מסירה, כרטיסים) מוגדרים.
[ ] RAG מוגדרת: runbook/SOP/Aftmorem/escalation matrix index (עם גרסאות).
[ ] אינטגרציות: תצפיות, דגלים, שחרור, כרטיסים, ספקים - באמצעות כלים מאובטחים.
[ מדיניות ]: תפקידים, HITL, יומן, יבש לרוץ, פיל/מיסוך סודי.
[ ] UX: כרטיסי תקרית, כפתורי פעולה, ביטחון עצמי וקישורים.
[ ] Metrics: AI-KPI ו-Ops-KPI + לוחות מחוונים.
[ תהליכים ]: SOPS לתקריות/משחרר/משמרות/לאחר המוות המעורב AI.
[ תוכנית אימונים ] מרכזנית ו ”כללי תקשורת” עם העוזר.
13) דוגמאות לפעולות אוטומטיות ”בטוחות”
פרסום TL; ד "ר/זמן הגעה לערוץ התקריות.
יצירת/עדכון כרטיס, קישור חפצים.
דור/השקה של קריאת מדדים ויומנים (ללא שינויים במערכת).
הערות של שחרור/דגלים על גרפים.
הכנת ההרצה היבשה (אשר ייעשה עם אישור).
14) תפקידים ואחריות
Ops בעלים: תוצאות עסקיות (MTTR, רעש), אישור SOP.
תצפית/SRE: RAG, אינטגרציה, בטיחות ומדדים איכותיים.
Domain Leads: אימות של המלצות, רלוונטיות של runbook/SOP.
Training/Enblement: Operatories, ”כיצד לתקשר עם אל”, בחינות.
ציות/אבטחה: מדיניות נתונים, ביקורת ואחסון רישומים.
15) 30/60/90 - תוכנית סטארט-אפ
30 ימים:- פיילוט על תחום אחד (לדוגמה, תשלומים): מיון, TL; ד "ר, כרטיסים.
- אינדקס ידע (RAG) וכרטיסי תקרית, פעילויות הפעלה יבשות.
- מדדים בסיסיים: קבלה/זמן שמור/דיוק/חזרה.
- הוסף טייס משנה/לאחר המוות, אינטגרציה עם דגלים/שחרור.
- כולל רמזים חיזוי (שרפה-קצב, פיגור) והצעות כוונון התראה.
- לבלות שני ימי משחק באמצעות העוזר.
- הרחבה להימורים/משחקים/KYC, איחוד תבניות.
- הגדרת SOPs עם AI, הזן KPIs במטרות רבעוניות.
- אופטימיזציה של אפקט כלכלי (עלות/תקרית, הפחתת שעות נוספות).
16) דוגמאות לתגובות עוזרות (פורמטים)
כרטיס תקרית (דוגמה):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
מסירה TL; ד "ר (דוגמה):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
טיוטה שלאחר המוות (שבר):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
קיו: מה לעשות קודם?
א ': תקצירים/כרטיסים/חיפוש ידע - בטוח ומייד חוסך זמן. אז רמזים לחיזוי ופעולות חצי-אוטומטיות עם היטל.
קיו: איך להתמודד עם ”הזיות”?
א. רק RAG, רק תשובות עם קישורים, איסור על תשובות ללא מקורות, הערכת איכות לא מקוונת, תשובות שנויות במחלוקת לסימן ופירוק ברטרו.
ש: האם זה אפשרי לתת לעוזר את הזכות ללחוץ על כפתורים?
א. כן - עבור צעדים הפיכים ונמוכי סיכון (הערות, סיכומים, ריצה יבשה, קדם-קנה מידה), השאר - באמצעות HITL ותפקידים.