GH GambleHub

התראות והודעות: Pgare Duty, Opsgenie

התראות והודעות: Pgare Duty, Opsgenie

1) מדוע פלטפורמה נפרדת של התראות

המטרה היא להעביר אות מיידי ורלוונטי לאדם הנכון/צוות ולהתחיל את תהליך התקרית: הכרה (ack), הסלמה, תקשורת, לאחר המוות. Pagle Duty ו Opsgenie לתת:
  • ניתוב על ידי שירותים/תגיות/סביבות.
  • הסלמה ולוחות זמנים (בתפקיד, המשך השמש).
  • שכפול אירועים/קורלציה.
  • חלונות שקטים (תחזוקה/הקפאה) וכללי מוזיקה.
  • אינטגרציה עם ניטור, CI/CD וצ 'טופ.

תמיכה: SLO-sefheld # התראה * person/machine * rollback/ticke * לאחר המוות.

2) מודל אותות וחומרה

קנה מידה מומלץ:
  • הפרת SLO/טעות בנתיב הכסף (הפקדה/משיכה), ירידה בזמינות, קצב צריבה.
  • הידרדרות משמעותית ללא התמוטטות סלו ברורה.
  • קיבולת, השפלה של הגב, מגש מחדש.
  • מגמות, אזהרות.

כלל: דף אחר SLO או הדק עסקי מפורש בלבד.

3) ארכיטקטורת ניתוב

1. Source (Prometheus/Alertmanager, Grafana, ניטור ענן, webhooks משלו).
2. Pagre Duty/Opsgenie service/Integration.
3. מדיניות: מסלולים לפי תגיות (”שירות”, ”env”, ”אזור”), חומרה, מטען.
4. הסלמה: רצף של רמות חובה (L1 = L2 # menedzer).
5. ערוצי צ 'ט-אופ, דפי מצב, דואר.

דוגמה לתגיות מפתח (תקן)

'service', 'env', 'region', 'runbook', 'free _ id',' route ',' derant' (אם B2B/רב-דייר).

4) לוחות זמנים של כוננות והסלמה

לוחות זמנים: ראשי/משני, SRE, DBRE, SEC).
סיבובים: יום/לילה, אחרי השמש, סוף שבוע.
עוקף: לעזוב/מחלה.
הסלמה: ack-timeout 5-10 min = = השכבה הבאה. על ידי שעות עבודה - למחלקת הפרופיל; מחוץ לרציף הכוננות.

עצה: לשמור על צעדי הסלמה קצרים בלילה (פחות עייפות), ויותר במהלך היום (יש הקשר).

5) אינטגרציה עם Alertmanager (תבנית בסיסית)

yaml receivers:
- name: pagerduty pagerduty_configs:
- routing_key: ${PAGERDUTY_ROUTING_KEY}
severity: '{{ if eq. Labels. severity "critical" }}critical{{ else }}error{{ end }}'
class: '{{.Labels. service }}'
component: '{{.Labels. env }}'
group: '{{.Labels. region }}'
description: '{{.Annotations. summary }}'
details:
service: '{{.Labels. service }}'
env: '{{.Labels. env }}'
runbook: '{{.Annotations. runbook }}'
release: '{{.Annotations. release }}'
route:
receiver: pagerduty group_by: ["service","env","region"]
group_wait: 30s group_interval: 5m repeat_interval: 2h

Opsgenie (webhook)

yaml receivers:
- name: opsgenie opsgenie_configs:
- api_key: ${OPSGENIE_API_KEY}
responders:
- name: "SRE Primary"
type: team priority: '{{ if eq. Labels. severity "critical" }}P1{{ else }}P3{{ end }}'
details:
trace: '{{.Labels. trace_id }}'
runbook: '{{.Annotations. runbook }}'

6) רעש, מוות וקורלציה

דדאפ קי: השתמש בטביעת אצבע יציבה (לדוגמה, שירות + מסלול + קוד).
מקבץ: ”group _ by” על ידי שירות/סביבה כך שקסקייד 5xx אינו משריץ עשרות עמודים.
חלונות דוממים/שקטים: במהלך נדידה/משחרר/טוען בדיקות.
דיכוי מסיבה: אם יש כבר תקרית P1 עבור "api-gateway @ prod', לדכא P2/P3 ילד.

Anti-Design: Page by CPU/Memory ללא השפעה מאומתת על SLO.

7) חיבור עם שחרורים ופעולות אוטומטיות

עם דיכאון קנרי, Pagre Duty/Opsgenie מקבלים התראה משער SLO * webhook in CI/CD * pause/rollback (Argo Rollouts/Helm).
התראה מכילה: ”שחרור _ id',” תמונה. תג, התייחסות לצינור ולספר ההפעלה.

דוגמה של לינק ריצות באנוטציות


runbook: https://runbooks. company/rollback/api-gateway#canary

8) פטפוטים ותקשורת

יצירת אוטומטית ערוץ אירוע ב Slack/Teams, מקשר לכרטיס.
Slash-coutle: ”ack”, ”הקצאת @ user”, ”status set”, ”התחלה שלאחר המוות”.
עמוד מצב - עדכונים אוטומטיים על P1/P2.

9) אופן חיים תקרית (מינימום)

1. הדק (התראה מחיישנים/SLO).
2. עמוד (בכוננות ראשית).
3. אק (אישור, טי-טי-איי).
4. תקשורת (ערוץ/מצב).
5. מיתון (rollback/feature-flag/bodiation).
6. פתרון (טי-טי-אר).
7. לאחר המוות (ציר זמן, סיבות, פעולות, שיעורים, בעל משימה).

ערכת תפקידים: IC (מפקד אירוע), Ops להוביל, תקשורת, סקריבה.

10) שדות מטען (נורמליזציה)

json
{
"service": "payments-api",
"env": "prod",
"region": "eu-central-1",
"severity": "critical",
"event_class": "slo_burn",
"summary": "Withdraw 5xx > 0. 5% for 10m",
"runbook": "https://runbooks/payments/withdraw-5xx",
"release_id": "rel-2025-11-03-14-20",
"image": "ghcr. io/org/payments:1. 14. 2",
"trace_id": "8a4f0c2e9b1f42d7",
"annotations": { "canary": "25%" }
}

11) אינטגרציה של מקורות אותות

פרומתאוס/אלרטמנאג 'ר הוא המקור העיקרי של SLO/RED.
גרפנה מתריע קל יותר ללוחות מחוונים/מדדים עסקיים.
OpenTelemetry/SpanMetrics - איחור/שגיאה בדרך.
אירועים K8s - כישלונות אשכול (שליטה-מטוס, הפרות PDB).
DB/תורים - lag/locks/שכפול.
מאפייני יישומים - אותות דומיין (שגיאת PSP, נחשול הונאה).

12) מדיניות וציות

RBAC ליצירת מדיניות/שינוי, לוחות זמנים, מוטות.
ביקורת: מי זיהה/מינה/שינה את הסטטוס, זמנים.
מזעור PII בתשלומים (כרטיס מזהה במקום הדוא "ל/טלפון של המשתמש).
ד "ר-תוכנית: מה אנחנו עושים כאשר Pagre Duty/Opsgenie אינו זמין (ערוץ גיבוי).

13) מחקרי מקרה (Pagre Duty vs. Opsgenie)

הזדמנותחובהNameOpsgenie
הסלמה/לוח זמניםבוגר, גמישבוגר, גמיש
תפקידי תקרית/תבניותתקריות חזקות זורמותתבניות תקרית/בעלי עניין
ערוצים/תקשורת אוטומטייםאינטגרציות טובותצוותי רפוי/טרשת נפוצה
תמחור/רישיונותלעתים קרובות יקר יותר, תוספות רבותבדרך כלל זול יותר בהתחלה
ניתוב תוויתחזק (ספריית שירות)חזק (חוקי ניתוב)
שתי הפלטפורמות מכסות 95% מאותם התרחישים; בחר לפי עלות, UX, ושילוב הערימה שלך.

14) חלונות שקטים וציפוי

הקפאה: באנינג הזמנת חלונות שחרור מתוכננים, משאיר רק P1.
שינון תגיות: ”env = שלב”, ”אזור = dr”, ”שירות = אצווה”.
אילם זמני: כאשר מסדי נתונים נודדים/בדיקות טעינה - עם בעלים מפורשים.

15) מדדי ביצועים (SRE/DORA להתראות)

MTTA/MTR (מפורק על ידי צוותים/שירותים/משמרות).
% התראות עם runbook (יעד 95%).
שיתוף התראות העמוד על ידי SLO (יעד 90%).
יחס של שימושי/רועש (מטרה 3:1).
% מהפעולות האוטומטיות (הפסקה/החזרה באמצעות webhook) - גדלות.
שריפה לאחר המוות פריטי פעולה 14/30 ימים.

16) אנטי דפוסים

עמוד אחר חומרה (מעבד, דיסק) מבלי להשפיע על המשתמש.
היעדר 'קבוצה _ by' ”סערה” של התראות.
אין חלונות שקטים - משחררים לצבוע הכל אדום.
תשלום ללא ”שירות/env/runbook” - לא ניתן לנתב/לפעול על.
אין סולם וחוקים של חומרה אחת (כל מקור שונה).
אזהרות ”נצחיות” שאף אחד לא מתקן (חוב התראה).

17) רשימת מימושים (0-45 ימים)

0-10 ימים

יישר סולם חומרה ותקן תגיות/הערות.
צור שירותים ב Pagral Duty/Opsgenie, הגדרת לוחות זמנים והסלמה בסיסית.
לקשור Alertmanager/Grafana, לאפשר ”group _ by” ולמות.

11-25 ימים

הזן התראות SLO (צריבה מרובת חלונות), הוסף ספר ריצות קישור.
הגדרות ChatOps: תעלות אוטומטיות, ack/הקצאת פקודות.
אפשר חלונות שקטים על שחרור/נדידה.

26-45 ימים

אינטגרל הפוגה אוטומטית/rollback עבור קנריות (webhooks).
הזן דיווח MTTA/MTTR והתראה על היגיינה (ניקוי רעשים).
תקן לאחר המוות ושלט על פריטי פעולה.

18) קטעים מוכנים

Grafana Alerting # Pgare Duty (מיפוי גוף JSON)

json
{
"routing_key": "${PAGERDUTY_ROUTING_KEY}",
"event_action": "trigger",
"payload": {
"summary": "{{.RuleName }}: {{ index. Labels \"service\" }}",
"severity": "{{ if eq (index. Labels \"severity\") \"critical\" }}critical{{ else }}error{{ end }}",
"source": "grafana",
"component": "{{ index. Labels \"env\" }}",
"group": "{{ index. Labels \"region\" }}"
},
"links": [
{ "href": "{{.DashboardURL }}", "text": "Dashboard" },
{ "href": "{{ index. Labels \"runbook\" }}", "text": "Runbook" }
]
}

webhook מכוננות _ Argo Rollouts pause

bash curl -X POST "$ARGO_API/rollouts/pause" \
-H "Authorization: Bearer $TOKEN" \
-d '{"name":"api-gateway","namespace":"prod"}'

Opsgenie - Routing Rule (פסאודו)

yaml if:
tags: ["service:payments","env:prod"]
severity: ["P1","P2"]
then:
route_to: "SRE-Payments"
notify: ["Primary OnCall","Secondary"]

19) מסקנה

קונטיינר חזק של התראות הוא תהליך + דיסציפלינה: Stratification מונחה SLO, ניתוב מוסמך והסלמה, תגיות אחידות ו-paylads, חלונות שקטים, ChatOps ופעולות אוטומטיות (pause/rollback). בחר Pagral Duty או Opsgenie על תקציב ו UX, אבל לדבוק באותם כללים של רעש, חובה ואחריות - אז הדף יהיה נדיר, מדויק ושימושי, והתקריות יהיו קצרות וניתנות לניהול.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.