ניטור קצב ופעימות לב
1) למה אתה צריך את זה
גילוי מוקדם של הפסקות בהיקף ובתוכו (קצה ↔ ליבה).
אישור של זמינות המשתמש (לא רק ”התרמילים בחיים”).
SLA/SLO דיווח חוזי וחובות משפטיות.
ניטור תהליכי רקע (cron, ETL, חבורות תשלום) באמצעות פעימות לב.
מתודולוגיות: אותות זהב (Latency/Vock/Lieution/Rivation), RED, קישור ל ־ SLO ותקציב מוטעה.
2) סוגי המחאות (סינתטיות)
ICMP: זמינות רשת/IP בסיסית.
TCP: היציאה חיה/לחיצת יד (למשל: 443/5432).
TLS: תוקף/טווח/שרשרת תעודות.
HTTP (S): קוד תגובה, Latency, כותרות, סובסטרינג מפתח בגוף.
רזולוציה, TTL, NXDOMAIN/SERVFAIL.
דפדפן ללא ראש (נתיב המשתמש): התחברות = action action ac logout.
גשושיות מותאמות אישית: אישור תשלום בארגז חול PSP, סינתטיקה עסקית פנימית (הדמיית הפקדה).
טיפים: בדוק הן נקודות קצה והן נקודות קצה פרטיות (מתוך VPC/K8s) הן תחומי סיכון שונים.
3) ארכיטקטורת ניטור זמן
סוכני ניסוי לפי אזור (מינימום 3 נקודות גיאו).
יצואנית הקופסה השחורה עבור HTTP/TLS/DNS.
סינתטיים לפי מסלולים (צעדים רציפים) בנפרד; תסריטי חנות.
פרומתאוס/מימיר/תאנוס: איסוף מדדים, כלל SLO/התראה.
התראה/זימונית: ניתוב P1/P2, הסלמה.
עמוד מצב: עדכונים שקופים לעסקים/לקוחות.
לוגים/עקבות: drilldown by "trace _ id'/correction.
- ”הוא התהליך בחיים”.
- ”מוכן לקבל תנועה” (תלוי בסף).
- / סטארטופז - ”הופעל”.
- בדיקת בריאות עסקית מתקדמת (מסד נתונים קל/מטמון בודק עם פסקי זמן ושובר מעגל).
- בריאות סמנטית: קוד 200 רק כאשר תלות קריטית היא פונקציונלית; השפלה של 503.
חוקים: פסק זמן 2-3, בדיקות משנה מוגבלות, אין מח "ש בתגובות, מטמון חלקים כבדים.
5) פעימות לב לעבודה ולעובדים
מודל המתג של איש מת: אם הקרציה לא הגיעה בזמן, התראה.
שימוש: cron/ETL/עבודות חשבונית, בדיקות תשלום מחוץ לשרשרת, עובדי רקע.
- Push-Heartbeat HTTP: עבודה כאשר סיים עושה 'POST/Heartbeat/< עבודה>'.
- Metrics-למשוך: לחשוף ”last _ success _ timestamp” ולהתריע על ידי ”ישן מ N דקות”.
- כלב שמירה: אות קבוע מהסוכן; חסרה התראה ”הפסקת ניטור”.
6) דוגמאות הגדרות
6. 1 יצואנית בלקבוקס (HTTP + TLS + DNS)
yaml modules:
http_2xx:
prober: http http:
method: GET preferred_ip_protocol: "ip4"
fail_if_not_ssl: true valid_http_versions: ["HTTP/1. 1","HTTP/2"]
tls_config:
insecure_skip_verify: false headers:
User-Agent: "uptime-probe"
body: ""
ip_protocol_fallback: false
tls_cert:
prober: tcp tcp:
query_response: []
tls: true tls_config:
insecure_skip_verify: false
dns:
prober: dns dns:
query_name: "api. example. com"
valid_rcodes: ["NOERROR"]
preferred_ip_protocol: "ip4"
6. 2 פרומתאוס: מטרות ודקירות
yaml scrape_configs:
- job_name: 'blackbox-http'
metrics_path: /probe params:
module: [http_2xx]
static_configs:
- targets:
- https://api. example. com/healthz
- https://pay. example. com/readyz relabel_configs:
- source_labels: [__address__]
target_label: __param_target
- target_label: __address__
replacement: blackbox-exporter:9115
- source_labels: [__param_target]
target_label: instance
6. 3 פעימות לב ג 'וב מטרס (יצואן פרומתאוס)
לחשוף את המטרי:
job_last_success_timestamp_seconds{job="settlement"} 1. 730000e+09
התראה:
promql
(time() - job_last_success_timestamp_seconds{job="settlement"}) > 900
6. 4 כלב שמירה (מתג של איש מת)
ב-Alertmanager, אפשר את המסלול לכוננות ”Watchdog” (תמיד יורה).
7) דוגמאות PromQL להעלאה
זמינות HTTP (0/1):promql probe_success{job="blackbox-http"} == 1
p95 latency על ידי מדגם:
promql histogram_quantile(0. 95, sum by (le, instance) (rate(probe_http_duration_seconds_bucket[5m])))
TLS פגה <7 ימים:
promql
(min_over_time(probe_ssl_earliest_cert_expiry[5m]) - time()) < 7243600
שגיאות DNS:
promql rate(probe_dns_rcode{rcode!="NOERROR"}[5m]) > 0
Uptime SLI (מתגלגל 28d):
promql sum_over_time((probe_success==1)[28d]) / (28246060)
8) התראה: סף ואנטי-רעש
מניין רב-אזורי: מופעל אם אזורי 2 רואים טיפה.
חלון מרובה: 1-5 דקות (ערוץ מהיר) + 30-60 דקות (מגמה יציבה).
רגישות: פספוס/עבור: 2-5 דקות נגד נפנוף.
מתאם: לקשר התראת עלייה בזמן עם מדדי עור (קצה, DNS, WAF, מקור).
חלונות תחזוקה: הדחקת התראות על ידי ”תחזוקה = תגיות נכונות”.
promql
≥2 regions simultaneously failed sum by (target) (max_over_time (probe _ success = = 0) [3m]))> = 2
9) בדיקות רב-תחומיות ורב-ספקים
מינימום 3 גיאוגרפיות (EU/NA/APAC) ו-ASNs שונים.
שכפול: דוגמיות משל עצמן + הספק זמן עליון חיצוני.
IPv4/IPv6, HTTP/2/3, פרופילים שונים של CDN POPS ו-WAF.
10) בדיקות אבטחה
אפשר הטווח IP של דגימות על WAF/LB.
מגבלות קצב ומעקף קפצ 'ה עבור נקודות קצה בריאות/גשושיות.
חתימת כותרת (HMAC) לבריאות פרטית.
תחומים נפרדים: דגימות ציבוריות ופרטיות (/פנימיות/בריאות).
אל תחזיר גרסאות פנימיות/תצורה ל/בריאה; סטטוסים בלבד.
11) SLO ודיווח למעלה
זמינות SLI: 2xx/3xx אחוזי ההצלחה של הגשושית HTTP.
SLO דוגמה: IM 99. 95% ב -28 ימים ברוב האזורים.
תקציב שגוי: '1 -SLO' .ls מצליח משחרר.
התראות בקצב צריבה: ערוץ מהיר/איטי עבור פרופורציה של כשלי דגימה.
12) פעימות לב תמורת תשלום ועבודות קריטיות
עבודות ”סביב כסף” (העברות, רישומים) - שליטה כפולה: דלפקי פעימות לב + עסקים (כמה רשומות מעובדות).
התראות על ידי ”שתיקה” (אין אירועים חדשים> N דקות) ועל ידי פיגור (lag מאחורי בזמן אמת).
13) דפי מצב
רכיבים נפרדים (API, תשלומים, גיבוי, CDNs).
עדכונים אוטומטיים מהתראות, הערות ידניות דרך תפקיד התקשורת.
היסטוריית אירוע, קישורים שלאחר המוות, עבודה מתוכננת.
14) אינטגרציה עם תהליך אירוע
התראת SEV לפי כללי מניין + משך.
יצירה אוטומטית של כרטיס אירוע, חדר מלחמה, משימת IC.
תבניות תקשורת (פנימי/חיצוני), Hold משפטי במידת הצורך.
לאחר אימות: סינתטיים ירוקים באיקס דקות ל ”נפתר”.
15) ביצועים ועלות
תדירות דגימה: קריטית - כל 30-60 s; משנית - 1-5 דקות.
אחסון: הורדת כללי ההקלטה לחלונות ארוכים.
תקציב הספקים החיצוניים: הגבלת תסריטי דפדפן מתקדמים ללוח הזמנים.
16) רשימת בדיקות איכות
[ ] יש/בריאים ,/מוכנים ,/סטארטאפז עם סמנטיקה ברורה.
[ ] דגימות מ-3 אזורים/ASN, IPv4/IPv6.
[ ] בדיקת TLS/DNS והתראות בימים T-30/T-7/T-1.
[ ] פעימות לב כל עבודות קריטיות (ועסקים ”שתיקה”).
[ ] רב-חלונות + מניין, ללא נפנוף.
[ ] Drilldown: כפתורים לרישומים/מסלולים/לוחות מחוונים.
[ ] דף מצב ותבנית תקשורת.
[ ] תיעוד של SLO/Metrics ובעלים.
17) תוכנית יישום (3 איטרציות)
1. שבוע 1: HTTP/TLS/DNS בלקבוקס גשושיות על ידי תחומים קריטיים, דף מצב, התראות בסיסיות.
2. שבוע 2: ריבוי תחומים, חוקי מניין, דופק עבודה מעולה, כלב שמירה.
3. שבוע 3: תסריטים חסרי ראש (התחברות/הפקדה), דיווח SLO, אינטגרציה עם תהליך התקרית.
18) מיני ־ FAQ
למה דגימות חיצוניות טובות יותר מדגימות פנימיות?
משתמשים חיצוניים רואים את נתיב המשתמש האמיתי (DNS/CDN/WAF), משתמשים פנימיים רואים את מצב המקור. אנחנו צריכים את שניהם.
האם אני צריך לבדוק PSP בתשלום?
כן: סינתטיים בארגז חול וניטור דף מצב; במקרה של השפלה - ניתוב חכם אוטומטי.
איך להפחית רעש?
קוורום, חלון מרובה, לעיכוב, דיכוי על תחזוקה, פסי SLO ברורים ובעלות.
סך הכל
ניטור זמן הוא לא רק פינג. זוהי מערכת: סינתטיים רב-אזוריים + נקודות בריאות באיכות גבוהה + עבודת פעימות לב + SLO/התראה + עמודי סטטוס. בדיקות סטנדרטיות, להפחית רעש, להגן על דגימות ולקשר הכל לתהליך האירוע - בדרך זו אתה להפחית MTTR ולשמור את התקציב השגוי.