יכולת תצפית ושליטה במצב
1) מטרות ועקרונות
מטרה: להבין ”מה קורה” ו ”למה” בזמן אמת כדי למנוע אירועים ולהתאושש במהירות מבלי להפר את SLO או לנפח את OPEX.
עקרונות: SLO-first, ”אותות זהב” (latency, movel, tiews, rovation), תקן טלמטריה יחיד (OpenTelemetry), פרטים מספיקים, יכולת הסברה, מודעות עלות.
2) שכבות יכולת תצפית
1. מטריצות: אגרגטים עבור SLI/SLO, קיבולת ומגמות (מודלים של RED/USE).
2. עקבות: רשתות סיבתיות של בקשות, תשלומים ועסקאות משחק.
3. יומנים/אירועים: הקשר מפורט וביקורת של פעולות אופרטור/שירות.
4. סינתטיקה (קופסה שחורה): בדיקת API/web path, PSP/KYC pings.
5. RUM (משתמש אמיתי): מדדים קדמיים (TTFB, LCP, שגיאות JS), פרוסות גיאו/התקן.
6. טלמטריה ברמה נמוכה: eBPF/CPU פרופיל/IO/Alloc, עיכובים אחוריים ברשת.
3) סט SLI ואותות מוזהבים
Latency: p50/p95/p999 על ידי נתיבים קריטיים (התחברות, הפקדה, קצב, משיכה).
שגיאות: נתח של 5xx/timeout/down (מנורמל על ידי ספקים/בנקים).
תנועה/דרך: RPS/TPS, הפעלות פעילות, אירועים/שניות
רוויה: CPU/RAM/IO Load, עומק התור, שימוש בבריכה, פיגור בשכפול.
Business SLI: מרבצים מוצלחים/% שיעור לחלון, סטיות המרה של KYC/PSP, נתח שרצים.
4) ארכיטקטורת טלמטריה
הזרקה סטנדרטית: OpenTelemetry SDK/אספן נורמליזציה, דגימה, מסנני פרטיות * אחסון (TSDB, עקבות, יומנים).
קורלציה: trace-id/span-id בלוגים ובמטרים (מופת); מתאם יחיד עבור תשלומים/אירועי משחקים.
טופולוגיה: גרף שירות, ספקים חיצוניים תלויים עם סלים חיים.
ניהול עלויות: רמות שימור, צבירה, דגימה דינמית, שיעורי אחסון ”חם ”/” קר ”.
5) מטריות: עיצוב וקרדינליות
כללים: מספר קטן של תוויות, איסור על קרדינליות גבוהה (autID, ID) בסדרת הזמן; פרטים כאלה - רק במסלולים/יומנים.
RED/USY: בקשות-שגיאות-משך זמן (Process-tieveration-perAPI; ניצול-רוויה-שגיאות לתשתית.
מופת: קשירת אחוזים גבוהים לדוגמאות ספציפיות.
מדדים עסקיים: $/RPS, בנק PSP/GEO המרה, עמידות לספק.
6) איתור: עומק ודגימה
הקשר: אנחנו זורקים את הקשר העקבות דרך החלק הקדמי = AFI = ac brookers = = מעבדי מסדי נתונים = PSP.
דגימה: 1-10% בסיסיים, עם חריגות - עלייה דינמית לפי הכללים (מבוססי זנב).
מיקוד: זרימת תשלום (init auth auth capture/settle), עסקאות משחק (bet ac.set), KYC (init ac.ac.
אנוטציות: PSP-קוד תגובה, Bank-BIN/issuer-קטגוריה, אזור, שיעור סיכון.
7) יומנים וביקורות
יומנים מובנים: JSON, רמה אחר פרופיל (INFO on the prod, DEBUG IN DEBUG).
מסנני פרטיות: מיסוך מח "ש, איסור על מסמכים גולמיים של ה-KYC ביומנים.
אירועי ביקורת: מי/מה/איפה/מתי/למה, כרטיס מזהה, קדם/פוסט ערכים עבור עסקאות בסיכון גבוה (בונוסים, גבולות, ניתוב PSP).
חוסר רגישות: תולעת/בלתי ניתנת לשינוי, חתימה, שמירה על ידי מדיניות.
8) בקרת מצב (בריאות)
לביאה/מוכנות/סטארט ־ אפ: דגימות נכונות (לא בודקות תלות חיצונית בלביאה).
מצב מושפל: דגלי פירוק שירות מפורשים כך שהתראות ודף המצב עקביים.
בריאות תקציבית: תקציב שגיאת שרפה (חלון מהיר/איטי), חדר ראש על ידי משאבים ותורים.
9) התראה ואזהרה מוקדמת
התראות SLO: על פי תקציב השגיאה (חלונות של 4 שעות ו-1 שעות) במקום ה ”גולמי” p95.
אנומליות: STL/IQR/Online גלאים עבור התפרצויות 5xx, הרשאות PSP טיפה ב GEO/בנק מסוים.
אנחנו מקשרים התראות עם המשחררים האחרונים/פישפלאגים/עבודה מתוכננת.
ספרי ריצה: לכל התראה יש קישורים לספר משחקים, גרפים, ”בדיקות מהירות”.
10) לוחות מחוונים (מי רואה מה)
Exec: uptime/SLO, burn-rate-rates, preductions/RPS.
SRE/פלטפורמה: RED/USE by service, תורים/lag, שימוש בבריכה, lag שכפול, CDN/WAF, פרופילי eBPF.
תשלומים/סיכון: הצלחה באישורים של PSP/Bank/GEO, הידרדרות רכה/קשה, זמן KYC, אותות מקדימים.
תמיכה/CS: פאנל מצב אירוע, SLAs תגובה, מקרוס FAQ.
11) כושר תצפית של FinOps-Observation
שימור: 7-14 ימים עבור מסלולים ”גולמיים”, יחידות ארוכות יותר; שירותים חמים באופן סלקטיבי.
דגימה/צבירה: דגימה דינמית על ידי אנומליה, ירידה של סדרות ישנות.
מדיניות בלע: ניתוק רעש (רישומי בריאות, יומנים מיותרים), מכסות למדדי קרדינליות גבוהים.
עלות KPI: $/GB בלע, $/עקבות, $/SLI לוח מחוונים; ביקורות תקופתיות של אוכלי עליון.
12) פרטיות וציות
PII/Finance: מיסוך, טוקניזציה, מזעור נתונים בטלמטריה.
גיאו-לוקליזציה: אחסון ועיבוד על ידי תחום שיפוט; יצוא יומן - רק באמצעות זורם עבודה מאושר עם הצפנה ו TTL.
גישת ביקורת לטלמטריה: RBAC/ABAC, SOD להעלאה, רישום בקשה.
13) אינטגרציה עם ניהול אירוע ומשחרר
עמוד מצב: עדכון אוטומטי של כרטיס התקרית.
שער שחרור: ניתוח כנרית SLI, שחרור אוטומטי בקצב צריבה> סף.
ציר זמן משבילים/יומנים, סלים אמיתיים וחלונות הפרה.
14) פרקטיקת יישום (8-12 שבועות)
נד. 1-2: מלאי של נתיבים קריטיים ו-SLI; בחירת ערימות (OTEL, TSDB, יומנים, עקבות); מפת התלות.
נד. 3-4: מימוש OTEL בשירותי מפתח 3-5 (התחברות/הפקדה/קצב), RED/USE בסיסי, איתור הקשר ביומנים.
נד. 5-6: SLO והתראות בקצב צריבה; סינתטיים לפי PSP/KYC; ספרי הריצות הראשונים; רום לרשת/ניידת.
נד. 7-8: דגימה דינמית, מופת, מפת שירות; לוחות מחוונים של Exec/SRE/תשלומים.
נד. 9-10: eBPF/צוואר בקבוק חם פרופיל; מסנני פרטיות; מכסות/חזרות.
נד. 11-12: שערי שחרור וחזרה אוטומטית על ידי SLI; אינטגרציה עם התורות של דף הסטטוס.
15) תבניות חפץ
כרטיס SLO של השירות: SLI, מטרות, חלונות, תקציב שגיאות, התראות, בעלים.
מפרט התראה: מצב/מטרי, סף, דום/שתיקה, מקבלים, מדפים.
לוח מחוונים: קהל, שאלות, 6-8 ווידג 'טים, מקור נתונים, קצב רענון.
מדיניות טלמטריה: אילו שדות מותרים/אסורים, שימור, מיסוך, יצוא.
Cost Review Pack: Top Series/Log Streams, Sampling Expect/TTL, צפוי חיסכון.
16) פונקציית תצפית KPI
MTTA/MTR (שיפור לאחר יישום התראת SLO).
% מהתקריות שאותרו על ידי סינתטיקה/SLI לפני תלונות המשתמש.
פרופורציה של שחרור שעבר את השער באמצעות SLI ללא התערבות ידנית.
ירידה ב $/RPS לטלמטריה תוך שמירה על אבחון.
כיסוי עקבות של נתיבים קריטיים (> 90%).
דיוק של קורלציה ”עדכון מצב ↔ SLIs בפועל”.
17) תרופות אנטי ־ פטריות
”יומן הכל” = פיצוץ של עלות ורעש.
התראות על מדדים ”גולמיים” במקום SLO/Burn-rate-ach-bager-aig.
קרדינליות גבוהה של מדדים (averID) = סופות TSDB.
שבילים ללא הקשר עסקי (PSP/Bank/GEO) = אין תובנה.
אין התאגדות של יכולת תצפית עם שחרור/תקריות * טלמטריה חי בנפרד.
סך הכל
מערכת מנוהלת: נכון SLI/SLO # טלמטריה סטנדרטית וקורלציה * התראת SLO וספרי ריצה = אינטגרציה עם שחרור ותקשורת סטטוס = פעולה מודעת עלות ופרטיות. לולאה זו נותנת אותות מוקדמים, RCA מהיר והתאוששות עסקית אפילו בפסגות תנועה קיצוניות.