Technology and Infrastruction # Cloud Architecture and SLA
ארכיטקטורת ענן ותוכניות SLAName
1) מדוע סלאחים וכיצד לנהל אותם
SLA (הסכם רמת השירות) - הבטחה חיצונית לעסקים/שותפים בנוגע לזמינות, המהירות והתקינות של השירות.
רמת מטרה פנימית לפקודות.
מדדים מדידים שעליהם מוערך SLO.
iGaming/fintech מאופיינת בחלונות שיא נוקשים (טורנירים, הימורים חיים, תקופות דיווח, ימי ”משכורת”), תלות חזקה בספקי PSP/KYC וגאוגרפיה. סלאחים צריכים לקחת בחשבון התנהגות זו, והארכיטקטורה צריכה לספק ערבויות לא רק בינוניות, אלא גם אחוריות.
2) מינוח בסיסי
זמינות, אחוז הבקשות המוצלחות לכל מרווח.
P50/P95/P99 לניתוחי מפתח.
שגיאה - לקבוע בדיוק (5xx, פסק זמן, שגיאה עסקית?).
RTO (מטרת זמן התאוששות) - כמה זמן מותר להחלמה.
אובייקטיב נקודת שיקום (RPO) - כמה נתונים ניתן לאבד באסון.
תקצוב שגיאה - 1 -SLO, ”רזרבה” לשינויים ותקריות.
3) מסגרת של ארכיטקטורת ענן עבור SLA
3. 1 רב-שטח (Multi-AZ)
מצב שכפול (DB, מטמון, תורים) לפחות 2-3 AZ.
סטנדבי קר/חם, כשל אוטומטי.
מאזנים מקומיים (L4/L7) עם בדיקות בריאות.
3. 2 multregion
נכס לנכס: RTO/RPO נמוך, עקביות קשה יותר ועלות.
אחריות נכס (חם/חם): זול יותר, RTO יותר, אבל בקרת נתונים קלה יותר.
ניתוב גאוגרפי (GeoDNS/Anycast), בידוד רדיוס פיצוץ.
3. 3 אחסון ונתונים
מסדי נתונים עסקיים: שכפול סינכרוני בתוך האזור, אסינכרוני בין-אזורי.
מטמון: העתקים חוצים אזורי, ”מקומי קורא + async חימום” מצב.
אחסון אובייקטים: ורסינציה, מחזורי חיים, שכפול חוצה-אזור.
תורים/זרימה: אשכולות מראה/זרמים מרובי אזורים.
3. בידוד 4 לולאות
הפרדת שירותים קריטיים (תשלומים/ארנק) ומשימות אנליטיות ”כבדות”.
דירוג גבולות/מכסות בין קווי המתאר כך שהדיווחים לא ”אוכלים” את הדרבן.
4) דפוסי זמינות גבוהים
בידוד מחיצה ובריכה - בידוד חיבור ובריכות משאבים.
מפסק זמן - הגנה מפני הקפאה של אינטגרציות חיצוניות.
אידמפוטנטיות - בקשות חוזרות ללא כתיבה כפולה.
השפלה חיננית - כאשר מושפל, לנטרל מאפיינים לא יסודיים (אווטארים, מסננים מתקדמים).
כבלי גב - שולטים בזרימה הנכנסת, אינם מאפשרים תורים ”אל האופק”.
הזרקת כאוס/כישלון - ”כישלונות” מתוכננים כדי לבדוק השערות אמינות.
5) ד "ר (התאוששות אסון) אסטרטגיות
בחירה: תשלומים/ארנק - מינימום המתנה חמה; תוכן/ספרייה - חם; דיווחים - גיבוי ושחזור עם חלונות נקיים.
6) לגבי SLI/SLO: כיצד למדוד נכון
6. 1 SLI לפי רמה
לקוח SLI: מקצה לקצה (כולל שער וספקים חיצוניים).
שירות SLI: שירות טהור Latency/שגיאות.
Business SLI: CR (Regomatsiya # dpozit), T2W (זמן לארנק), שיעור ירידה ב-PSP.
6. 2 דוגמאות SLO
זמינות API ליבה: 99. 95% בימים 30.
איחור בתשלום: P95 350 ms, P99 על 700 ms.
משלוח של פנקסי אינטרנט, 99. 9% עבור 60 שניות (עם רטראס).
דוחות טריות נתונים: בלום 10 מין לג 95% של הזמן.
6. 3 מדיניות תקציב שגיאה
50% מהתקציב - לשינויים (שחרור/ניסויים), 50% - לתקריות.
בעירה תקציבית * תכונת פריז, רק ייצוב.
7) ביצועים וגלישה
HPA/VPA עם אותות מונחי SLO (לא רק CPU, אלא גם תורים/latency).
סולם חיזוי המבוסס על לוחות זמנים ופסגות היסטוריות.
בריכות חמות/חימום מראש לחיבורי DB/PSP לפני טורנירים.
מטמון וקצה - להפחית RTT, במיוחד עבור קטלוגים משחק ונכסים סטטיים.
8) שכבת רשת ותעבורה גלובלית
כל אחד/GeoDNS כדי למזער את האיחור ולמקם קריסות.
מדיניות כשל: בדיקות בריאות של האזור, סף, ”דבקות” עם TTL.
הגבלת קצב MTLS/WAF בקצה, הגנה מפני תנועת רובוטים.
בקרת יציאה ל-PSP/KYC על ידי רשימות הרשאה ונסיגות מודעות SLA.
9) נתונים ועקביות
בחר את רמת העקביות: קפדנות (תשלומים) נגד סופו של דבר (קטלוג/רייטינג).
CQRS לפירוק קריאה ואנכיות של פקודות קריטיות.
תיבת היוצא/תיבת הדואר הנכנס עבור ”בדיוק פעם אחת” משלוח אירועים.
נדידה ללא זמן: התפשטות-היגר-חוזה, כניסה כפולה במהלך שינויים מייג 'ור.
10) יכולת תצפית תחת SLA
עקבות דרך השער: קורלציה של trace _ id עם גרסת partner/region/API.
לוחות מחוונים עם שרפה, "מזג אוויר" ע "י אזור וספק.
התראות על ידי תסמינים, לא על ידי תסמינים פרוקסי (לא מעבד, אבל P99/שגיאות).
סינתטיים: בדיקות חיצוניות ממדינות היעד (TR, BR, EURO...).
ביקורת ודיווח: יצוא SLI/SLO לפורטל השותף.
11) בטיחות וציות
קטעי רשת וניהול סודי (KMS/Vault).
הצפנת טיסה/מנוחה, אסימון PAN/PII.
מדיניות גישה לחיקוי עבור ניהול/מפעילים.
Logs immutable (תולעת) ושמירה לביקורת.
רגולציה: אחסון באזור, דוחות, היתכנות לביצוע SLA.
12) פינוקס: SLA כנהג עלות
שימו מחירים על סטיות SLO: כמה זה + 0. 01% זמינות?
חלונות שיא פרופיל, לא לנפח כוח קבוע.
הגדרה נכונה ו ”מקום שבו אתה יכול” למשימות רקע.
מכסות ותקציבים עבור מתווה, לא לאפשר השפלה ”חינם”.
13) בדיקת מהימנות
הפעלות GameDay/Chaos: כיבוי AZ/PSP, עיכובים בתורים, הפסקות BGP.
ד "ר דרילי: אימון קבוע של החלפת אזורים עם מטרות עבור RTO.
& השרה: ריצות ארוכות עם פרופילי הימורים/טורניר אמיתיים.
תקריות שחוזרות על עצמן: ספרייה של קבצים מפורסמים ותסריטי השמעה.
14) צד תהליך SLA
ספריית SLO: בעלים, נוסחה, מדדים, מקורות, התראות.
שינויים באמצעות RFC/ADR: הערכה של ההשפעה על תקציב השגיאה.
לאחר המוות: שיפור ארכיטקטורה וספרים, התאמת SLO.
תקשורת עם שותפים: דואר, דף מצב, תחזוקה מתוכננת.
15) SLI/SLO/Report דוגמאות
15. 1 נוסחאות
SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек
15. 2 ליבת API SLO מהווה דוגמה
זמינות (30 יום): 99. 95%
נקודת האנדפוינט P95 '/v2/payouts/create: ball 350ms
שגיאות 5xx (מתגלגל 1 שעה): <0. 3%
Webhook משלוח מבוקר 60 (P99): 99. 9%
אר-פי-או לארנק: 60 שניות, אר-טי-או 5 דקות
15. 3 דו "ח SLA (לחיצה)
הושלם: 99. 97% (SLO 99. 95%) +
הפרות: 2 פרקים לכל אזור רו "ח בשל פסקי זמן של PSP (8 דקות מצטברות).
מדידות: תוספת ניתוב חכם על ידי קודי כשל, הגדלת מאגר חיבורים חם ל-PSP-B.
16) רשימת מימושים
1. שבילי משתמש קריטיים ו ־ SLII תואמים מוגדרים.
2. SLO במשך 30/90 ימים + מדיניות תקציב שגיאה.
3. ריבוי אזורים ותוכנית ד "ר עם מטרות RTO/RPO, תרגילים רגילים.
4. סינתטיים מגיאו-מטרה, לוחות מחוונים לכל אזור/לכל PSP.
5. דפוסי יציבות: מפסק חשמלי, תרמיל גב, אידמפוטנטיות.
6. מדיניות השפלה ודגלים לתכונות של נכים.
7. פינאופס: תקצוב מתווה, תחזית שיא, בריכות חמות.
8. אבטחה: מקטע, הצפנה, ביקורת.
9. תיעוד SLA לשותפים, תהליך תקשורת.
10. נקודות מבט לאחור ותיקוני SLO כל 1-2 רבעונים.
17) אנטי דפוסים
הבטחת SLAs ללא סלים מדידים וטכניקות ספירה שקופות.
ספור זמינות ”בכניסה לשירות”, תוך התעלמות מהשער/הספקים.
להסתמך רק על איחור בינוני, התעלמות מזנבות פי-99.
ד "ר" על הנייר ", חוסר אימונים אמיתיים.
משאבים "נצחיים" ללא גבולות: דו "ח אחד מפיל את הדרבן.
לערבב מזון ואנליטיקה כבדה באשכול אחד/מסד נתונים.
18) השורה התחתונה
ארכיטקטורת ענן עבור SLAs היא שילוב של תבניות טכניות (מולטי AZ/region, בידוד, מידע סובלני לקוי), תהליכים (SLO, תקציב שגיאות, DR-frills) וכלכלה (FinOps). הקדש לעצמך את הזכות לחזות כשלונות: בחן את הסובלנות הלקויה, מידת האחוזון, הגביל את ”רדיוס הפיצוץ” ותקשר בפתיחות. ההבטחות של SLA אז יהפכו לא שיווק אבל מנוהל בפועל הנדסי.