GH GambleHub

Technology and Infrastruction # Cloud Architecture and SLA

ארכיטקטורת ענן ותוכניות SLAName

1) מדוע סלאחים וכיצד לנהל אותם

SLA (הסכם רמת השירות) - הבטחה חיצונית לעסקים/שותפים בנוגע לזמינות, המהירות והתקינות של השירות.
רמת מטרה פנימית לפקודות.
מדדים מדידים שעליהם מוערך SLO.

iGaming/fintech מאופיינת בחלונות שיא נוקשים (טורנירים, הימורים חיים, תקופות דיווח, ימי ”משכורת”), תלות חזקה בספקי PSP/KYC וגאוגרפיה. סלאחים צריכים לקחת בחשבון התנהגות זו, והארכיטקטורה צריכה לספק ערבויות לא רק בינוניות, אלא גם אחוריות.


2) מינוח בסיסי

זמינות, אחוז הבקשות המוצלחות לכל מרווח.
P50/P95/P99 לניתוחי מפתח.
שגיאה - לקבוע בדיוק (5xx, פסק זמן, שגיאה עסקית?).
RTO (מטרת זמן התאוששות) - כמה זמן מותר להחלמה.
אובייקטיב נקודת שיקום (RPO) - כמה נתונים ניתן לאבד באסון.
תקצוב שגיאה - 1 -SLO, ”רזרבה” לשינויים ותקריות.


3) מסגרת של ארכיטקטורת ענן עבור SLA

3. 1 רב-שטח (Multi-AZ)

מצב שכפול (DB, מטמון, תורים) לפחות 2-3 AZ.
סטנדבי קר/חם, כשל אוטומטי.
מאזנים מקומיים (L4/L7) עם בדיקות בריאות.

3. 2 multregion

נכס לנכס: RTO/RPO נמוך, עקביות קשה יותר ועלות.
אחריות נכס (חם/חם): זול יותר, RTO יותר, אבל בקרת נתונים קלה יותר.
ניתוב גאוגרפי (GeoDNS/Anycast), בידוד רדיוס פיצוץ.

3. 3 אחסון ונתונים

מסדי נתונים עסקיים: שכפול סינכרוני בתוך האזור, אסינכרוני בין-אזורי.
מטמון: העתקים חוצים אזורי, ”מקומי קורא + async חימום” מצב.
אחסון אובייקטים: ורסינציה, מחזורי חיים, שכפול חוצה-אזור.
תורים/זרימה: אשכולות מראה/זרמים מרובי אזורים.

3. בידוד 4 לולאות

הפרדת שירותים קריטיים (תשלומים/ארנק) ומשימות אנליטיות ”כבדות”.
דירוג גבולות/מכסות בין קווי המתאר כך שהדיווחים לא ”אוכלים” את הדרבן.


4) דפוסי זמינות גבוהים

בידוד מחיצה ובריכה - בידוד חיבור ובריכות משאבים.
מפסק זמן - הגנה מפני הקפאה של אינטגרציות חיצוניות.
אידמפוטנטיות - בקשות חוזרות ללא כתיבה כפולה.
השפלה חיננית - כאשר מושפל, לנטרל מאפיינים לא יסודיים (אווטארים, מסננים מתקדמים).
כבלי גב - שולטים בזרימה הנכנסת, אינם מאפשרים תורים ”אל האופק”.
הזרקת כאוס/כישלון - ”כישלונות” מתוכננים כדי לבדוק השערות אמינות.


5) ד "ר (התאוששות אסון) אסטרטגיות

אסטרטגיהRTORPOעלותמורכבותהערה
גיבוי ושחזורשעות עבודהדקות-שעותנמוך יותרנמוך יותרעבור מערכות שאינן ניתנות להעברה, לא מורשות לליבת תשלום
המתנה חמה (אזור)דקותדקותממוצע שלממוצע שלשמור הערות מינימליות + התחממות מחזורית
המתנה חמה (אזור)<5-10 דקות<1-2 דקותבינוני עד גבוהממוצע שלכשל מהיר, מגזינים חוצי אזורים
פעיל ־ פעילשניות-דקות~ 0-1 דקותגבוהגבוהדורש עקביות מתחשבת ויישוב סכסוכים

בחירה: תשלומים/ארנק - מינימום המתנה חמה; תוכן/ספרייה - חם; דיווחים - גיבוי ושחזור עם חלונות נקיים.


6) לגבי SLI/SLO: כיצד למדוד נכון

6. 1 SLI לפי רמה

לקוח SLI: מקצה לקצה (כולל שער וספקים חיצוניים).
שירות SLI: שירות טהור Latency/שגיאות.
Business SLI: CR (Regomatsiya # dpozit), T2W (זמן לארנק), שיעור ירידה ב-PSP.

6. 2 דוגמאות SLO

זמינות API ליבה: 99. 95% בימים 30.
איחור בתשלום: P95 350 ms, P99 על 700 ms.
משלוח של פנקסי אינטרנט, 99. 9% עבור 60 שניות (עם רטראס).
דוחות טריות נתונים: בלום 10 מין לג 95% של הזמן.

6. 3 מדיניות תקציב שגיאה

50% מהתקציב - לשינויים (שחרור/ניסויים), 50% - לתקריות.
בעירה תקציבית * תכונת פריז, רק ייצוב.


7) ביצועים וגלישה

HPA/VPA עם אותות מונחי SLO (לא רק CPU, אלא גם תורים/latency).
סולם חיזוי המבוסס על לוחות זמנים ופסגות היסטוריות.
בריכות חמות/חימום מראש לחיבורי DB/PSP לפני טורנירים.
מטמון וקצה - להפחית RTT, במיוחד עבור קטלוגים משחק ונכסים סטטיים.


8) שכבת רשת ותעבורה גלובלית

כל אחד/GeoDNS כדי למזער את האיחור ולמקם קריסות.
מדיניות כשל: בדיקות בריאות של האזור, סף, ”דבקות” עם TTL.
הגבלת קצב MTLS/WAF בקצה, הגנה מפני תנועת רובוטים.
בקרת יציאה ל-PSP/KYC על ידי רשימות הרשאה ונסיגות מודעות SLA.


9) נתונים ועקביות

בחר את רמת העקביות: קפדנות (תשלומים) נגד סופו של דבר (קטלוג/רייטינג).
CQRS לפירוק קריאה ואנכיות של פקודות קריטיות.
תיבת היוצא/תיבת הדואר הנכנס עבור ”בדיוק פעם אחת” משלוח אירועים.
נדידה ללא זמן: התפשטות-היגר-חוזה, כניסה כפולה במהלך שינויים מייג 'ור.


10) יכולת תצפית תחת SLA

עקבות דרך השער: קורלציה של trace _ id עם גרסת partner/region/API.
לוחות מחוונים עם שרפה, "מזג אוויר" ע "י אזור וספק.
התראות על ידי תסמינים, לא על ידי תסמינים פרוקסי (לא מעבד, אבל P99/שגיאות).
סינתטיים: בדיקות חיצוניות ממדינות היעד (TR, BR, EURO...).
ביקורת ודיווח: יצוא SLI/SLO לפורטל השותף.


11) בטיחות וציות

קטעי רשת וניהול סודי (KMS/Vault).
הצפנת טיסה/מנוחה, אסימון PAN/PII.
מדיניות גישה לחיקוי עבור ניהול/מפעילים.
Logs immutable (תולעת) ושמירה לביקורת.
רגולציה: אחסון באזור, דוחות, היתכנות לביצוע SLA.


12) פינוקס: SLA כנהג עלות

שימו מחירים על סטיות SLO: כמה זה + 0. 01% זמינות?
חלונות שיא פרופיל, לא לנפח כוח קבוע.
הגדרה נכונה ו ”מקום שבו אתה יכול” למשימות רקע.
מכסות ותקציבים עבור מתווה, לא לאפשר השפלה ”חינם”.


13) בדיקת מהימנות

הפעלות GameDay/Chaos: כיבוי AZ/PSP, עיכובים בתורים, הפסקות BGP.
ד "ר דרילי: אימון קבוע של החלפת אזורים עם מטרות עבור RTO.
& השרה: ריצות ארוכות עם פרופילי הימורים/טורניר אמיתיים.
תקריות שחוזרות על עצמן: ספרייה של קבצים מפורסמים ותסריטי השמעה.


14) צד תהליך SLA

ספריית SLO: בעלים, נוסחה, מדדים, מקורות, התראות.
שינויים באמצעות RFC/ADR: הערכה של ההשפעה על תקציב השגיאה.
לאחר המוות: שיפור ארכיטקטורה וספרים, התאמת SLO.
תקשורת עם שותפים: דואר, דף מצב, תחזוקה מתוכננת.


15) SLI/SLO/Report דוגמאות

15. 1 נוסחאות


SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек

15. 2 ליבת API SLO מהווה דוגמה

זמינות (30 יום): 99. 95%

נקודת האנדפוינט P95 '/v2/payouts/create: ball 350ms

שגיאות 5xx (מתגלגל 1 שעה): <0. 3%

Webhook משלוח מבוקר 60 (P99): 99. 9%

אר-פי-או לארנק: 60 שניות, אר-טי-או 5 דקות

15. 3 דו "ח SLA (לחיצה)

הושלם: 99. 97% (SLO 99. 95%) +

הפרות: 2 פרקים לכל אזור רו "ח בשל פסקי זמן של PSP (8 דקות מצטברות).
מדידות: תוספת ניתוב חכם על ידי קודי כשל, הגדלת מאגר חיבורים חם ל-PSP-B.


16) רשימת מימושים

1. שבילי משתמש קריטיים ו ־ SLII תואמים מוגדרים.
2. SLO במשך 30/90 ימים + מדיניות תקציב שגיאה.
3. ריבוי אזורים ותוכנית ד "ר עם מטרות RTO/RPO, תרגילים רגילים.
4. סינתטיים מגיאו-מטרה, לוחות מחוונים לכל אזור/לכל PSP.
5. דפוסי יציבות: מפסק חשמלי, תרמיל גב, אידמפוטנטיות.
6. מדיניות השפלה ודגלים לתכונות של נכים.
7. פינאופס: תקצוב מתווה, תחזית שיא, בריכות חמות.
8. אבטחה: מקטע, הצפנה, ביקורת.
9. תיעוד SLA לשותפים, תהליך תקשורת.
10. נקודות מבט לאחור ותיקוני SLO כל 1-2 רבעונים.


17) אנטי דפוסים

הבטחת SLAs ללא סלים מדידים וטכניקות ספירה שקופות.
ספור זמינות ”בכניסה לשירות”, תוך התעלמות מהשער/הספקים.
להסתמך רק על איחור בינוני, התעלמות מזנבות פי-99.
ד "ר" על הנייר ", חוסר אימונים אמיתיים.
משאבים "נצחיים" ללא גבולות: דו "ח אחד מפיל את הדרבן.
לערבב מזון ואנליטיקה כבדה באשכול אחד/מסד נתונים.


18) השורה התחתונה

ארכיטקטורת ענן עבור SLAs היא שילוב של תבניות טכניות (מולטי AZ/region, בידוד, מידע סובלני לקוי), תהליכים (SLO, תקציב שגיאות, DR-frills) וכלכלה (FinOps). הקדש לעצמך את הזכות לחזות כשלונות: בחן את הסובלנות הלקויה, מידת האחוזון, הגביל את ”רדיוס הפיצוץ” ותקשר בפתיחות. ההבטחות של SLA אז יהפכו לא שיווק אבל מנוהל בפועל הנדסי.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.