GH GambleHub

Технология жана инфраструктура → Булут архитектурасы жана SLA

Булут архитектурасы жана SLA

1) Эмне үчүн SLA жана аларды кантип башкаруу керек

SLA (Service Level Agreement) - бизнеске/өнөктөштөргө сервистин жеткиликтүүлүгү, ылдамдыгы жана тууралыгы жөнүндө тышкы убада.
SLO (Service Level Objective) - командалар үчүн ички максаттуу деңгээл.
SLI (Service Level Indicator) - өлчөнүүчү метриктер, алардын негизинде SLO бааланат.

Үчүн iGaming/fintech мүнөздүү катуу терезелер чокулары (турнирлер, Live-коюмдар, отчеттук мезгил, "эмгек акы" күндөрү), күчтүү көз карандылык PSP/KYC-провайдерлер жана география. SLA бул жүрүм-турумду эске алышы керек, ал эми архитектура - орто гана эмес, кепилдиктерди да камсыз кылуу.


2) Базалык терминология

Жеткиликтүүлүк (Availability) - интервал үчүн ийгиликтүү суроо-талаптардын үлүшү.
Жашыруун - негизги операциялар үчүн P50/P95/P99.
ката - так аныктоо (5xx, убакыт, бизнес ката?).
RTO (Recovery Time Objective) - калыбына келтирүү үчүн канча убакыт берилет.
RPO (Recovery Point Objective) - кырсыктан канча маалыматтарды жоготууга болот.
Error Budget - 1 − SLO, өзгөрүүлөргө жана окуяларга "запас".


3) SLA астында булут архитектура алкагы

3. 1 Көп зоналуулук (Multi-AZ)

Абалдын репликациясы (БД, кэш, кезек) кеминде 2-3 AZ.
Cool/жылуу stendbay, автоматтык failover.
Жергиликтүү баланстагычтар (L4/L7) ден соолук чектери менен per-AZ.

3. 2 Мультирегион

Актив-актив: төмөн RTO/RPO, татаалыраак консистенттүүлүк жана наркы.
Актив-пассив (hot/warm): арзаныраак, RTO көбүрөөк, бирок маалыматтарды көзөмөлдөө оңой.
Географиялык роутинг (GeoDNS/Anycast), изоляция "blast radius".

3. 3 Сактоо жана маалыматтар

Транзакциялык БД: региондун ичинде синхрондуу репликация, региондор аралык асинхрондук репликация.
Кэш: кросс-аймактык репликалар, "local reads + async warmup" режими.
Объектти сактоо: версиялоо, жашоо циклдери, cross-region replication.
кезек/агымы: күзгү кластерлер/көп региондук агымдар.

3. 4 Изоляция контурлары

Маанилүү кызматтарды (payments/wallet) жана "оор" аналитикалык милдеттерди бөлүү.
Rate-limits/quotas контурлардын ортосунда отчеттор "жеп" прод.


4) Жогорку жеткиликтүүлүк үлгүлөрү

Bulkhead & Pool Isolation - бирикмелердин жана ресурстардын пулдарын изоляциялоо.
Circuit Breaker + Timeouts - тышкы интеграциялардын илинип калуусунан коргоо.
Idempotency - эки эсепсиз суроо кайталап.
Graceful Degradation - деградацияда биз мунай эмес фичтерди (аватарлар, кеңейтилген фильтрлер) өчүрөбүз.
Backpressure - кирген агымды башкаруу, кезектерди "горизонтко" жол бербөө.
Chaos/Failure Injection - ишенимдүүлүк гипотезаларын текшерүү үчүн пландаштырылган "кемчиликтер".


5) DR стратегиялары (Disaster Recovery)

СтратегияRTORPOБаасыТатаалдыгыКомментарий
Backup & RestoreСаатмүнөт-сааттөмөнтөмөнБири-бирине шайкеш келбеген системалар үчүн, төлөм ядросуна жол берилбейт
Warm StandbyмүнөтмүнөтортоортоМинималдуу репликаларды + мезгил-мезгили менен жылытуу
Hot Standby (аймак)<5-10 мин<1-2 минорточо бийикортоFast failover, cross-аймактык журналдар
Active-Activeсекунд-мүнөт~ 0-1 минжогоркужогоркуОйлонулган консистенттүүлүктү жана конфликт-резолюцияны талап кылат

Тандоо: төлөмдөр/капчык - минималдуу Hot Standby; мазмун/каталог - Warm; отчеттор - Backup & ачык терезелери менен калыбына келтирүү.


6) SLI/SLO жөнүндө: кантип туура өлчөө керек

6. деңгээл боюнча 1 SLI

Client SLI: end-to-end (анын ичинде шлюз жана тышкы провайдерлер).
Service SLI: "таза" жашыруун/ката кызматы.
Бизнес-SLI: CR (каттоо → депозиттик), T2W (убакыт-кошелек), PSP-decline rate.

6. 2 SLO мисалдар

Core API жеткиликтүүлүгү: ≥ 99. 95% 30 күндүн ичинде.
Латентность payout-инициация: P95 ≤ 350 мс, P99 ≤ 700 мс.
PSP Webhook жеткирүү: ≥ 99. 9% 60 секунданын ичинде (ретрациялар менен).
Data Freshness отчеттор: ≤ 10 мин 95% убакытта артта.

6. 3 Error Budget Policy

бюджеттин 50% - өзгөрүүлөргө (релиздер/эксперименттер), 50% - инциденттерге.
Бюджет күйүп → friz fich, гана турукташтыруу.


7) Аткаруу жана масштабдоо

SLO багытталган сигналдар менен HPA/VPA (гана CPU эмес, ошондой эле кезек/жашыруун).
График жана тарыхый чокуларга негизделген алдын ала скейлинг.
Warm Pools/алдын-ала турнир алдында DD/PSP байланыш жылытуу.
Кэш жана edge - RTT кыскартуу, өзгөчө оюн каталогдору жана статикалык assets үчүн.


8) Тармак катмары жана глобалдык трафик

Anycast/GeoDNS жашыруун минималдаштыруу жана кырсыктарды локалдаштыруу.
Failover-саясат: аймактын ден соолук үлгүлөрү, босоголор, TTL менен "stickiness".
mTLS/WAF/Rate чек четинде, бот-трафиктен коргоо.
Egress-контролдоо PSP/KYC allow-list жана SLA-aware retrays боюнча.


9) Маалыматтар жана консистенттүүлүк

Шайкештик деңгээлин тандоо: катуу (payments) vs eventual (каталог/рейтингдер).
CQRS критикалык буйруктарын окуу жана тик түшүрүү үчүн.
Outbox/Inbox "так бир жолу" окуяларды жеткирүү үчүн.
downtime жок көчүрүү: expand-migrate-contract, MAJOR-өзгөрүүлөр учурунда кош жазуу.


10) Байкоо (Observability) SLA астында

шлюз аркылуу Traces: өнөктөш/аймак/API чыгаруу менен 'trace _ id' байланышы.
SLO-dashboard менен burn-rate, региондор жана провайдерлер боюнча "аба ырайы".
Proxy белгилери (CPU жана P99/ката эмес) эмес, симптомдору боюнча Алерта.
Synthetics: максаттуу өлкөлөрдөн тышкы текшерүүлөр (TR, BR, EU...).
Аудит жана отчеттуулук: SLI/SLOну өнөктөш порталга экспорттоо.


11) Коопсуздук жана комплаенс

Тармактарды сегменттөө жана жашыруун башкаруу (KMS/Vault).
Учуу/тынчтык шифрлөө, PAN/PII токендештирүү.
Администраторлор/операторлор үчүн ролдор боюнча кирүү саясаты.
Логи өзгөрүлбөгөн (WORM) жана аудит үчүн retenshn.
Жөнгө салуучу: аймакта сактоо, отчеттор, SLA аткаруунун далилдүүлүгү.


12) FinOps: наркы айдоочу катары SLA

SLO девиациясынын баасын коюңуз: канча турат + 0. 01% жеткиликтүүлүгү?
жогорку терезелерди Profile, туруктуу күч көбүртүп жок.
Right-sizing жана "spot кайда мүмкүн" арткы милдеттери үчүн.
Квоталар жана контурларга бюджеттер, "акысыз" деградацияга жол бербеңиз.


13) ишенимдүүлүгүн сыноо

GameDay/Chaos сессиялары: АЗ/PSP өчүрүү, кезек күтүүлөр, BGP үзүлүшү.
DR-drilly: RTO максаттары менен аймактарды өзгөртүү боюнча үзгүлтүксүз тренинг.
Load & Soak: реалдуу чендердин/турнирлердин профилдери менен узак жарыш.
Replay-окуялар: белгилүү Fail китепкана жана ойнотуу скрипттери.


14) SLA процесси

SLO каталогу: ээси, формула, метрика, булактар, алерталар.
RFC/ADR аркылуу өзгөрүүлөр: error budget таасирин баалоо.
Постмортемалар: архитектурасын жана ранбуктарын жакшыртуу, SLO тууралоо.
өнөктөштөр менен байланыш: почта, статус-бет, planned maintenance.


15) SLI/SLO/отчеттордун мисалдары

15. 1 Формулалар


SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек

15. 2 Core API үчүн SLO үлгүсү

Жеткиликтүүлүк (30 күн): 99. 95%

P95 EndPoint '/v2/payouts/create ': ≤ 350 мс

5xx каталар (1 саат жылып): <0. 3%

Webhook delivery ≤ 60 сек (P99): ≥ 99. 9%

капчык үчүн RPO: ≤ 60 сек, RTO ≤ 5 мин

15. 3 SLA отчет (кысып)

Аткарылды: 99. 97% (SLO 99. 95%) +

Бузулуулар: 2 эпизод BR аймагы боюнча, анткени PSP-таймауттар (жалпысынан 8 мин).

Чаралар: PSP-B. үчүн акылдуу-routing ката коддору, көбөйгөн warm pool байланыштар кошулду


16) Киргизүү чек-тизмеси

1. Критикалык колдонуучу жолдору жана тиешелүү SLI аныкталган.
2. SLO 30/90 күн + error budget policy.
3. Көп зоналуулук жана RTO/RPO максаттары менен DR планы, үзгүлтүксүз drill.
4. гео-максаттуу Synthetics, дашборддор per-region/per-PSP.
5. Туруктуу үлгүлөр: circuit breaker, backpressure, idempotency.
6. өчүрүү Fich үчүн бузулуу саясаты жана feature flags.
7. FinOps: контурлар боюнча бюджеттер, чокулардын болжолу, warm pools.
8. Коопсуздук: сегменттөө, шифрлөө, аудит.
9. өнөктөштөр үчүн SLA документтери, байланыш жараяны.
10. Retrospectives жана SLO ар бир 1-2 чейрек карап чыгуу.


17) Анти-үлгүлөрү

өлчөнгөн SLI жана ачык-айкын эсептөө ыкмасы жок SLA убада.
Шлюз/провайдерлерди этибарга албай, "кызматтын кире беришинде" жеткиликтүүлүктү эсептөө.
P99 куйруктарын эске албаганда, бир гана орточо жашыруун таянуу.
DR "кагаз", реалдуу окутуу жоктугу.
"Түбөлүк" ресурстар лимиттери жок: бир отчет толуп жатат.
бир кластер/DD-жылы продукт жана оор аналитика аралаштырып.


18) Жыйынтык

SLA алдындагы булут архитектурасы - техникалык үлгүлөрдүн (multi-AZ/region, изоляция, бузулууга туруктуу маалыматтар), процесстердин (SLO, error budget, DR-дрили) жана экономиканын (FinOps) айкалышы. Өзүңүзгө болжолдонгон мүчүлүштүктөргө укук бериңиз: ийгиликсиздикке туруктуулукту сынап көрүңүз, калемпир менен өлчөңүз, "жарылуу радиусун" чектеңиз жана ачык байланышыңыз. Анда SLA убадалары маркетинг эмес, башкарылуучу инженердик практика болуп калат.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.