Технология жана инфраструктура → Булут архитектурасы жана SLA
Булут архитектурасы жана SLA
1) Эмне үчүн SLA жана аларды кантип башкаруу керек
SLA (Service Level Agreement) - бизнеске/өнөктөштөргө сервистин жеткиликтүүлүгү, ылдамдыгы жана тууралыгы жөнүндө тышкы убада.
SLO (Service Level Objective) - командалар үчүн ички максаттуу деңгээл.
SLI (Service Level Indicator) - өлчөнүүчү метриктер, алардын негизинде SLO бааланат.
Үчүн iGaming/fintech мүнөздүү катуу терезелер чокулары (турнирлер, Live-коюмдар, отчеттук мезгил, "эмгек акы" күндөрү), күчтүү көз карандылык PSP/KYC-провайдерлер жана география. SLA бул жүрүм-турумду эске алышы керек, ал эми архитектура - орто гана эмес, кепилдиктерди да камсыз кылуу.
2) Базалык терминология
Жеткиликтүүлүк (Availability) - интервал үчүн ийгиликтүү суроо-талаптардын үлүшү.
Жашыруун - негизги операциялар үчүн P50/P95/P99.
ката - так аныктоо (5xx, убакыт, бизнес ката?).
RTO (Recovery Time Objective) - калыбына келтирүү үчүн канча убакыт берилет.
RPO (Recovery Point Objective) - кырсыктан канча маалыматтарды жоготууга болот.
Error Budget - 1 − SLO, өзгөрүүлөргө жана окуяларга "запас".
3) SLA астында булут архитектура алкагы
3. 1 Көп зоналуулук (Multi-AZ)
Абалдын репликациясы (БД, кэш, кезек) кеминде 2-3 AZ.
Cool/жылуу stendbay, автоматтык failover.
Жергиликтүү баланстагычтар (L4/L7) ден соолук чектери менен per-AZ.
3. 2 Мультирегион
Актив-актив: төмөн RTO/RPO, татаалыраак консистенттүүлүк жана наркы.
Актив-пассив (hot/warm): арзаныраак, RTO көбүрөөк, бирок маалыматтарды көзөмөлдөө оңой.
Географиялык роутинг (GeoDNS/Anycast), изоляция "blast radius".
3. 3 Сактоо жана маалыматтар
Транзакциялык БД: региондун ичинде синхрондуу репликация, региондор аралык асинхрондук репликация.
Кэш: кросс-аймактык репликалар, "local reads + async warmup" режими.
Объектти сактоо: версиялоо, жашоо циклдери, cross-region replication.
кезек/агымы: күзгү кластерлер/көп региондук агымдар.
3. 4 Изоляция контурлары
Маанилүү кызматтарды (payments/wallet) жана "оор" аналитикалык милдеттерди бөлүү.
Rate-limits/quotas контурлардын ортосунда отчеттор "жеп" прод.
4) Жогорку жеткиликтүүлүк үлгүлөрү
Bulkhead & Pool Isolation - бирикмелердин жана ресурстардын пулдарын изоляциялоо.
Circuit Breaker + Timeouts - тышкы интеграциялардын илинип калуусунан коргоо.
Idempotency - эки эсепсиз суроо кайталап.
Graceful Degradation - деградацияда биз мунай эмес фичтерди (аватарлар, кеңейтилген фильтрлер) өчүрөбүз.
Backpressure - кирген агымды башкаруу, кезектерди "горизонтко" жол бербөө.
Chaos/Failure Injection - ишенимдүүлүк гипотезаларын текшерүү үчүн пландаштырылган "кемчиликтер".
5) DR стратегиялары (Disaster Recovery)
Тандоо: төлөмдөр/капчык - минималдуу Hot Standby; мазмун/каталог - Warm; отчеттор - Backup & ачык терезелери менен калыбына келтирүү.
6) SLI/SLO жөнүндө: кантип туура өлчөө керек
6. деңгээл боюнча 1 SLI
Client SLI: end-to-end (анын ичинде шлюз жана тышкы провайдерлер).
Service SLI: "таза" жашыруун/ката кызматы.
Бизнес-SLI: CR (каттоо → депозиттик), T2W (убакыт-кошелек), PSP-decline rate.
6. 2 SLO мисалдар
Core API жеткиликтүүлүгү: ≥ 99. 95% 30 күндүн ичинде.
Латентность payout-инициация: P95 ≤ 350 мс, P99 ≤ 700 мс.
PSP Webhook жеткирүү: ≥ 99. 9% 60 секунданын ичинде (ретрациялар менен).
Data Freshness отчеттор: ≤ 10 мин 95% убакытта артта.
6. 3 Error Budget Policy
бюджеттин 50% - өзгөрүүлөргө (релиздер/эксперименттер), 50% - инциденттерге.
Бюджет күйүп → friz fich, гана турукташтыруу.
7) Аткаруу жана масштабдоо
SLO багытталган сигналдар менен HPA/VPA (гана CPU эмес, ошондой эле кезек/жашыруун).
График жана тарыхый чокуларга негизделген алдын ала скейлинг.
Warm Pools/алдын-ала турнир алдында DD/PSP байланыш жылытуу.
Кэш жана edge - RTT кыскартуу, өзгөчө оюн каталогдору жана статикалык assets үчүн.
8) Тармак катмары жана глобалдык трафик
Anycast/GeoDNS жашыруун минималдаштыруу жана кырсыктарды локалдаштыруу.
Failover-саясат: аймактын ден соолук үлгүлөрү, босоголор, TTL менен "stickiness".
mTLS/WAF/Rate чек четинде, бот-трафиктен коргоо.
Egress-контролдоо PSP/KYC allow-list жана SLA-aware retrays боюнча.
9) Маалыматтар жана консистенттүүлүк
Шайкештик деңгээлин тандоо: катуу (payments) vs eventual (каталог/рейтингдер).
CQRS критикалык буйруктарын окуу жана тик түшүрүү үчүн.
Outbox/Inbox "так бир жолу" окуяларды жеткирүү үчүн.
downtime жок көчүрүү: expand-migrate-contract, MAJOR-өзгөрүүлөр учурунда кош жазуу.
10) Байкоо (Observability) SLA астында
шлюз аркылуу Traces: өнөктөш/аймак/API чыгаруу менен 'trace _ id' байланышы.
SLO-dashboard менен burn-rate, региондор жана провайдерлер боюнча "аба ырайы".
Proxy белгилери (CPU жана P99/ката эмес) эмес, симптомдору боюнча Алерта.
Synthetics: максаттуу өлкөлөрдөн тышкы текшерүүлөр (TR, BR, EU...).
Аудит жана отчеттуулук: SLI/SLOну өнөктөш порталга экспорттоо.
11) Коопсуздук жана комплаенс
Тармактарды сегменттөө жана жашыруун башкаруу (KMS/Vault).
Учуу/тынчтык шифрлөө, PAN/PII токендештирүү.
Администраторлор/операторлор үчүн ролдор боюнча кирүү саясаты.
Логи өзгөрүлбөгөн (WORM) жана аудит үчүн retenshn.
Жөнгө салуучу: аймакта сактоо, отчеттор, SLA аткаруунун далилдүүлүгү.
12) FinOps: наркы айдоочу катары SLA
SLO девиациясынын баасын коюңуз: канча турат + 0. 01% жеткиликтүүлүгү?
жогорку терезелерди Profile, туруктуу күч көбүртүп жок.
Right-sizing жана "spot кайда мүмкүн" арткы милдеттери үчүн.
Квоталар жана контурларга бюджеттер, "акысыз" деградацияга жол бербеңиз.
13) ишенимдүүлүгүн сыноо
GameDay/Chaos сессиялары: АЗ/PSP өчүрүү, кезек күтүүлөр, BGP үзүлүшү.
DR-drilly: RTO максаттары менен аймактарды өзгөртүү боюнча үзгүлтүксүз тренинг.
Load & Soak: реалдуу чендердин/турнирлердин профилдери менен узак жарыш.
Replay-окуялар: белгилүү Fail китепкана жана ойнотуу скрипттери.
14) SLA процесси
SLO каталогу: ээси, формула, метрика, булактар, алерталар.
RFC/ADR аркылуу өзгөрүүлөр: error budget таасирин баалоо.
Постмортемалар: архитектурасын жана ранбуктарын жакшыртуу, SLO тууралоо.
өнөктөштөр менен байланыш: почта, статус-бет, planned maintenance.
15) SLI/SLO/отчеттордун мисалдары
15. 1 Формулалар
SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек
15. 2 Core API үчүн SLO үлгүсү
Жеткиликтүүлүк (30 күн): 99. 95%
P95 EndPoint '/v2/payouts/create ': ≤ 350 мс
5xx каталар (1 саат жылып): <0. 3%
Webhook delivery ≤ 60 сек (P99): ≥ 99. 9%
капчык үчүн RPO: ≤ 60 сек, RTO ≤ 5 мин
15. 3 SLA отчет (кысып)
Аткарылды: 99. 97% (SLO 99. 95%) +
Бузулуулар: 2 эпизод BR аймагы боюнча, анткени PSP-таймауттар (жалпысынан 8 мин).
Чаралар: PSP-B. үчүн акылдуу-routing ката коддору, көбөйгөн warm pool байланыштар кошулду
16) Киргизүү чек-тизмеси
1. Критикалык колдонуучу жолдору жана тиешелүү SLI аныкталган.
2. SLO 30/90 күн + error budget policy.
3. Көп зоналуулук жана RTO/RPO максаттары менен DR планы, үзгүлтүксүз drill.
4. гео-максаттуу Synthetics, дашборддор per-region/per-PSP.
5. Туруктуу үлгүлөр: circuit breaker, backpressure, idempotency.
6. өчүрүү Fich үчүн бузулуу саясаты жана feature flags.
7. FinOps: контурлар боюнча бюджеттер, чокулардын болжолу, warm pools.
8. Коопсуздук: сегменттөө, шифрлөө, аудит.
9. өнөктөштөр үчүн SLA документтери, байланыш жараяны.
10. Retrospectives жана SLO ар бир 1-2 чейрек карап чыгуу.
17) Анти-үлгүлөрү
өлчөнгөн SLI жана ачык-айкын эсептөө ыкмасы жок SLA убада.
Шлюз/провайдерлерди этибарга албай, "кызматтын кире беришинде" жеткиликтүүлүктү эсептөө.
P99 куйруктарын эске албаганда, бир гана орточо жашыруун таянуу.
DR "кагаз", реалдуу окутуу жоктугу.
"Түбөлүк" ресурстар лимиттери жок: бир отчет толуп жатат.
бир кластер/DD-жылы продукт жана оор аналитика аралаштырып.
18) Жыйынтык
SLA алдындагы булут архитектурасы - техникалык үлгүлөрдүн (multi-AZ/region, изоляция, бузулууга туруктуу маалыматтар), процесстердин (SLO, error budget, DR-дрили) жана экономиканын (FinOps) айкалышы. Өзүңүзгө болжолдонгон мүчүлүштүктөргө укук бериңиз: ийгиликсиздикке туруктуулукту сынап көрүңүз, калемпир менен өлчөңүз, "жарылуу радиусун" чектеңиз жана ачык байланышыңыз. Анда SLA убадалары маркетинг эмес, башкарылуучу инженердик практика болуп калат.