기술 및 인프라 → 클라우드 아키텍처 및 SLA
클라우드 아키텍처 및 SLA
1) 왜 SLA와이를 관리하는 방법
SLA (Service Level Agreement) - 서비스의 가용성, 속도 및 정확성에 대한 비즈니스/파트너에게 외부 약속.
SLO (서비스 수준 목표) - 명령의 내부 목표 수준.
SLI (Service Level Indicator) -SLO가 평가되는 측정 가능한 측정 항목입니다.
iGaming/fintech는 견고한 피크 창 (토너먼트, 라이브 베팅, 보고 기간, "급여" 일), PSP/KYC 제공 업체 및 지리에 대한 강한 의존성이 특징입니다. SLA는이 동작을 고려해야하며 아키텍처는 매체뿐만 아니라 백분위 수도 보장해야합니다.
2) 기본 용어
가용성-간격 당 성공적인 요청 비율.
대기 시간-주요 작업을위한 P50/P95/P99.
오류-정확하게 결정 (5xx, 타임 아웃, 비즈니스 오류?).
RTO (복구 시간 목표) -복구에 얼마나 많은 시간이 허용됩니까?
RPO (Recovery Point Objective) -재난으로 인해 얼마나 많은 데이터를 잃을 수 있습니까?
오류 예산-1-SLO, 변경 및 사고에 대한 "예약".
3) SLA 용 클라우드 아키텍처 프레임 워크
3. 1 다중 영역 (Multi-AZ)
상태 (DB, 캐시, 대기열) 를 2-3 AZ 이상으로 복제하십시오.
차가운/따뜻한 대기, 자동 장애.
AZ 당 건강 검진을받은 지역 밸런서 (L4/L7).
3. 2 다 지역
자산 자산: 낮은 RTO/RPO, 더 어려운 일관성 및 비용.
자산 책임 (뜨거운/따뜻한): 더 저렴하고 RTO 이상이지만 더 쉬운 데이터 제어.
지리적 라우팅 (GeoDNA/Anycast), "블라스트 반경" 격리.
3. 3 스토리지 및 데이터
거래 데이터베이스: 지역 내 동기 복제, 비동기 간 지역 간.
캐시: 지역 간 복제본, "로컬 읽기 + async 워밍업" 모드.
객체 저장: 버전 지정, 수명주기, 교차 영역 복제.
대기열/스트리밍: 미러 클러스터/다중 지역 스트림.
3. 4 루프 단열
중요한 서비스 (지불/지갑) 및 "무거운" 분석 작업 분리
보고서가 prod를 "먹지" 않도록 윤곽 간 속도 제한/할당량.
4) 높은 가용성 패턴
벌크 헤드 및 풀 격리-격리 연결 및 리소스 풀.
서킷 브레이커 + 타임 아웃-외부 통합 동결로부터 보호합니다.
Idempotency-이중 쓰기없이 요청을 반복하십시오.
우수한 분해-성능이 저하 될 때 비 기본 기능 (아바타, 고급 필터) 을 비활성화하십시오.
역압-들어오는 흐름을 제어하고 대기열을 "수평선으로" 허용하지 마십시오.
혼돈/실패 분사-신뢰성 가설을 테스트하기위한 계획된 "실패".
5) DR (재해 복구) 전략
선택: 결제/지갑-최소 핫 스탠비; 내용/디렉토리 - 따뜻함; 보고서-명확한 창으로 백업 및 복원
6) SLI/SLO 정보: 올바르게 측정하는 방법
6. 레벨 별 1 SLI
클라이언트 SLI: 엔드 투 엔드 (게이트웨이 및 외부 제공 업체 포함).
서비스 SLI: "순수한" 서비스 대기 시간/오류.
비즈니스 SLI: CR (registratsiya → depozit), T2W (Time-to-wallet), PSP 감소율.
6. SLO 예 2 개
핵심 API 가용성: 99 이상. 30 일 동안 95%.
지불 대기 시간: P95 자리 350 ms, P99 자리 700 ms.
웹 후크 제공 PSP: 이하 99. 60 초 동안 9% (레트라 포함).
데이터 신선도 보고서: 시간의 95% 에서 10 분 지연.
6. 3 오류 예산 정책
예산의 50% (변경 (릴리스/실험), 50%) 가 사고입니다.
예산 연소 → 프리즈 기능, 단지 안정화.
7) 성능 및 스케일링
SLO 지향 신호가있는 HPA/VPA (CPU뿐만 아니라 대기열/대기 시간).
일정과 역사적 봉우리를 기반으로 한 예측 스케일링.
토너먼트 전에 DB/PSP에 따뜻한 수영장/예열 연결.
캐싱 및 엣지-특히 게임 카탈로그 및 정적 자산의 경우 RTT를 줄입니다.
8) 네트워크 계층 및 글로벌 트래픽
대기 시간을 최소화하고 충돌을 현지화하는 Anycast/GeoDNS입니다.
실패 정책: 지역의 건강 테스트, 임계 값, TTL의 "끈적 끈적함".
가장자리에서 mSL/WAF/Rate 제한, 봇 트래픽 방지.
허용 목록 및 SLA 인식 후퇴를 통해 PSP/KYC에 대한 탈출 제어.
9) 데이터와 일관성
일관성 수준: 엄격한 (지불) 대 최종 (카탈로그/등급) 을 선택하십시오.
중요한 명령의 읽기 및 수직 오프로드를위한 CQRS.
"정확히 한 번" 이벤트 전달을위한 전송/받은 편지함.
다운 타임없는 마이그레이션: 확장 마이그레이션 계약, MAJOR 변경 중 이중 입장.
10) SLA 하의 관찰 가능성
게이트웨이를 통한 흔적: 'trace _ id' 와 파트너/지역/API 버전의 상관 관계.
지역 및 공급자에 의한 연소 속도, "날씨" 를 갖는 SLO 대시 보드.
프록시 증상이 아닌 증상에 의한 경고 (CPU가 아니라 P99/오류).
합성: 대상 국가의 외부 점검 (TR, BR, EU...).
감사 및보고: SLI/SLO를 파트너 포털로 내보냅니다.
11) 안전 및 준수
네트워크 세분화 및 비밀 관리 (KMS/Vault).
기내/휴식 암호화, PAN/PII 토큰 화.
관리자/운영자를위한 역할 액세스 정책.
불변의 통나무 (WORM) 및 감사 보존.
규제: 해당 지역의 저장, 보고서, SLA 실행 가능성.
12) FinOps: 비용 드라이버로서의 SLA
SLO 편차에 가격을 책정하십시오: + 0의 양입니다. 01% 가용성?
프로파일 피크 창은 일정한 전력을 부풀리지 않습니다.
배경 작업에 대한 올바른 크기 및 "가능한 곳을 찾으십시오".
윤곽에 대한 쿼타 및 예산은 "자유" 분해를 허용하지 않습니다.
13) 신뢰성 테스트
GameDay/Chaos 세션: AZ/PSP 끄기, 대기열 지연, BGP 중단.
DR-drili: RTO 목표를 가진 지역 전환에 대한 정기적 인 훈련.
로드 및 흡수: 실제 베팅/토너먼트 프로필로 장기 실행.
재생 사건: 유명한 파일 및 재생 스크립트 라이브러리.
14) SLA 프로세스 측
SLO 디렉토리: 소유자, 공식, 메트릭, 소스, 경고.
RFC/ADR을 통한 변경: 오류 예산에 미치는 영향 평가.
사후 사후: 건축 및 목장 개선, SLO 조정.
파트너와의 통신: 메일, 상태 페이지, 계획된 유지 보수.
15) SLI/SLO/보고서 예
15. 1 공식
SLI_availability = (успешные_запросы / все_запросы) 100%
SLI_latency_P99 = перцентиль_99(латентность_запроса)
SLI_webhook_D+60 = доля вебхуков, доставленных ≤ 60 сек
15. 2 핵심 API SLO 세트 예
가용성 (30 일): 99. 95%
엔드 포인트 P95 '/v2/지불/생성 ':- 5xx 오류 (1 시간 롤링): <0. 3%
- 웹 후크 전달 9%
15. 3 SLA 보고서 (스퀴즈)
완료: 99. 97% (SLO 99. 95%) +
위반: PSP 타임 아웃으로 인한 BR 영역 당 2 개의 에피소드 (누적 8 분).
측정: 고장 코드에 의한 스마트 라우팅 추가, PSP-B에 대한 따뜻한 연결 풀 증가
16) 구현 점검표
1. 중요한 사용자 경로 및 해당 SLI가 정의됩니다.
2. 30/90 일 + 오류 예산 정책에 대한 SLO.
3. RTO/RPO 목표, 정기적 인 훈련을 통한 다중 구역 지정 및 DR 계획.
4. 지리적 목표, 지역별 대시 보드/PSP의 합성.
5. 안정성 패턴: 회로 차단기, 역압, demempotency.
6. 비활성화 된 기능에 대한 분해 정책 및 기능 플래그.
7. FinOps: 윤곽 예산, 최고 예측, 따뜻한 수영장.
8. 보안: 세분화, 암호화, 감사.
9. 파트너를위한 SLA 문서, 커뮤니케이션 프로세스.
10. 1-2 분기마다 회고전 및 SLO 개정.
17) 반 패턴
측정 가능한 SLI와 투명한 계산 기술없이 SLA를 약속하십시오.
게이트웨이/공급자를 무시하고 "서비스 입구에서" 가용성을 계산하십시오.
P99 꼬리를 무시하고 중간 대기 시간에만 반대합니다.
DR "종이에", 실제 훈련이 부족합니다.
제한없이 "영원한" 자원: 하나의 보고서가 제안을 거절합니다.
하나의 클러스터/데이터베이스에서 음식과 무거운 분석을 혼합하
18) 결론
SLA 용 클라우드 아키텍처는 기술 패턴 (다중 AZ/지역, 격리, 내결함 데이터), 프로세스 (SLO, 오류 예산, DR 드릴) 및 경제 (FinOps) 의 조합입니다. 예측 된 실패에 대한 권리를 부여하십시오: 내결함 테스트, 백분위 수 측정, "폭발 반경" 제한 및 공개 통신. SLA의 약속은 마케팅이 아니라 엔지니어링 관행을 관리 할 것입니다.