GH GambleHub

가용성이 높으면 SLA

가용성이 높음... SLA

1) 비즈니스와의 조건 및 연결

SLI (서비스 수준 표시기) - 측정 된 서비스 표시기 (예: 성공적인 요청 2xx/3xx

SLO (서비스 수준 목표) - 대상 SLI 값 (예: "99. 요청의 95%

SLA (서비스 수준 계약) - 고객에 대한 계약 의무 (위반시 벌금/크레딧).
HA (높은 가용성) -SLO/SLA를 수행 할 수있는 건축 및 운영 조치.

원리: SLA는 SLO에 의존하고 SLO는 관찰 된 SLI에 의존합니다. SLA에서 측정하지 않은 것을 약속 할 수 없습니다.

2) "나인" 및 접근성 수학

기간당 가용성 = 'work _ time/total _ time'. 벤치 마크 (연간):
가용성최대. 다운 타임/년
99. 0%3 일 15 시간
99. 5%1 일 20 시간
99. 9%8 시간 45 분
99. 95%4 시간 23 분
99. 99%약 52m 34 초
99. 999%5 m 15 초

가용성 구성

순차 체인 (빨간색 경로 종속성): 'A _ total = ² A _ i' (각 구성 요소는 총계를 줄입니다).
병렬 자산 노드: 'A _ total = 1-ć (1-A _ i)' (예비 총액 증가).

3) 정확히 무엇을 측정해야합니까 (SLI 수정)

사용자보기: 주요 작업 (로그인, 입금, 체크 아웃) 및 대기 시간 p99의 성공적인 완료.
시간 복도: 슬라이딩 윈도우 (5/30/60 분) 및 지역별로 집계.
예외: "예약 된 창" 은 계약서에 명시된 경우에만 SLO 및 SLA로 계산됩니다.

SLI 유형:
  • 가용성: 성공률
  • 품질: p95/p99 대기 시간.
  • 종합: "성공적인 예금의 공유는 5 초입니다".

4) 오류 예산 및 연소율

오류 예산 = '1-SLO'. 99를 위해. 월간 95% 창은 0을 제공합니다. 05% 오류/다운 타임.
연소율: 예산 소비 속도 (예: 4 × 는 6 시간 안에 매일 한도를 올리는 것을 의미합니다.
정책: 빠른 연소-정지 방출, 안정화, 기능 동결에 중점을 둡니다.

5) HA 아키텍처: 지역으로의 노드

5. 1 노드/서비스

N + 1: 적어도 하나의 중복 복제본 (배치 보조 2, PDB, 친 화성 방지).
리소스 격리: CPU/RAM/IO 제한, 우선 순위 (PriorityClass).
우수한 종료/배수: 재시작시 요청 중단이 없습니다.

5. 2 영역/지역

다중 AZ: 다른 영역의 복제본, 교차 영역 밸런싱, 독립적 인 전력/네트워크.
다중 지역: 자산 (더 어려운: 데이터/일관성) 또는 자산 책임 (간단한: RPO 이상).
데이터: 돈/주문을위한 CP (쿼럼/RAFT), 캐시/상점을위한 EC/AP.

5. 3 네트워크 계층 및 둘레

L7-LB는 건강 검진, 재 시도/시간 초과/회로 차단.
글로벌 트래픽을위한 GSLB/DNA/Anycast, 짧은 TTL.
외부 PSP/제공 업체에 대한 제어 제어 및 내결함성 채널.

6) 넘어지지 않고 악화

킬 스위치 기능 (기능 플래그): 중요하지 않은 것을 끄고 "빨간색 경로" 를 저장하십시오.
단순화 된 경로로 전환: 동기식 → 비동기/큐, "처리 허용".
속도 제한/할당량: 모든 사람을 떨어 뜨리는 것보다 트래픽을 제한하는 것이 좋습니다.
상태 모드: 원점을 사용할 수 없을 때 캐시/정적 데이터를 제공합니다.

7) 제약 관리

서비스 맵: 직접/전이, 중요, 각각의 SLO.
취약한 링크: SLA가없는 외부 공급자-캐시/큐/중복으로 바뀝니다.
벌크 헤드 격리: 느린 경로에 대한 다른 연결 풀/할당량.
타임 아웃> 재 시도: 짧은 타임 아웃, dempotent 작업을위한 최대 1 개의 리트레이.

8) 운영 및 변경

관리 변경: 카나리아/청록색, SLO 게이트, 자동 롤백을 통해 릴리스됩니다.
예정된 창: 표준화-길이, 주파수, 통신.
사건: 역할 (IC/Comms/Tech/DB), 런북 및 시정 조치가있는 사후 모템.
보안 이벤트: 손상된 경우 "패닉 모드" (읽기 전용/토큰/회전/차단).

9) 관찰 및 경고

각 경로에 대한 RED 모델 (속도, 오류, 지속 시간).
SLI 대시 보드: 지역 별 및 고객 세그먼트 별 가용성/대기 시간.
번 레이트 경고: 빠른 (1 시간 14 분) 4 ×), 느린 (6 시간, 2 ×) -SLO 고장 전 신호.

(PHP 3 = 3.0.6, PHP 4)

합성: 외부 지점 (주변, 지불 흐름) 의 샘플.

10) 결함 내성 테스트

게임 일: AZ/지역 비활성화, 데이터베이스/캐시 저하, 외부 제공 업체 고장 시나리오.
혼돈 도구: 네트워크 폴트 (대기 시간/손실), 킬 포드, CPU/IO 과부하.
DR 드릴: Tier-0 시스템 용 RTO/RPO 개발 ("백업 및 DR" 참조).

11) SLA 디자인

"가용성" 의 정의: 사고로 간주되는 것 (5xx, 시간> T, 도메인 오류).
계산 창: 월/분기; 계획된 활동의 포함/배제.
크레딧/페널티: 스케일 (예: 99. 9–99. 99% -X%, 더 낮음-Y%).
고객 책임: 통합, 합리적인 한계 내에서 배상, 한계.
용어, 형식, 증거 기반 (로그/메트릭): 클라임 알림 및 절차.
강제 전공: 법적 문구와 경계.

예 (스케치):
  • "SLI에 의한 API 가용성" 성공적인 자리 500ms "는 99 이상입니다. 한 달에 95%. 예정된 창 (48 시간 안에 최대 60 분/월 발표) 은 제외됩니다. 99시에. 90–99. 95% - 대출 5%; 99. 80–99. 90% — 10%; <99. 80% — 25%.»

12) 나인 경제

각각의 추가 "9" 는 선형이 아닌 비용을 증가시킵니다 (이중 영역, 쿼럼, 공급자 복제본, 24 × 7). 티어링 SLO 사용:
  • Tier-0 (돈/주문): 99. 95–99. 99%, multi-AZ, DR 준비.
  • 1 단계 (기본 기능): 99. 9–99. 95%, 다중 AZ.
  • 2 단계 (중요하지 않음): 99. 5–99. 9%, 열화/정지가 사고에 허용됩니다.

13) 레이어 별 HA 패턴

주변 경계계: CDNA/에지, 다중 CNC 또는 GSLB, WAF, 속도 제한.
밸런싱: 특이 치 배출, 타임 아웃/리트레이, 끈적 끈적한/일관된 해시가있는 L7.
응용: 수평 스케일, 준비/활력, PDB, 토폴로지 확산.
데이터: 리더 + 복제본, CP 쿼럼, L2 캐시, demempotency, PITR.
대기열: 미러링/멀티 클러스터, 디드 업, DLQ.
비밀/구성: GitOps, 원자 스냅 샷, 롤백.

14) 반 패턴

측정 기기 및 외부 합성물이없는 SLA.
SPOF로서의 단일 영역/클러스터.
통제되지 않은 배상 → "자체 DDoS".
핫 트랙의 긴 거래/뮤텍스.
카나리아 및 롤백 계획이없는 "무거운" 마이그레이션/릴리스.
사건에서 런북과 이해 관계자와의 커뮤니케이션 부족.

15) 구현 점검표 (0-60 일)

0-15 일

중요한 사용자 SLI를 정의하고 SLO를 Tier-0/1/2 레벨로 설정하십시오.
연소율 경고, SLO 대시 보드, 합성 주변 검사가 포함됩니다.
SPOF 제거: 전면 및 중요한 데이터베이스에 대한 2 개의 복제본, PDB, 다중 AZ.

16-40 일

SLO 게이팅 및 자동 롤백으로 카나리아 릴리스를 소개합니다.
각 "빨간색 경로" 에 대한 종속성 맵 + 할당량/풀/타임 아웃/PB.
계획된 창 및 통신 규정, 사고 메시지 템플릿.

41-60 일

게임 데이: AZ의 분리, 외부 제공 업체의 고장, 트래픽의 "버스트".
SLA 재구성 및 실제 크레딧, 고객에게 보고서 게시.
"9의 비용" 의 개정과 촬영 갤러리에 다시 배치.

16) 성숙도 지표

중요 경로의 95% 이상이 SLI/SLO 및 연소율 경고를받습니다.
SLO 오류에는 자동 동결 릴리스 (정책) 가 수반됩니다.

Multi-AZ 커버리지 Tier-0 = 100%, 성공적인 DR 드릴

"탐지 → 완화" 시간 p50 <5 분, p95 <15 분.
"릴리스 표시 사건" 상관 관계-유지 및 축소 (롤백 속도).
공개 사건/신용 보고서-영업일 기준.

17) 예 및 스 니펫

번 레이트 경고 (규칙 아이디어):
  • 빠른: "SLO 99. 95%, 창 1 시간, 14 이상 연소. 4 × → 호출 중 ".
  • 느린: "창 6 시간, 2 × → 티켓 및 모니터링 화상".
특사 - 회로 파괴/특이 치:
yaml circuit_breakers:
thresholds:
- max_connections: 200 max_pending_requests: 100 max_requests: 1000 max_retries: 1 outlier_detection:
consecutive_5xx: 5 interval: 5s base_ejection_time: 30s max_ejection_percent: 50
SLO 분석을 통한 카나리아 (Argo Rollout, idea):
yaml analysis:
templates:
- name: slo-burn metrics:
- name: error-rate successCondition: result < 0. 005 provider: prometheus
SLI 공식 예:

SLI: fraction_of_good_requests = good(HTTP 2xx/3xx ≤ 500ms) / all(requests)
SLO: ≥ 99. 95% per calendar month, per region

18) 결론

높은 가용성은 클러스터와 복제품 일뿐만 아니라 일관된 아키텍처, 프로세스 및 메트릭 세트입니다. 명확한 SLI/SLO, 사실적인 SLA, 경제 9, 낙하 대신 성능 저하, 타임 아웃/쿼터 훈련, 카나리아 릴리스, 정기적 인 연습 및 투명한 의사. 저렴한 가격으로 측정 가능하고 관리 할 수 있으며 복권이 아닌 경쟁 우위가됩니다.

Contact

문의하기

질문이나 지원이 필요하시면 언제든지 연락하십시오.우리는 항상 도울 준비가 되어 있습니다!

Telegram
@Gamble_GC
통합 시작

Email — 필수. Telegram 또는 WhatsApp — 선택 사항.

이름 선택 사항
Email 선택 사항
제목 선택 사항
메시지 선택 사항
Telegram 선택 사항
@
Telegram을 입력하시면 Email과 함께 Telegram에서도 답변드립니다.
WhatsApp 선택 사항
형식: +국가 코드 + 번호 (예: +82XXXXXXXXX).

버튼을 클릭하면 데이터 처리에 동의하는 것으로 간주됩니다.