SRE 문화 및 엔지니어링 원칙

1) SRE 문화는 무엇입니까?

SRE 문화는 신뢰성을 관리 할 수있게하는 일련의 가치와 관행입니다. SLO 목표 → 오류 예산 → 변화의 의식 위험 → 빠른 안정화 → 사건에 대한 교육.
주요 패러다임: 속도는 신뢰성의 적이다. 위험을 측정하고 자동화 할 때 릴리스 속도가 가능합니다.

핵심 값:

사용자 중심: 사용자가 볼 때 신뢰성을 나타냅니다 (SLI/SLO).
자동화 우선-반복 가능한 동작 → 스크립트/정책/컨트롤러.
Blameless: 오류는 체계적이며 사람이 아닌 원인을 조사합니다.
데이터 중심: 메트릭 및 오류 예산을 기반으로하는 솔루션.
단순성: 간단하고 테스트 가능한 메커니즘> "매직" 솔루션.

2) SRE 공학 철학

1. SLO/SLI 및 오류 예산은 우선 순위 및 경고의 기초입니다.
2. 사고 → 안정화 → RCA-증상이 먼저 나타나면 발생합니다.
3. 육체 노동을 줄이는 것은 시간이 지남에 따라 SRE 시간의 50% 목표입니다.
4. 생산 준비 - 외부 트래픽 전에 "생산 준비" 가 필요합니다.
5. 단순성과 격리-더 적은 관계, 더 많은 폭발 반경 제한.
6. 기본 관찰 가능성-메트릭/로그/추적, SLO 위젯, 합성.
7. 점진적 전달, 카나리아 계산, 자동 롤백 등 변경 사항이 관리됩니다.
8. 설계 별 보안-비밀, 액세스, 감사, 최소 권한.
9. 연구주기-훈련, 혼돈 게임, 사후 사후, 회고전.
10. FinOps 인식- "9의 가격", 서비스 비용, 효과적인 SLO.

3) 의식 및 프로세스

3. 1 생산 준비 검토 (PRR)

트래픽을 활성화하기 전에 서비스에는 다음이 있어야합니다

SLI/SLO, 대시 보드 및 경고 (빠른/느린 화상).
건강 종점은 '/healthz ', '/readyz', '/startupz '입니다.
사건의 런북/플레이 북, 소유자/통화 중, 에스컬레이션 체인.
백업/DR 계획, 자원 제한, 예산 계산.
허용 오차 테스트 (기능 플래그, 롤백 스크립트).

3. 2 주간 SLO 브리핑

서비스 오류 예산 상태.
주간 사건, CAPA 진행 상황.
방출 위험: 예금으로 허용/제한되는 경우 (예산).

3. 3 무료 사후 부검

사실과 타임 라인, 사용자 영향, 도움/방해.
"범인" 이 아닌 체계적인 원인 (프로세스/도구).
소유자 및 마감일이있는 특정 CAPA, 회사 내 홍보.

3. 혼돈과 드레알의 4 게임

계획된 오류 분사 (네트워크, 데이터베이스, 캐시, 노드) + 대상 SLO.
"게임 데이": 안정화 시간, MTTR 측정, 플레이 북 조정.

4) 경고 및 소음

원칙:

증상에 대해서만 경고하십시오: SLO 또는 사용자 경로 파손.
다중 창, 멀티 번: 빠르고 느린 채널.
Quorum/anti-flapping: 'for' 지연, 유지 보수 중 억제.
호출기가 아닌 대시 보드에 대한 신호 인 "CPU> 80%" 로 다운하십시오.

경고 품질 KPI:

실행 가능한 80% 의 비율.
중간 시간 간-연결 (P1).
페이저 피로 감소: 엔지니어 당 주당 1 박.

5) 관리 변경

점진적 전달: 카나리아 → 10% → 25% → 50% → 100%.
SLO 신호에 대한 자동 롤백 (오류/대기 시간).
글로벌 롤백 대신 기능 플래그 및 킬 스위치.
위험에 따른 정책 변경: 빠른 차선 CAB-고위험 만.

카나리아 단계 패턴 (이념적으로):

yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6) 수고 감소 (일상적인 육체 노동)

수고 소스의 예: 수동 배치, 재시작, "액세스 제공" 티켓, 대기열 청소.

접근 방식:

반복 가능한 작업 인벤토리 → 자동화/셀프 서비스.
KPI: 수고시% 시간, "자동 단계/사고", "셀프 서비스 시간".
플랫폼 서비스 카탈로그 (네임 스페이스, DB, 대기열, 대시 보드, 경고).

7) 관찰 및 SLO 우선 디자인

황금 신호 (대기 시간, 교통, 오류, 채도).
각 팀의 SLO 카드: 목표, 창, 예산, 화상 경고.
드릴 다운: 메트릭스에서 로그/트레이스까지; 기본 로그에서 'trace _ id'.
합성: 블랙 박스 + 헤드리스 스크립트 (로그인/예금/체크 아웃).

8) 용량 관리 및 지속 가능성

용량 계획: 목표 RPS/경쟁력, AZ/지역 별 재고.
벌크 헤드/쉐딩: 수영장 격리, 보조 기능 실패 먼저.
역압 및 대기열: 지연 제어, DLQ, 적응 형 경쟁력.
실패 및 DR: RPO/RTO, 일반 DR 드릴.

9) 신뢰성의 일부로서의 안전

비밀: 비밀 관리자, JIT 액세스, 감사.
주변의 WAF/DDoS 가드, 클라이언트/테넌트 제한.
PII 최소화, 사고시 DSAR/Legal Hold.
공급망 보안: 아티팩트의 서명, 기본 이미지 정책.

10) 통화 중 건강

"싱글" 이없는 회전, 맑은 휴식 창.
야간 깨우기 임계 값은 SLO P1/P2입니다.
정신 위생: 수면 부족은 운영 위험으로 기록됩니다.
메트릭: 페이지/주, 야간 페이지/엔지니어, 복구 시간.

11) SRE 성숙도 지표

SLO 적용 범위: SLO/경고가있는 중요한 경로의 비율은 90% 입니다.
오류 예산 거버넌스: 동결 규칙이 있으며 적용됩니다.
수건: 시간의 약 30-40%, 하락 추세.
MTTD/MTTR: 분기 별 역학의 중간 값.
자동 완화 속도: 자동 동작이있는 사고의%.
PRR 합격률: 생산 준비 상태를 통과 한 릴리스의 백분율.

사후 SLA: SEV-1-사후

12) 문서와 지식

최소 세트:

런북/플레이 북 (최상위 스크립트: 5xx 스파이크, DB 지연, Kafka 지연, NodeNotReady, TLS).
SLO 카드 및 대시 보드.
PRR 체크리스트 및 릴리스 템플릿.
플랫폼 서비스 카탈로그 및 OLA/SLA.
교육 자료: SRE 101, Chaos 101, On-call 101.

13) 반 패턴

영웅 문화: 시스템 수정 대신 "구조자".
시끄러운 경고: 호출기의 CPU/드라이브, 수백 개의 불필요한 신호.
"DevOps는 사람입니다": 책임을지고 주인은 없습니다.
SLO 부족: "모든 것을 녹색으로 유지" → 우선 순위 혼돈.
지연된 사후 사냥과 "마녀 사냥".
카나리아가없는 글로벌 롤백.
설정/repo의 비밀; 활동 감사가 없습니다.

실행 가능한 신호가없는 "아름다운 그래프" 로 관찰 가능합니

14) 아티팩트 패턴

14. 1 SRE-Charter (조각)

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14. 2 미니 PRR 체크리스트

SLI/SLO 및 화상 경고가 구성됩니다
건강 종말 점 및 합성
런북/플레이 북 + 소유자/통화 중
롤백/기능 플래그/카나리아
대기 시간/오류/교통/채도 대시 보드
한계/할당량/난간 보안
DR 계획 및 백업 테스트

15) 단계별 구현 (4 스프린트)

스프린트 1-재단

중요한 사용자 경로 및 SLI를 정의하십시오

SLO를 공식화하고 화상 경보를 실행하십시오.
PRR 및 최소 플레이 북을 입력하십시오.

스프린트 2-관리 변경

카나리아 계산, SLO에 의한 자동 롤백.
셀프 서비스 운영, 서비스 카탈로그.
수건 재고 및 자동화 계획.

스프린트 3-교육주기

사후 의식, 혼돈 게임 캘린더.
대시 보드 SLO + 사건, 오류 예산보고.

스프린트 4-최적화 및 규모

SLO 포트폴리오, FinOps "9 당 비용".
DR 분야의 구현, 안전 감사.
KPI 통화, 소진 방지.

16) 미니 -FAQ

SRE = "모든 것을 고치십시오"?
아니요, 그렇지 않습니다. SRE는 SLO, 경보, 프로세스, 자동화 및 교육과 같은 신뢰성 시스템을 관리합니다.

기업이 신뢰성에 투자하도록 설득하는 방법?
ROI 표시: MTTR 감소, 변환 증가, SLA 크레딧 감소, 서비스 비용 미만, 안정적인 릴리스.

별도의 SRE 명령이 필요합니까?
하이브리드 모델: 플랫폼의 전략적 SRE + 중요한 제품의 임베디드 SRE.

합계

SRE 문화는 위치가 아니라 위험에 대처하는 방법입니다. SLO → 오류 예산 → 관리 변경 → 자동화 → 교육. 원칙을 고치고, 의식을 시작하고 (PRR, 사후, 혼돈 게임), 수고를하고, "기본적으로" 관찰 가능성을 구축하고, 전화를 처리하십시오. 이렇게하면 지속 가능한 개발 속도, 예측 가능한 릴리스 및 안정적이고 경제적 인 플랫폼을 얻을 수 있습

SRE 문화 및 엔지니어링 원칙

스프린트 2-관리 변경

스프린트 3-교육주기

스프린트 4-최적화 및 규모

합계

문의하기

빠른 연결

영상이 곧 업데이트됩니다

현재 프로젝트로 매우 바쁜 상태입니다