작동 계층 아키텍처
1) 작동 계층의 작업
운영 계층은 빠른 릴리스, 낮은 MTTR, 규정 준수 및 관리 비용 등 예측 가능한 악용을 제공하는 플랫폼 및 관행 세트입니다. 표준, 자동화, 관찰, 변경 관리 및 안전한 액세스와 같은 제품 및 인프라를위한 난간을 만듭니다.
2) 논리 모델 (평면 및 도메인)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
주요 도메인:
- 서비스 디렉토리/CMDB: 단일 서비스 등록, 소유자, SLO 종속성.
- 오케스트레이션: 파이프 라인, 작업, 크라운, 백업, DR.
- 정책 (코드 정책): 경고, 액세스, 보류, 변경 게이트.
- 관찰 가능성: 메트릭/트레일/로그, SLI/SLO, 경고 및 상태 페이지.
- 액세스/비밀: JIT/JEA, 토큰, 암호화, KMS/Vault.
- 사건/변경: ITSM/티켓, CAB/RFC, 사후 모템, 시뮬레이션.
- DataOps: 데이터 계약, 신선도, 계보, 품질.
- FinOps: 비용 회계, 한도, 할당량, 최적화.
3) 참조 흐름
3. 1 릴리스 (CI/CD → GitOps)
1. 코드/표현식이있는 PR → 테스트/스캔 → 아티팩트 서명.
2. SLO-gardrails가있는 프로그레시브 배치 (카나리아/청록색).
3. 분해 중 자동 롤백; 원격 측정에서 주석을 해제하십시오.
3. 2 탐지 → 응답 → 복구
1. 화상/증상 + 쿼럼 → 페이지 + 전쟁 실.
2. 추적/로그에 의한 진단; 플레이 북.
3. Rolback/Folback/Limits → AAR/RCA → CAPA.
3. 3 변경 (RFC/CAB)
1. 위험 분석 + 유지 보수 창 + 백 아웃 계획.
2. 중요하지 않은 경고를 억제하면 SLO 신호가 활성화됩니다.
3. 증거 및보고, 정책 검토.
4) 서비스 카탈로그 및 CMDB
속성: 소유자, SLI/SLO, 종속성 (내부/외부), 대시 보드, 경고, 런북 및 데이터 클래스 (PII/금융), 영역 (prod/stage/dev).
자동 내용: CI/CD, 원격 측정 및 저장소에서.
사용: 경고 라우팅, 에스컬레이션, 폭발 반경 계산, 성숙도보고.
5) 코드 정책
카테고리: 액세스 (RBAC/ABAC), 보안 (SAST/SCA/DAST), 경고/SLO, 보조금, 변경 게이트, 리소스/할당량.
역학: 선언적 규칙 (YAML/Rego/CEL), CI 검증, 제어 평면 시행.
게이트의 예: "모든 SLO가 녹색이고 활성 SEV-1이없고 테스트가 통과되었으며 서명이 유효한 경우 배포가 허용됩니다".
6) 오케스트레이션 및 실행
CI/CD: 빌드 → 스캔 → 부호 → 프로모션.
작업/CronJobs/DAG: 백업/회전/백필; 마감일 및 경쟁 (금지/교체).
이데올로기 및 롤백: 체크 다음 작동, 단계 마커, 회로 차단기.
출시 권한: JIT 계정, 제한된 범위; 감사.
7) 신호 관찰 및 품질
도메인 별 SLI/SLO: 비즈니스 운영의 가용성/대기 시간/성공, 데이터 신선도.
경고: 쿼럼, 속도 제한, 런북 및 소유자 두 창의 번 레이트.
로그/메트릭/트레일은 연결된 trace _ id입니다. 그래프에서 로그까지의 채널.
상태 페이지: 템플릿, 업데이트 빈도, 출판물 감사.
8) 액세스, 비밀, 암호화
비밀 저장소 (KMS/Vault), 회전, 리포지토리의 비밀 금지.
작동/이동 시간에 대한 JIT/JEA 문제.
서비스 이미지 서명/SBOM 간의 mSL/OIDC.
감사: 불변의 통나무, 중요한 행동을위한 세계.
9) 사건, 변경, 유지 보수 창
사건: SEV 매트릭스, IC/TL/Comms/Scribe, 업데이트 템플릿, AAR → RCA → CAPA.
변경 사항: RFC/CAB, 위험 평가, 카나리아, 백 아웃.
유지 보수 창: 타이밍, 커뮤니케이션, 규칙 억제, 증거.
10) 작동 계층의 DataOps
데이터 계약 (스키마, 신선도/완전성 SLA).
각 계층에 대한 DQ 테스트 (청동/은/금).
계보 및 카탈로그; 스크랩 검역.
데이터 SLO 및 신선도/드리프트 경고.
11) FinOps 및 비용
단위 경제: $/1k 요청, $/성공적인 거래, $/GiB 로그, $/SLO 포인트.
쿼터/제한: 출구, 로그 볼륨, 작업 지속 시간.
최적화: partsii/cash/qualizatsii/arkhivy (뜨거운 온난).
보고서: 저렴한 "비싼" 서비스/요청, 초과 지출 경고.
12) 인터페이스: ChatOps/Portals/API
플랫폼 포털: 서비스 카탈로그, 푸시/푸시 버튼, SLO 상태, 창 슬롯, 정책.
ChatOps: '/deligration ', '/handover beat', '/mw creat ', '/state adating' -복음 차이가 있습니다.
API: ITSM/HR/결제/공급자와의 통합.
13) 책임 모델 (RACI)
플랫폼/SRE: 제어 평면, 정책, 관측 가능성, 회전.
제품/데브: SLO 서비스, 릴리스, 플레이 북.
보안: 비밀, 취약점, IR.
데이터/분석: DataOps, SLA 신선도/품질.
규정 준수/법률: 규제, 증거 저장.
지원/통신: 상태 페이지, 클라이언트 메시지.
14) 작동 계층 성숙도 지표
SLO 적용 범위: SLI/SLO 및 연소율이 정의 된 서비스의%.
경보 위생: 실행 가능한 이하 80%, FP 자격 5%, 경고/통화 시간 (p95).
DORA: 고갈률, 리드 타임, MTTR, 변경 실패율.
거버넌스 변경:% RFC 변경,% 정시 창, 롤백.
보안: 비밀/인증서를 회전시키는 평균 시간, 취약점 종료.
FinOps: $/단위 및% QoQ 절약.
문서: 런북/SOP 코팅, 신선도 (약 90 일).
15) 최소 실행 가능한 작동 계층 (MVP) 체크리스트
- 소유자, SLO, 종속성 및 대시 보드가있는 서비스 디렉토리/CMDB.
- CI/CD + GitOps, 아티팩트 서명, 프로그레시브 릴리스, 자동 롤백.
- trace _ id 및 SLO 경고 (이중 창, 쿼럼) 와 결합 된 원격 측정 (로그/메트릭/추적).
- 코드 정책: 액세스, 경고, 보류, 변경 게이트.
- 비밀 상점, JIT/JEA, mSL/SSO, 변경 불가능한 감사.
- ITSM/Incidents: SEV 매트릭스, 플레이 북, 상태 페이지, 템플릿 업데이트.
- 유지 보수 창: 캘린더, RFC 템플릿, 백아웃 계획, 증거.
- FinOps: 비용 가시성, 할당량/제한, 보고서.
- 코드 문서, SOP/런북 템플릿, 생산 준비 목록
16) 반 패턴
제어 평면 및 정책이없는 "플랫폼 = 스크립트 세트"
경고의 "모든 것에서" 눈사태를 모니터링하고 피로를 경고하십시오.
GitOps/감사없이 수동 생산 변경.
저장 및 회전이없는 환경 변수의 비밀.
SLO 부족: 품질 목표가 아닌 감정에 대한 논쟁.
흩어진 디렉토리/소유자 테이블 → 에스컬레이션이 손실되었습니
고위험 변경에는 백 아웃 계획이 없습니다.
구조/상관 관계가없는 로그 → 긴 조사.
17) 미니 템플릿
17. 서비스 카드 1 개 (카탈로그)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. 2 정치 경고 (아이디어)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 게이트 배치 (의사)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) 구현 로드맵 (8-12 주)
1. 네드. 1-2: 서비스 인벤토리 → 디렉토리/CMDB; 기본 SLI/SLO 및 대시 보드.
2. 네드. 3-4: GitOps + 프로그레시브 릴리스; 코드 정책.
3. 네드. 5-6: 통합 원격 측정 및 상태 페이지; 쿼럼으로 연소율; 런북 적용 범위.
4. 네드. 7-8: 비밀/JIT, 불변의 감사; RFC/유지 보수 창.
5. 네드. 9-10: FinOps보고, 할당량/제한; 로그 및 스토리지의 최적화.
6. 네드. 11-12: 사건/DR 시뮬레이션; 성숙도 지표; 지속적인 개선 계획.
19) 결론
작동 계층 아키텍처는 작업을 반복 가능하고 측정 가능하며 안전한 프로세스로 전환하는 제어 평면과 표준화 된 관행입니다. 서비스 카탈로그, GitOps, 원격 측정, 정책, 보안 액세스 및 관리 변경 사항은 지속 가능한 릴리스, 빠른 복구 및 투명한 비용, 즉 비즈니스의 운영 예측 가능성을 제공합니다.