操作層體系結構
1)操作層任務
操作層是提供可預測操作的平臺和實踐集:快速發布,低MTTR,合規性和可管理成本。它為產品和基礎設施創建欄桿:標準,自動化,可觀察性,變更管理和安全訪問。
2)邏輯模型(平面和域)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
關鍵域:
- 服務目錄/CMDB:服務,所有者,SLO,依存關系的統一註冊表。
- 編排:piplines,任務,冠,備份,DR。
- 策略(政策即代碼):Alerts, Access, retentions, change-gates。
- 可觀察性:度量/跟蹤器/logi,SLI/SLO,Alerta和狀態頁。
- 可用性/秘密:JIT/JEA,令牌,加密,KMS/Vault。
- 事件/更改:ITSM/滴答聲,CAB/RFC,後模擬器,模擬。
- DataOps:數據合同,新鮮,線性,質量。
- FinOps:成本核算,限制,配額,優化。
3)參考流
3.1個版本(CI/CD → GitOps)
1.帶有代碼/清單的公關→測試/掃描→工件簽名。
2.帶有SLO Gardreils的漸進式塗層(金絲雀/藍綠色)。
3.降解時的自動後衛;遙測中的發布註釋。
3.2個事件(Detect →Respond → Recover)
1.燒傷/癥狀+法定人數→ Page+戰爭室。
2.通過軌道/邏輯進行診斷;花花公子。
3.回滾/倒退/限制→ AAR/RCA → CAPA。
3.3更改(RFC/CAB)
1.風險分析+服務窗口+backout計劃。
2.非關鍵性警報的溢出,SLO信號是活躍的。
3.事件和報告,政策修訂。
4)服務目錄和CMDB
屬性:所有者,SLI/SLO,依賴項(內部/外部),dashbords,Alerta,runbook'和,數據類(PII/財務),區域(prod/stage/dev)。
自動填充:來自CI/CD、遙測和存儲庫。
用途:Alert路由、升級、閃光射線計算、成熟度報告。
5)策略作為代碼(Policy-as-Code)
類別:可用性(RBAC/ABAC),安全性(SAST/SCA/DAST),Alerta/SLO,可用性,更改目標,資源/配額。
力學:聲明性規則(YAML/Rego/CEL),CI驗證,Control Plane執行。
門示例: 「如果所有SLO都是綠色的,沒有活躍的SEV-1,測試已經通過,簽名是有效的,則允許丟棄。」
6)編排和表演
CI/CD: build → scan → sign → promote.
Jobs/CronJobs/DAG:後援/輪換/後衛;截止日期和競爭(Forbid/Replace)。
相似性和回滾:先後檢查,步驟標記,巡回休息器。
啟動權:JIT帳戶,限量版;審計。
7)可觀察性和信號質量
按領域劃分的SLI/SLO:可用性/潛在性/業務運營成功,數據新鮮度。
Alerts: burn-rate在兩個窗口中,定額,dedup/rate-limit, runbook和所有者。
Logi/度量/Traces trace_id相關聯;從圖形到日誌的通道。
狀態頁面:模板,升級頻率,出版物審核。
8)可用性,秘密,加密
保密庫(KMS/Vault),輪換,禁止回購中的秘密。
JIT/JEA:在操作/輪班期間授予權利。
服務之間的mTLS/OIDC;映像簽名/SBOM。
審核:不變日誌,WORM用於關鍵操作。
9)事件,更改,服務窗口
事件:SEV矩陣,IC/TL/Comms/Scribe,升級模式,AAR→RCA→CAPA。
更改:RFC/CAB,風險評估,金絲雀,背景。
服務窗口:時間選擇、通信、規則支持、事件。
10)操作層中的DataOps
數據合同(電路,SLA新鮮/完整)。
每層DQ測試(青銅/銀/黃金)。
線性和目錄;婚姻隔離。
數據和Alerta的SLO按新鮮/漂移。
11) FinOps和成本
單元經濟學:$/1k查詢,$/成功交易,$/GiB標誌,$/SLO項目。
配額/限額:egress, log卷,任務持續時間。
優化:分期/緩存/實現/歸檔(熱戰冷)。
報告:廉價的「昂貴」服務/請求,超支差異。
12)接口: ChatOps/Portals/API
平臺門戶:服務目錄,dploy/回滾按鈕, SLO狀態,窗口插槽,策略。
ChatOps: `/deploy`, `/handover start`, `/mw create`, `/status update` — с аудитом и evidence.
API:與ITSM/HR/計費/提供商集成。
13)責任模式(RACI)
平臺/SRE:控制平面,策略,可觀察性,旋轉。
產品/Dev:SLO服務,發行版,花花公子。
安全:秘密,漏洞,IR。
Data/Analytics: DataOps, SLA新鮮/質量。
法規遵從性/法律: 法規遵從性,保管性.
支持/Comms:狀態頁面、客戶端消息。
14)操作層成熟度度量
SLO覆蓋:具有某些SLI/SLO和burn-rate的服務百分比。
Alert hygiene: actionable ≥80%, FP ≤5%, alerts/on-call-hour (p95).
DORA:降低頻率,領先時間,MTTR,更改失敗率。
更改管理:RFC更改的百分比,「即時」窗口的百分比,回滾。
安全:保密/證書的平均輪換時間,漏洞關閉。
FinOps:$/單位和QoQ儲蓄百分比。
Docs: runbook/SOP覆蓋,新鮮度(≤90天)。
15)支票清單「最低可行運營層(MVP)」
- 服務目錄/CMDB與所有者,SLO,依存關系和行車記錄儀。
- CI/CD+GitOps,工件簽名,漸進版本,自動回滾。
- 具有trace_id和SLO Alert的聯合遙測(徽標/度量/路徑)(雙窗口,法定人數)。
- Policy-as-Code:可用性,Alerta,回避,更改遊戲。
- 秘密存儲,JIT/JEA,mTLS/SSO,不可更改的審計。
- ITSM/事件:SEV矩陣,花花公子,狀態頁面,升級模式。
- 服務窗口:日歷、RFC模板、backout計劃、evidence。
- FinOps:成本可見性、配額/限額、報告。
- 文檔(Docs-as-Code),SOP/Runbook模板,準備工作清單。
16)反模式
沒有控制平面和策略的「平臺=腳本集」。
監視「從所有」→雪崩的警報fatigue。
沒有GitOps/審核的手動 Prod更改。
沒有存儲和旋轉的環境變量的秘密。
缺乏SLO:我們爭論感官而不是質量目標。
分散的目錄/所有者表→丟失的升級。
High-risk沒有反向計劃。
沒有結構/相關性的日誌→冗長的調查。
17)迷你模板
17.1個服務卡(目錄)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17.2 Alert政治(想法)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17.3 Gate deploy(偽)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18)實施路線圖(8至12周)
1.奈德。1-2:服務清單→ 目錄/CMDB;基本的SLI/SLO和dashbords。
2.奈德。3-4:GitOps+漸進版本;Policy-as-Code(Alerta/Retentions)。
3.奈德。5-6:單一遙測和狀態頁面;具有法定人數的burn-rate;runbook覆蓋。
4.奈德。7-8:秘密/JIT,不變審計;RFC/服務窗口。
5.奈德。9-10:FinOps報告,配額/限制;優化日誌和存儲。
6.奈德。11-12:事件模擬/DR;成熟度量標準;持續改進計劃。
19)結果
操作層體系結構是一個控制平面以及標準化實踐,可將操作轉變為可重復,可測量和安全的過程。服務目錄,GitOps,遙測,策略,安全訪問和管理的更改可提供可持續的發布,快速恢復和透明的成本-即業務的可預測性。