معماری لایه عملیاتی
1) وظیفه لایه عملیاتی
لایه عملیاتی یک پلت فرم و مجموعه ای از شیوه هایی است که بهره برداری قابل پیش بینی را ارائه می دهند: انتشار سریع، MTTR کم، انطباق و هزینه مدیریت شده. این نرده ها را برای محصولات و زیرساخت ها ایجاد می کند: استانداردها، اتوماسیون، قابلیت مشاهده، مدیریت تغییر و دسترسی امن.
2) مدل منطقی (هواپیما و دامنه)
┌────────────────────────────────────────────────────────┐
│ Interface Plane (UX) │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps │
└────────────────────────────────────────────────────────┘
دامنه های کلیدی:
- دایرکتوری سرویس/CMDB: یک ثبت نام واحد از خدمات، صاحبان، SLO، وابستگی ها.
- ارکستراسیون: خطوط لوله، وظایف، تاج، پشتیبان گیری، دکتر
- Policies (Policy-as-Code): هشدار، دسترسی، retentions، change-gates.
- قابلیت مشاهده: متریک/دنباله/سیاهههای مربوط، SLI/SLO، هشدار و صفحه وضعیت.
- دسترسی ها/اسرار: JIT/JEA، نشانه ها، رمزنگاری، KMS/Vault.
- حوادث/تغییرات: ITSM/بلیط، CAB/RFC، پس از مرگ، شبیه سازی.
- DataOps: قراردادهای داده، طراوت، اصل و نسب، کیفیت.
- FinOps: حسابداری هزینه، محدودیت ها، سهمیه ها، بهینه سازی ها.
3) جریان مرجع
3. 1 انتشار (CI/CD → GitOps)
1. PR با کد/مانیفست → تست/اسکن → امضای مصنوعات.
2. استقرار پیشرفته (قناری/آبی-سبز) با SLO-gardrails.
3. بازگشت خودکار در هنگام تخریب ؛ حاشیه نویسی انتشار در تله متری.
3. 2 شناسایی → پاسخ → بازیابی
1. Burn-rate/symptoms + quorum → صفحه + اتاق جنگ.
2. تشخیص توسط ردیابی/سیاهههای مربوط ؛ کتاب های بازی
3. بازگشت/عقب/محدودیت → AAR/RCA → کاپا.
3. 3 تغییر (RFC/CAB)
1. تجزیه و تحلیل ریسک + پنجره تعمیر و نگهداری + برنامه پشتیبان.
2. سرکوب هشدارهای غیر بحرانی، سیگنال های SLO فعال هستند.
3. شواهد و گزارش، بررسی سیاست.
4) کاتالوگ خدمات و CMDB
ویژگی ها: مالک، SLI/SLO، وابستگی ها (داخلی/خارجی)، داشبورد، هشدار، runbook "و، کلاس های داده (PII/finance)، مناطق (prod/stage/dev).
محتوای خودکار: از CI/CD، تله متری و مخازن.
استفاده: مسیریابی هشدار، تشدید، محاسبه شعاع انفجار، گزارش بلوغ.
5) سیاست ها به عنوان کد
دسته بندی ها: دسترسی (RBAC/ABAC), امنیت (SAST/SCA/DAST), هشدار/SLO, کمک های مالی, تغییر دروازه, منابع/سهمیه.
مکانیک: قوانین اعلانی (YAML/Rego/CEL)، اعتبار سنجی در CI، اجرای در کنترل هواپیما.
نمونه ای از دروازه: «استقرار مجاز است اگر همه SLO ها سبز باشند، SEV-1 فعال وجود ندارد، آزمایش ها گذشت، امضاها معتبر هستند».
6) ارکستراسیون و اجرا
CI/CD: build → scan → sign → promote.
مشاغل/CronJobs/DAG: پشتیبان گیری/چرخش/backfills ؛ مهلت و رقابت (ممنوع/جایگزین).
Idempotence و rollbacks: بررسی پس از آن عمل می کنند، نشانگر گام، مدار شکن.
حقوق راه اندازی: حساب های JIT، دامنه محدود ؛ حسابرسی.
7) قابلیت مشاهده و کیفیت سیگنال
SLI/SLO توسط دامنه: در دسترس بودن/تاخیر/موفقیت عملیات کسب و کار، طراوت داده ها.
هشدارها: نرخ سوختن در دو پنجره، quorum، rate-limit، runbook و مالک.
Logs/metrics/trails trace_id مرتبط هستند ؛ کانال ها از نمودار به سیاهههای مربوط.
صفحه وضعیت: قالب ها، فرکانس های به روز رسانی، نشریات حسابرسی.
8) دسترسی، اسرار، رمزنگاری
مخازن مخفی (KMS/Vault)، چرخش، ممنوعیت اسرار در مخزن.
شماره JIT/JEA برای زمان عملیات/تغییر.
mTLS/OIDC بین خدمات امضای تصویر/SBOM.
حسابرسی: گزارش های غیر قابل تغییر، WORM برای اقدامات بحرانی.
9) حوادث، تغییرات، پنجره های تعمیر و نگهداری
حوادث: ماتریس SEV، IC/TL/Comms/Scribe، قالب های به روز رسانی، AAR → RCA → CAPA.
تغییرات: RFC/CAB، ارزیابی ریسک، قناری ها، عقب نشینی.
پنجره های نگهداری: زمان بندی، ارتباطات، سرکوب قوانین، شواهد.
10) DataOps در لایه عملیات
قراردادهای داده (schemas, freshness/completeness SLAs).
تست DQ در هر لایه (برنز/نقره/طلا).
کاتالوگ ها و کاتالوگ ها ؛ قرنطینه برای قراضه.
SLO داده ها و هشدارهای طراوت/رانش.
11) FinOps و هزینه
اقتصاد واحد: $/1k درخواست، $/معامله موفق، $/GiB سیاهههای مربوط، $/SLO نقطه.
سهمیه/محدودیت: خروج, حجم ورود به سیستم, مدت زمان کار.
بهینه سازی: partitsii/cash/materializatsii/arkhivy (گرم-گرم-سرد).
گزارش ها: خدمات/درخواست های ارزان قیمت «گران»، هشدار برای هزینه های بیش از حد.
12) رابط ها: ChatOps/پورتال/API
پورتال پلت فرم: کاتالوگ خدمات، دکمه های فشار/فشار، وضعیت SLO، اسلات پنجره، سیاست ها.
ChatOps: '/deploy ', '/handover start', '/mw create ', '/status update' - с аудитом и شواهد.
API: برای ادغام با ITSM/HR/صدور صورت حساب/ارائه دهندگان.
13) مدل مسئولیت (RACI)
پلت فرم/SRE: کنترل هواپیما، سیاست ها، قابلیت مشاهده، چرخش.
محصول/توسعه: خدمات SLO، نسخه ها، کتاب های بازی.
امنیت: اسرار، آسیب پذیری ها، IR.
داده ها/تجزیه و تحلیل: DataOps، تازگی/کیفیت SLA.
انطباق/قانونی: قانونی، ذخیره سازی شواهد.
پشتیبانی/ارتباطات: صفحه وضعیت، پیام های مشتری.
14) معیارهای بلوغ لایه عملیاتی
پوشش SLO:٪ از خدمات با SLI/SLO تعریف شده و نرخ سوختن.
بهداشت هشدار: قابل اجرا ≥80٪، FP ≤5٪، هشدار/در تماس با ساعت (p95).
DORA: نرخ تخلیه، زمان سرب، MTTR، نرخ تغییر شکست.
تغییر حکومت:٪ RFC تغییرات،٪ پنجره در زمان، rollbacks.
امنیت: زمان متوسط برای چرخش اسرار/گواهینامه ها، بسته شدن آسیب پذیری ها.
FinOps: $/واحد و٪ QoQ صرفه جویی.
اسناد: runbook/SOP پوشش، طراوت (≤90 روز).
15) چک لیست حداقل لایه عملیاتی (MVP)
- دایرکتوری خدمات/CMDB با صاحبان، SLO، وابستگی ها و داشبورد.
- CI/CD + GitOps، امضای مصنوعی، نسخه های پیشرفته، بازگشت خودکار.
- تله متری ترکیبی (سیاهههای مربوط/متریک/آثار) با trace_id و SLO-هشدار (دو پنجره، حد نصاب).
- سیاست به عنوان کد: دسترسی، هشدار، retentions، تغییر دروازه.
- فروشگاه مخفی، JIT/JEA، mTLS/SSO، حسابرسی غیر قابل تغییر.
- ITSM/حوادث: ماتریس SEV، playbooks، صفحه وضعیت، قالب به روز رسانی.
- پنجره های تعمیر و نگهداری: تقویم، قالب RFC، برنامه های پشتیبان، شواهد.
- FinOps: دید هزینه، سهمیه/محدودیت ها، گزارش ها.
- Docs-as-Code، SOP/Runbook Templates، آماده برای چک لیست تولید
16) ضد الگوهای
«Platform = script set» بدون صفحه کنترل و سیاستها.
نظارت «از همه چیز →» بهمن هشدار، خستگی هشدار.
تغییرات تولید دستی بدون GitOps/حسابرسی.
اسرار در متغیرهای محیطی بدون ذخیره سازی و چرخش.
فقدان SLO: بحث در مورد احساسات، نه اهداف با کیفیت.
دایرکتوری های پراکنده/جداول مالک → افزایش از دست رفته.
تغییرات با ریسک بالا یک برنامه پشتیبان ندارند.
سیاهههای مربوط بدون ساختار/همبستگی → تحقیقات طولانی.
17) قالب های کوچک
17. 1 کارت خدمات (کاتالوگ)
Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach
17. ۲ هشدار سیاسی (ایده)
yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}
17. 3 دروازه استقرار (شبه)
yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present
18) نقشه راه پیاده سازی (8-12 هفته)
1. «ند». 1-2: موجودی خدمات → دایرکتوری/CMDB ؛ SLI/SLO اساسی و داشبورد.
2. «ند». ۳-۴: انتشار تدریجی GitOps + سیاست به عنوان کد
3. «ند». 5-6: تله متری یکپارچه و صفحه وضعیت ؛ میزان سوختگی با حد نصاب ؛ پوشش کتاب اجرا.
4. «ند». 7-8: اسرار/JIT، حسابرسی تغییر ناپذیر ؛ پنجره های RFC/تعمیر و نگهداری
5. «ند». 9-10: گزارشدهی FinOps، سهمیهها/محدودیتها بهینه سازی سیاهههای مربوط و ذخیره سازی.
6. «ند». 11-12: شبیه سازی حوادث/DR ؛ معیارهای بلوغ ؛ برنامه بهبود مستمر
19) خط پایین
معماری لایه عملیاتی یک صفحه کنترل به علاوه شیوه های استاندارد شده است که عملیات را به یک فرایند قابل تکرار، قابل اندازه گیری و ایمن تبدیل می کند. کاتالوگ خدمات، GitOps، تله متری، سیاست ها، دسترسی های امن و تغییرات مدیریت شده ارائه نسخه های پایدار، بهبود سریع و هزینه شفاف - یعنی پیش بینی عملیاتی برای کسب و کار.