GH GambleHub

معماری لایه عملیاتی

1) وظیفه لایه عملیاتی

لایه عملیاتی یک پلت فرم و مجموعه ای از شیوه هایی است که بهره برداری قابل پیش بینی را ارائه می دهند: انتشار سریع، MTTR کم، انطباق و هزینه مدیریت شده. این نرده ها را برای محصولات و زیرساخت ها ایجاد می کند: استانداردها، اتوماسیون، قابلیت مشاهده، مدیریت تغییر و دسترسی امن.

2) مدل منطقی (هواپیما و دامنه)


┌────────────────────────────────────────────────────────┐
│        Interface Plane (UX)          │← ChatOps/Portals/API
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Control Plane: Policy, Orchestration, Identity, CMDB │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Data/Execution Plane: CI/CD, Jobs, IaC, Runtime Ops  │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Telemetry Plane: Logs, Metrics, Traces, SLO Dashboards │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Security & Compliance Plane: Secrets, RBAC, Audit, IR │
└────────────────────────────────────────────────────────┘
┌────────────────────────────────────────────────────────┐
│ Finance/Cost Plane: Usage, Quotas, Budgets, FinOps   │
└────────────────────────────────────────────────────────┘
دامنه های کلیدی:
  • دایرکتوری سرویس/CMDB: یک ثبت نام واحد از خدمات، صاحبان، SLO، وابستگی ها.
  • ارکستراسیون: خطوط لوله، وظایف، تاج، پشتیبان گیری، دکتر
  • Policies (Policy-as-Code): هشدار، دسترسی، retentions، change-gates.
  • قابلیت مشاهده: متریک/دنباله/سیاهههای مربوط، SLI/SLO، هشدار و صفحه وضعیت.
  • دسترسی ها/اسرار: JIT/JEA، نشانه ها، رمزنگاری، KMS/Vault.
  • حوادث/تغییرات: ITSM/بلیط، CAB/RFC، پس از مرگ، شبیه سازی.
  • DataOps: قراردادهای داده، طراوت، اصل و نسب، کیفیت.
  • FinOps: حسابداری هزینه، محدودیت ها، سهمیه ها، بهینه سازی ها.

3) جریان مرجع

3. 1 انتشار (CI/CD → GitOps)

1. PR با کد/مانیفست → تست/اسکن → امضای مصنوعات.
2. استقرار پیشرفته (قناری/آبی-سبز) با SLO-gardrails.
3. بازگشت خودکار در هنگام تخریب ؛ حاشیه نویسی انتشار در تله متری.

3. 2 شناسایی → پاسخ → بازیابی

1. Burn-rate/symptoms + quorum → صفحه + اتاق جنگ.

2. تشخیص توسط ردیابی/سیاهههای مربوط ؛ کتاب های بازی

3. بازگشت/عقب/محدودیت → AAR/RCA → کاپا.

3. 3 تغییر (RFC/CAB)

1. تجزیه و تحلیل ریسک + پنجره تعمیر و نگهداری + برنامه پشتیبان.
2. سرکوب هشدارهای غیر بحرانی، سیگنال های SLO فعال هستند.
3. شواهد و گزارش، بررسی سیاست.

4) کاتالوگ خدمات و CMDB

ویژگی ها: مالک، SLI/SLO، وابستگی ها (داخلی/خارجی)، داشبورد، هشدار، runbook "و، کلاس های داده (PII/finance)، مناطق (prod/stage/dev).
محتوای خودکار: از CI/CD، تله متری و مخازن.
استفاده: مسیریابی هشدار، تشدید، محاسبه شعاع انفجار، گزارش بلوغ.

5) سیاست ها به عنوان کد

دسته بندی ها: دسترسی (RBAC/ABAC), امنیت (SAST/SCA/DAST), هشدار/SLO, کمک های مالی, تغییر دروازه, منابع/سهمیه.
مکانیک: قوانین اعلانی (YAML/Rego/CEL)، اعتبار سنجی در CI، اجرای در کنترل هواپیما.
نمونه ای از دروازه: «استقرار مجاز است اگر همه SLO ها سبز باشند، SEV-1 فعال وجود ندارد، آزمایش ها گذشت، امضاها معتبر هستند».

6) ارکستراسیون و اجرا

CI/CD: build → scan → sign → promote.
مشاغل/CronJobs/DAG: پشتیبان گیری/چرخش/backfills ؛ مهلت و رقابت (ممنوع/جایگزین).
Idempotence و rollbacks: بررسی پس از آن عمل می کنند، نشانگر گام، مدار شکن.
حقوق راه اندازی: حساب های JIT، دامنه محدود ؛ حسابرسی.

7) قابلیت مشاهده و کیفیت سیگنال

SLI/SLO توسط دامنه: در دسترس بودن/تاخیر/موفقیت عملیات کسب و کار، طراوت داده ها.
هشدارها: نرخ سوختن در دو پنجره، quorum، rate-limit، runbook و مالک.
Logs/metrics/trails trace_id مرتبط هستند ؛ کانال ها از نمودار به سیاهههای مربوط.
صفحه وضعیت: قالب ها، فرکانس های به روز رسانی، نشریات حسابرسی.

8) دسترسی، اسرار، رمزنگاری

مخازن مخفی (KMS/Vault)، چرخش، ممنوعیت اسرار در مخزن.
شماره JIT/JEA برای زمان عملیات/تغییر.
mTLS/OIDC بین خدمات امضای تصویر/SBOM.
حسابرسی: گزارش های غیر قابل تغییر، WORM برای اقدامات بحرانی.

9) حوادث، تغییرات، پنجره های تعمیر و نگهداری

حوادث: ماتریس SEV، IC/TL/Comms/Scribe، قالب های به روز رسانی، AAR → RCA → CAPA.
تغییرات: RFC/CAB، ارزیابی ریسک، قناری ها، عقب نشینی.
پنجره های نگهداری: زمان بندی، ارتباطات، سرکوب قوانین، شواهد.

10) DataOps در لایه عملیات

قراردادهای داده (schemas, freshness/completeness SLAs).
تست DQ در هر لایه (برنز/نقره/طلا).
کاتالوگ ها و کاتالوگ ها ؛ قرنطینه برای قراضه.
SLO داده ها و هشدارهای طراوت/رانش.

11) FinOps و هزینه

اقتصاد واحد: $/1k درخواست، $/معامله موفق، $/GiB سیاهههای مربوط، $/SLO نقطه.
سهمیه/محدودیت: خروج, حجم ورود به سیستم, مدت زمان کار.
بهینه سازی: partitsii/cash/materializatsii/arkhivy (گرم-گرم-سرد).
گزارش ها: خدمات/درخواست های ارزان قیمت «گران»، هشدار برای هزینه های بیش از حد.

12) رابط ها: ChatOps/پورتال/API

پورتال پلت فرم: کاتالوگ خدمات، دکمه های فشار/فشار، وضعیت SLO، اسلات پنجره، سیاست ها.
ChatOps: '/deploy ', '/handover start', '/mw create ', '/status update' - с аудитом и شواهد.
API: برای ادغام با ITSM/HR/صدور صورت حساب/ارائه دهندگان.

13) مدل مسئولیت (RACI)

پلت فرم/SRE: کنترل هواپیما، سیاست ها، قابلیت مشاهده، چرخش.
محصول/توسعه: خدمات SLO، نسخه ها، کتاب های بازی.
امنیت: اسرار، آسیب پذیری ها، IR.
داده ها/تجزیه و تحلیل: DataOps، تازگی/کیفیت SLA.
انطباق/قانونی: قانونی، ذخیره سازی شواهد.
پشتیبانی/ارتباطات: صفحه وضعیت، پیام های مشتری.

14) معیارهای بلوغ لایه عملیاتی

پوشش SLO:٪ از خدمات با SLI/SLO تعریف شده و نرخ سوختن.
بهداشت هشدار: قابل اجرا ≥80٪، FP ≤5٪، هشدار/در تماس با ساعت (p95).
DORA: نرخ تخلیه، زمان سرب، MTTR، نرخ تغییر شکست.
تغییر حکومت:٪ RFC تغییرات،٪ پنجره در زمان، rollbacks.
امنیت: زمان متوسط برای چرخش اسرار/گواهینامه ها، بسته شدن آسیب پذیری ها.
FinOps: $/واحد و٪ QoQ صرفه جویی.
اسناد: runbook/SOP پوشش، طراوت (≤90 روز).

15) چک لیست حداقل لایه عملیاتی (MVP)

  • دایرکتوری خدمات/CMDB با صاحبان، SLO، وابستگی ها و داشبورد.
  • CI/CD + GitOps، امضای مصنوعی، نسخه های پیشرفته، بازگشت خودکار.
  • تله متری ترکیبی (سیاهههای مربوط/متریک/آثار) با trace_id و SLO-هشدار (دو پنجره، حد نصاب).
  • سیاست به عنوان کد: دسترسی، هشدار، retentions، تغییر دروازه.
  • فروشگاه مخفی، JIT/JEA، mTLS/SSO، حسابرسی غیر قابل تغییر.
  • ITSM/حوادث: ماتریس SEV، playbooks، صفحه وضعیت، قالب به روز رسانی.
  • پنجره های تعمیر و نگهداری: تقویم، قالب RFC، برنامه های پشتیبان، شواهد.
  • FinOps: دید هزینه، سهمیه/محدودیت ها، گزارش ها.
  • Docs-as-Code، SOP/Runbook Templates، آماده برای چک لیست تولید

16) ضد الگوهای

«Platform = script set» بدون صفحه کنترل و سیاستها.
نظارت «از همه چیز →» بهمن هشدار، خستگی هشدار.
تغییرات تولید دستی بدون GitOps/حسابرسی.
اسرار در متغیرهای محیطی بدون ذخیره سازی و چرخش.
فقدان SLO: بحث در مورد احساسات، نه اهداف با کیفیت.
دایرکتوری های پراکنده/جداول مالک → افزایش از دست رفته.
تغییرات با ریسک بالا یک برنامه پشتیبان ندارند.
سیاهههای مربوط بدون ساختار/همبستگی → تحقیقات طولانی.

17) قالب های کوچک

17. 1 کارت خدمات (کاتالوگ)


Service: checkout-api
Owner: @team-checkout
SLO: availability 99. 9% (28d), p95 latency ≤ 250 ms
Dependencies: payments-api, auth, redis, psp-a
Dashboards: SLO, errors, latency, capacity
Runbooks: rb://checkout/5xx, rb://checkout/rollout
Data: PII masked; retention 30d logs, 365d audit
Change gates: canary 1/5/25%, auto-rollback on burn-rate breach

17. ۲ هشدار سیاسی (ایده)

yaml id: checkout-latency-burn type: burn_rate sli: http_latency_p99 windows:
short: {duration: 1h, threshold: 5%}
long: {duration: 6h, threshold: 2%}
quorum: [ "synthetic:eu,us", "rum:checkout" ]
owner: team-checkout runbook: rb://checkout/latency routing: page:oncall-checkout controls: {dedup_key: "svc=checkout,region={{region}}", rate_limit: "1/15m"}

17. 3 دروازه استقرار (شبه)

yaml allow_deploy_when:
tests: passed signatures: valid active_sev: none_of [SEV-0, SEV-1]
slo_guardrails: green_last_30m rollback_plan: present

18) نقشه راه پیاده سازی (8-12 هفته)

1. «ند». 1-2: موجودی خدمات → دایرکتوری/CMDB ؛ SLI/SLO اساسی و داشبورد.

2. «ند». ۳-۴: انتشار تدریجی GitOps + سیاست به عنوان کد

3. «ند». 5-6: تله متری یکپارچه و صفحه وضعیت ؛ میزان سوختگی با حد نصاب ؛ پوشش کتاب اجرا.

4. «ند». 7-8: اسرار/JIT، حسابرسی تغییر ناپذیر ؛ پنجره های RFC/تعمیر و نگهداری

5. «ند». 9-10: گزارشدهی FinOps، سهمیهها/محدودیتها بهینه سازی سیاهههای مربوط و ذخیره سازی.

6. «ند». 11-12: شبیه سازی حوادث/DR ؛ معیارهای بلوغ ؛ برنامه بهبود مستمر

19) خط پایین

معماری لایه عملیاتی یک صفحه کنترل به علاوه شیوه های استاندارد شده است که عملیات را به یک فرایند قابل تکرار، قابل اندازه گیری و ایمن تبدیل می کند. کاتالوگ خدمات، GitOps، تله متری، سیاست ها، دسترسی های امن و تغییرات مدیریت شده ارائه نسخه های پایدار، بهبود سریع و هزینه شفاف - یعنی پیش بینی عملیاتی برای کسب و کار.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.