GH GambleHub

SLA/OLA با ارائه دهندگان

1) شرایط و مرزها

SLI - شاخص قابل اندازه گیری (در دسترس بودن، تاخیر P99، وب سایت های با موفقیت پردازش شده، RPO/RTO).

SLO - مقدار SLI هدف در هر پنجره اندازه گیری (به عنوان مثال، 99. 9 %/30 روز)

SLA - سند قانونی قانونی (SLO + روش + بازپرداخت).
OLA - اهداف و فرآیندهای داخلی که اطمینان از انطباق با SLA ها.
UC (قرارداد پایه) - «بستر» با اشخاص ثالث (کانال ها، مراکز داده، CDN، و غیره).

مرزها: به وضوح منطقه ارائه دهنده مسئولیت (ابر/WAF/CDN/دروازه پرداخت/ارائه دهنده KYC) را از منطقه خود (کد، پیکربندی، تنظیمات مشتری) جدا کنید.

2) ماتریس بحرانی و انتخاب مدل

ارائه دهندگان بخش بر اساس تاثیر کسب و کار:
کلاس هانمونه هاسطح مورد نیازاستراتژی ها
A (ماموریت بحرانی)پرداخت، احراز هویت، هسته داده99. 9–99. 99تکثیر، جعلی داغ، مکانیزم های اعتباری دقیق
ب (انتقادی)گزارش ها، هشدارها، CDN99. 5–99. 9ذخیره سازی، حالت های آفلاین، اعتبار/مجازات
ج (مهم)BI، گزارش99. 0–99. 5«بهترین تلاش»، تمدید RTO/RPO
D (کمکی)بازاریابی پست الکترونیکی98–99پنجره های آسنکرون و انعطاف پذیر

ماتریس عمق SLA، دامنه چک ها و الزامات OLA/UC را تعیین می کند.

3) متریک و پنجره های اندازه گیری

در دسترس بودن - درصد زمانی که سرویس پرس و جو را با توجه به تحمل اجرا می کند.
تاخیر: p95/p99 برای عملیات کلیدی ؛ «موفقیت آهسته» محسوب می شود.
قابلیت اطمینان داده ها: RPO (حداکثر از دست دادن داده ها مجاز) و RTO (زمان بازیابی).
پهنای باند/محدودیت ها: سهمیه تضمین شده (RPS/MBps).
کیفیت یکپارچگی: سهم webhooks تحویل ≤ X دقیقه، سهم پاسخ 2xx، تکرار و deduplication.
پنجره اندازه گیری: ماهانه/نورد 30 روز، استثنا (فعالیت های برنامه ریزی شده) با محدودیت.

فرمول «دسترسی خارجی» (مثال):
  • 'در دسترس بودن _ ext = 1 − (Downtime_confirmed_outages/ Total_minutes_in_window)'
  • که در آن قطع وضعیت غیر قابل دسترس تایید شده توسط نظارت خارجی، و نه فقط توسط صفحه وضعیت ارائه دهنده است.

4) محتوای SLA (قالب بخش)

1. موضوع و دامنه (خدمات، مناطق، نسخه های API).
2. تعاریف (SLI/SLO، «حادثه»، «کار برنامه ریزی شده»، «فورس ماژور»).
3. اهداف خدمات (SLOs) بر اساس طبقه بندی درخواست و منطقه.
4. نظارت و پایه شواهد: در چه راه، سنسورهای که، با چه فرکانس.
5. حوادث و افزایش: کانال ها، زمان پاسخ/به روز رسانی، نقش ها.
6. بازپرداخت: اعتبار/جریمه/پاداش، آستانه، فرمول.
7. امنیت و حریم خصوصی: DPA، رمزگذاری، سیاهههای مربوط، اطلاعیه های نقض.
8. تغییرات خدمات: مستهلک, پنجره اطلاع رسانی, سازگاری.
9. تداوم و DR: RPO/RTO، تست های بازیابی.
10. حسابرسی و انطباق: حق حسابرسی، گزارش، صدور گواهینامه.
11. برنامه خروج: صادرات داده ها، تاریخ، فرمت، کمک مهاجرت.
12. مقررات قانونی: صلاحیت، فورس ماژور، محرمانه بودن، مدت اعتبار.

5) نمونه هایی از جمله بندی (قطعات)

5. 1 در دسترس بودن و اندازه گیری

"ارائه دهنده فراهم می کند 99. 95% در دسترس بودن در هر ماه تقویم. در دسترس بودن توسط نظارت مصنوعی خارجی مشتری از مناطق ≥3 در فواصل ≤1 دقیقه اندازه گیری می شود. عدم دسترسی ثبت شده در ≥2 مناطق به طور همزمان یک حادثه سطح SEV2 محسوب می شود و در Downtime شمارش می شود

5. 2 کلید تاخیر API

"زمان پاسخ p99" POST/payments/authorize "≤ 450 میلی ثانیه در 95٪ روزهای ماه. گزارش تجزیه و تحلیل علت برای درصد درخواست هایی که بیش از آستانه ارائه شده است"

5. ۳ حوادث و افزایش

"S1: ACK ≤ 15 دقیقه، به روز رسانی هر ≤ 30 دقیقه، بازیابی هدف ≤ 2 ساعت ؛ S2: ACK ≤ 30 دقیقه، به روز رسانی ≤ 60 دقیقه ؛ S3: روز کاری بعدی کانال ها: تلفن 24 × 7, پل چت, ایمیل"

5. 4 بازپرداخت (اعتبار)


If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%

وام ها روش های دیگر جبران خسارت را در سهل انگاری ناخالص حذف نمی کنند.

5. 5 تخفیف و سازگاری

حداقل 180 روز برای تغییراتی که سازگاری را از بین می برند اطلاع دهید. پشتیبانی همزمان برای vN و vN + 1 برای حداقل 90 روز

5. 6 خروج

"ظرف 30 روز پس از خاتمه، ارائه دهنده صادرات کامل داده ها را در فرمت های Parquet/JSON + به صورت رایگان ارائه می دهد ؛ خدمات مهاجرت اضافی - در تعرفه X. تخریب نسخه ها توسط قانون تایید شده است"

6) OLA: پشتیبانی داخلی برای SLA خارجی

مثال OLA بین «پلت فرم» و «تیم پرداخت»:
  • اهداف: دروازه p99 ≤ 200 میلی ثانیه، میزان خطا ≤ 0. 3٪، DR: RPO 0، RTO 30 دقیقه.
  • مسئولیت: SRE-on-call، 24 × 7 ؛ داشبورد مشترک و هشدارها.
  • فرآیندها: هرج و مرج دود در انتشار، پرف دود در روابط عمومی، اکتشافی از سایه.
  • گیتس: بلوک را هنگامی که آزمون SLO/xaoc نتواند ؛ به روز رسانی runbook اجباری

7) نظارت و شواهد

Synthetics: پروب های خارجی (HTTP/TCP)، مسیر کاربر، «موفقیت آهسته».
RUM: نظارت بر کاربر واقعی برای تایید تاثیر.
همبستگی: «ارائه دهنده»، «منطقه»، «api _ method»، برچسب «incident _ id».
مصنوعات: تصاویر/مسیرهای پیاده روی/سیاهههای مربوط، صادرات KPI، جدول زمانی تشدید.

خط مشی کوتاه در CI/CD (pseudo-Rego):
rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}

8) حوادث و تعاملات

دفترچه راهنما:

1. طبقه بندی SEV، باز کردن اتاق جنگ، هدف IC.

2. اطلاع از ارائه دهنده از طریق «کانال گرم»، انتقال مصنوعات.

3. دور زدن حالت/ویژگی های پرچم (کهنه، سایه، نرخ کلاه).

4. جدول زمانی مشترک، بازیابی.

5. اقدامات Postmortem +: به روز رسانی محدودیت های پیکربندی، کلید ها، مسیرهای پشتیبان.

6. شروع وام SLA، تثبیت در صورتحساب.

9) امنیت و DPA

DPA/حریم خصوصی: نقش کنترل کننده/پردازنده، دسته بندی داده ها، پایه قانونی بودن، مهلت پردازش/اهداف، زیر پردازنده ها و SLA های آنها.
رمزگذاری: TLS1 2 +، PFS ؛ داده «در حالت استراحت»، مدیریت کلید (KMS/HSM)، چرخش.
حسابرسی: گزارش دسترسی، اطلاعیه های نقض ≤ 72 ساعت، گزارش pentest در درخواست.
محلی سازی: منطقه ذخیره سازی، ممنوعیت صادرات بدون رضایت.

10) زنجیره تامین و قابلیت همکاری

SBOM/آسیب پذیری ها: سیاست آستانه CVSS و زمان تعمیر (انتقاد ≤ 7 روز، ≤ بالا 14).
سازگاری API: تست قرارداد، sandboxes و وسایل پایدار.
تغییرات ارائه دهنده: یادداشت انتشار اولیه، پیش نمایش/پنجره بتا، سازگاری عقب.

11) چند ارائه دهنده و feilover

فعال/فعال: سخت تر و گران تر، اما در دسترس بودن بالاتر (در نظر گرفتن سازگاری).

فعال/منفعل: سرد/گرم ذخیره، دکتر منظم تمرینات

انتزاع/آداپتورها: قرارداد واحد، مسیریابی بهداشت/هزینه/کربن (در صورت لزوم).
شرایط مجوز/تجاری: قابلیت حمل، محدودیت در خروجی داده ها، هزینه خروج.

12) برنامه خروج و تمرینات دوره ای

داده ها/کاتالوگ نمودار و حجم.
اسکریپت قابلیت حمل SDK/API (حداقل - منبع دوم).
آزمون خروج خشک: صادرات/واردات، بازگرداندن، بررسی ناوردا.
دوره های نگهداری/دفع قانونی پس از آزادی.

13) تست های قرارداد و انطباق

نمونه های API: مثبت/منفی، محدودیت ها، خطاها و بازپرداخت ها.
تحویل رویدادها/webhooks: امضا/زمان/پدربزرگ/تکرار.
خطوط پایه Perf: p99، پهنای باند ؛ تست رگرسیون در یادداشت انتشار از ارائه دهنده.
Cross-region: تخریب یک منطقه نباید SLO را در سطح جهانی نقض کند.

14) ضد الگوهای

SLA «در صفحه وضعیت» بدون اندازه گیری های خارجی.
اهداف یکسان برای همه مناطق/نقاط پایانی.
فقدان حقوق حسابرسی و گزارش های دقیق حادثه.
بدون OLA/UC → هیچ کس به انجام تعهدات خارجی در داخل وجود دارد.
برنامه خروج نامشخص → گروگان تامین کننده.
«جریمه فقط با وام» بدون حق فسخ در صورت نقض سیستماتیک.
بدون پنجره انتقال مستهلک میشود.

15) چک لیست معمار

1. SLI/SLO تعریف شده برای جریان کلیدی و مناطق ؟

2. انتخاب روش نظارت خارجی و پایه شواهد ؟

3. آیا حوادث، تشدید، پنجره های کاری برنامه ریزی شده و محدودیت استثنا در SLA بیان شده است ؟

4. مقیاس اعتباری/مجازات و حق فسخ برای نقض N?

5. DPA/امنیت: رمزگذاری، سیاهههای مربوط، اطلاعیه ها، زیر پردازنده، محلی سازی ؟

6. تست قرارداد و جعبه شن و ماسه در خط لوله ؟

7. OLA های داخلی/UC ها SLO های خارجی را فعال می کنند ؟

8. DR: RPO/RTO اعلام کرد، آموزش انجام شده، گزارش های موجود ؟

9. برنامه خروج: فرمت های صادرات، زمان بندی، عمل خروج خشک ؟

10. آیا گیت ها در CI/CD انتشار را مسدود می کنند که خطر نقض SLA را افزایش می دهد ؟

16) نمونه های کوچک (طرح)

16. 1 سیاست استقرار دروازه در خطر ارائه دهنده

yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"

16. 2 صادرات «شواهد حادثه»

bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '.      {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl

16. 3 تست وب هوک قرارداد (شبه کد)

python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency

نتیجه گیری

SLA/OLA نه تنها یک مقاله حقوقی است، بلکه یک مکانیزم معماری برای مدیریت ریسک و کیفیت است. معیارها و پنجره های مناسب، نظارت خارجی، روش های حادثه روشن و بازپرداخت، OLA/UC های داخلی، دروازه های خط لوله، چند فروشنده و یک برنامه خروج واقعی، وابستگی ارائه دهنده را به یک بخش کنترل شده، قابل اندازه گیری و اقتصادی قابل پیش بینی از پلت فرم شما تبدیل می کند.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.