عملیات و → زمینه انتقال مدیریت بین تغییرات
انتقال زمینه بین تغییرات
1) چرا شما به آن نیاز دارید
تغییر می آید - سیستم در حال حاضر «در حال اجرا است». کیفیت تحویل به طور مستقیم بر MTTR، سر و صدای هشدار و ثبات انتشار تاثیر می گذارد. تحویل خوب یک راهنمای سریع، خطرات روشن و گام های بعدی قابل درک است.
اهداف:- حذف از دست دادن زمینه برای حوادث، انتشار و ارائه دهندگان.
- «زمان ورود» تغییر جدید را به دقیقه، نه ساعت کاهش دهید.
- تثبیت مسیرهای بحرانی SLO (سپرده، شرط، راه اندازی بازی، خروجی).
- ارتباطات را قابل پیش بینی و قابل بررسی کنید.
2) اصول تحویل خوب
1. فرم استاندارد (یک قالب، یک اصطلاح).
2. مصنوعات یکنواخت (لینک به داشبورد/بلیط/runbook 'و).
3. Timebox (کوتاه «جلسه» + «longrid» در نوشتن).
4. عملی: در پایان یک لیست صریح از وظایف «چه کسی/چه/زمانی» است.
5. SLO-orientation: وضعیت SLO/خطا، نه «ورود به سیستم رویداد».
6. ردیابی: هر واقعیت توسط یک محصول تایید شده است.
3) نقش ها و مسئولیت ها
تغییرات سرب (خروجی): یک بسته تحویل را آماده می کند، یک جلسه توجیهی برگزار می کند.
تغییر سرب (دریافت): سوالات/خطرات را رفع می کند، پذیرش را تایید می کند.
مدیر حادثه: جدول زمانی/کانال حادثه را به روز می کند، SLA به روز رسانی ها را نظارت می کند.
صاحبان دامنه (پرداخت ها/شرط ها/بازی ها/KYC): در بخش های خود «وضعیت و ریسک» را ارائه می دهند.
SRE/Observability: پشتیبانی از مصنوعات (داشبورد، حاشیه نویسی انتشار، هشدار).
4) زمان بندی و کانال ها
T-30 دقیقه قبل از تغییر: تغییر خروجی وضعیت را متوقف می کند، قالب را به روز می کند.
T-10 min: جلسه سریع (حداکثر 15-20 دقیقه) در کانال صوتی/تصویری.
T + 0: انتشار بسته تحویل در کانال مشترک «# ops-handover».
T + 15 دقیقه: تغییر دریافت تایید پذیرش و روشن سوالات باز است.
تشدید: تمام نقاط «قرمز» بلافاصله به کانال تیم مربوطه.
5) ساختار بسته تحویل (قالب)
Handoff - <date, time, TZ>
Shift: <outgoing> → <receiving>
Overall SLO status (last 4h):
- API p95/p99: <values/trends>
- Error rate: <values/trends>
- Queue lag/DB connections/Cache: <brief>
Critical incidents:
- <INC-123>: status, impact, next update ETA, links (ticket, channel, postmortem draft)
Providers (PSP/KYC/studios):
- PSP-X: quotas/errors/fake <links>
- KYC-A: Webhook delays <links>
Releases/Features:
- In progress: <service>, stage (canary X%), gate/metrics, risk
- Scheduled: windows/locks/dependencies
Risks and observations:
- <briefly, with links and graphs>
Action items (before <time>):
- [Owner] <task>, readiness criterion
Useful links:
- Dashboard Overview, dependency map, escalation matrix, runbook 'and
On-call contacts:
- Domains/Names/Channels
6) تحویل کوتاه SOP
1. تغییر خروجی به روز رسانی حاشیه نویسی انتشار و داشبورد (SLO، ارائه دهندگان، صف).
2. هشدار «قرمز» را برای 4 ساعت گذشته بررسی می کند، وضعیت/دلیل را برطرف می کند.
3. بخش به روز رسانی «خطرات و مشاهدات» (روند/سوء ظن، نه حقایق).
4. موارد اقدام را با مهلت و صاحبان پر می کند.
5. دارای یک جلسه توجیهی: 10-15 دقیقه، به شدت با توجه به قالب.
6. شیفت دریافت کننده سوال می پرسد ؛ در صورت لزوم - تشدید فوری به صاحبان.
7. تایید پذیرش: «دریافت شده، سوالات/خیر»، لیست گام های اول.
7) معیارهای کیفیت تحویل (KPI)
Handoff Quality Score (HQS) - به ثمر رساندن یک بسته (0-100) در یک چک لیست.
زمان تحویل - مدت زمان جلسه (راهرو هدف 10-20 دقیقه).
SLA قدردانی ≤ 15 دقیقه.
Missing Context Rate: نسبت حوادث با «از دست دادن زمینه» پس از یک تغییر.
Spike Incident Post-Handoff - افزایش هشدارها/حوادث در 60 دقیقه اول.
Action Items SLA - نسبت وظایف بسته شده در زمان پس از تغییر.
8) چک لیست کیفیت بسته (ارزیابی HQS)
- پر از معیارهای SLO/کلیدی در 4 ساعت با روند.
- تمام هشدارهای «قرمز» با دلایل/مراجع ذکر شده است.
- حوادث: تعداد، وضعیت، تاثیر، به روز رسانی بعدی (زمان).
- ارائه دهندگان: سهمیه/خطا/feilover, آخرین تغییرات.
- انتشار/ویژگی ها: مرحله، خطرات، گیتس/قناری.
- آیتم های عمل: مالک، مدت، معیار آمادگی.
- لینک ها: داشبورد، کانال ها، runbook و ماتریس تشدید.
- در تماس با مخاطبین و لینک های پشتیبان.
9) داشبورد «برای تحویل» (حداقل)
بررسی اجمالی عملیات: p95/p99، میزان خطا، ظرفیت سر و صدا، تاخیر صف.
انجمن حوادث: حوادث باز، به روز رسانی ETA، تاثیر.
انتشار و ویژگی: قناری، قبل/بعد از مقایسه، Autogates.
پنل ارائه دهندگان: سهمیه ها، زمان بندی ها، تماس های هزینه/1k، سوئیچ ها.
نقشه وابستگی: تأخیر/خطا/تلاش مجدد.
10) هشدارها در مورد کیفیت تحویل (ایده ها)
ALERT HandoffNotPublished
IF handoff_published == 0 AND within(10m, shift_change) == true
LABELS {severity="warning", team="ops"}
ALERT HandoffAckSLA
IF handoff_ack_minutes > 15
LABELS {severity="warning", team="ops"}
ALERT MissingActionOwners
IF count_over_time(handoff_action_items{owner=""}[1h]) > 0
LABELS {severity="warning", team="ops"}
ALERT PostHandoffIncidentSpike
IF incidents_rate_60m_after_shift > baseline_14d 1. 5
LABELS {severity="info", team="ops"}
11) ارتباطات و فرمت به روز رسانی
قالب به روز رسانی کوتاه (به کانال مشترک):
[HH: MM] Handoff published. SLO OK/Degraded. Incidents: INC-123 (ETA 18:30), releases: bets-api canary 10%. Risks: PSP-X 85% quota. Action items: @ squad-payments until 7pm to check out the feilover.
قوانین و مقررات:
- بدون چت خصوصی برای نقاط بحرانی - فقط کانال های مشترک.
- هر منطقه «قرمز» موضوع فوری با صاحبان است.
- تمام تصمیمات/مصالحه - در نوشتن، با اشاره به داده ها.
12) ویژگی های دامنه (iGaming)
پرداخت: اولویت: تبدیل سپرده و زمان مجوز، مسیرهای جعلی PSP، محدودیت های ارائه دهنده.
شرط: ضریب/به روز رسانی کش, جریان/بار صف, تاخیر محاسبه.
بازی/زنده: رویدادهای پخش (jackpots/streams)، محدودیت وب سایت، تخریب UI.
KYC/AML: بررسی صف، ارائه دهندگان SLA، حساسیت به قله.
13) ضد الگوهای
آزاد «شکل دلخواه» تحویل (هر کس می نویسد به عنوان او می خواهد).
هیچ مهلت برای تایید پذیرش وجود دارد.
بسته بندی بدون آیتم های عمل و صاحبان.
تحویل تبدیل به یک «ورود به سیستم خوان» به جای SLO/خطرات.
راه حل های مخفی در چت های خصوصی - عدم قابلیت ردیابی.
قالب شامل ارجاع به مصنوعات نیست - چیزی برای بررسی وجود ندارد.
14) ادغام و مصنوعات
حاشیه نویسی از انتشار در نمودار، خودکار لینک به تحویل.
باز کردن لینک: قرار دادن لینک به داشبورد/بلیط با پیش نمایش معیارهای کلیدی.
Runbook binding: هر منطقه «قرمز» با لینک مستقیم به یک runbook خاص.
ماتریس تشدید: در قالب - یک سند مربوطه تنها.
15) سیاست نگهداری و حسابرسی
تحویل - ذخیره شده در مرکز (geos، تاریخ/زمان، نویسندگان).
ممیزی هفتگی HQS و تجزیه و تحلیل انتخابی از تحویل بد
تجدید نظر در قالب - سه ماهه و یا بر اساس نتایج پس از مرگ.
16) شروع سریع (30 روز)
هفته 1: تصویب قالب، نقش ها و زمان بندی ؛ شروع یک خلبان در همان خط (به عنوان مثال، پرداخت).
هفته 2: شامل داشبورد «برای تحویل»، هشدار HandoffNotPublished/AckSLA.
هفته 3: نمره HQS و حسابرسی 10٪ از تحویل را معرفی کنید.
هفته 4: گسترش در شرط/بازی/KYC، انجام گذشته نگر، به روز رسانی SOP.
17) نمونه ای از «کارت خطر» برای یک بسته
Risk: PSP-X hits 90% quota in prime time
Impact: rise in deposit refusals, SLO payments at risk
Signals: outbound_error_rate, quota_usage_ratio
Mitigation: raise PSP-Y up to 20% of traffic in advance, enable token cache
Owner/ETA: integrations@oncall / до 18:00
18) سوالات متداول
س: اگر جلسه توجیهی ادامه یابد چه ؟
A: جعبه زمان دقیق و قانون «در موضوع پس از جلسه». بسته باید شامل همه چیز برای آشنایی ناهمزمان باشد.
س: چگونه با «نسخه های مختلف حقیقت» برخورد کنیم ؟
A: مصنوعات را متحد کنید: داشبورد یکپارچه، حاشیه نویسی انتشار، SSOT برای SLA ؛ فقط با آنها ارتباط برقرار کنید.
س: آیا ثبت نام باید انجام شود ؟
A: بله، برای موارد بحث برانگیز و آموزش. اما رکورد جایگزین بسته نوشته شده استاندارد نیست.