تغییر وظایف و انتقال وظایف
1) چرا تغییر وظیفه رسمی
تغییر وظیفه یک لحظه مهم از خطر است: زمینه از دست رفته است، زمان واکنش افزایش می یابد، اقدامات تکرار می شوند. فرآیند رسمی MTTA/MTTR را کاهش می دهد، «دم های فراموش شده» را حذف می کند و انطباق را تضمین می کند (چه کسی و چه زمانی مسئولیت را پذیرفت).
2) نقش ها و مدل پوشش
پاسخ اولیه (P1) - اولین پاسخ، تریاژ، هماهنگی قبل از ورود IC.
ثانویه در تماس (P2) - پشتیبان گیری، متصل در طول اضافه بار/تشدید.
مدیر وظیفه/IC-از روز رهبر حادثه برای SEV-1 + است.
Follow-the-sun (منطقه چند زمانی) یا Follow-the-moon (پوشش شبانه در مناطق دیگر).
پنجره های زمان: اجتناب از انتشار/کار خطرناک ± 30 دقیقه از تغییر.
3) برنامه چرخش (مثال)
24/7، شیفت 8 ساعته: صبح/روز/شب، تیپ 3، P1 + P2.
24/7، شیفت 12 ساعته: سوئیچ کمتر، خطر بیشتر خستگی - نیاز به «پنجره جبران».
5 × 8 (روزهای کاری) + استخر آخر هفته: پوشش اولیه روزانه توسط تیم محصول، آخر هفته - پلت فرم/SRE.
ترکیبی: روزهای هفته «در زمان دفتر»، شب/تعطیلات آخر هفته - Follow-the-sun.
قوانین انصاف: چرخش تقویم، حسابداری تعطیلات، حداکثر N شیفت شب در هر دوره.
4) تغییر کارت تحویل
حداقل استاندارد محتوا:- چه زمانی و چه کسی: «تاریخ/زمان (UTC و محلی)»، انتقال → می پذیرد ؛ تماس های P1/P2
- وضعیت سیستم: خلاصه SLO/SLA، هشدارهای فعال، تخریب شناخته شده.
- حوادث باز: ID، SEV، مرحله فعلی، مالک، اقدام بعدی/ETA است.
- خطرات برای پنجره تغییر: کار برنامه ریزی شده، انتشار، مهاجرت، حالت های محدود (سهمیه ارائه دهنده).
- بلیط های مهم/وظایف: اولویت، مسدود کننده ها، مهلت ها.
- ارتباطات در خارج: پست های فعال در صفحه وضعیت/به روز رسانی مشتری.
- راه حل های شناخته شده: شامل پرچم های ویژگی تخریب، محدودیت زمانی.
- Domenica: ارائه دهندگان پرداخت/KYC/CDN - وضعیت و مسیریابی آنها.
- خانه داری: که در تماس فردا، مردم پنجره در دسترس نیست (تظاهرات/پرواز).
5) «دست بیش از تغییر» چک لیست (صدور حزب)
- کارت تغییر (تمام زمینه ها) را به روز کرد و لینک را در کانال «# oncall-handover» ثابت کرد.
- ترجمه «دانش شفاهی» به بلیط/یادداشت ؛ بدون وظایف «در سر».
- همه حوادث: SEV، مالک، گام بعدی، زمان به روز رسانی بعدی.
- صفحه وضعیت و به روز رسانی مشتری با وضعیت واقعی مطابقت دارد.
- غیر فعال هشدار پر سر و صدا/نادرست (با توجه به روش) و یا مشخص شده بر روی کارت.
- بررسی سهمیه/محدودیت های ارائه دهندگان خارجی برای پنجره تغییر بعدی.
- هماهنگ با صدا/ویدئو برای 5-10 دقیقه (اگر SEV-1 + فعال است).
- ثبت این واقعیت از انتقال (ربات/بلیط)، نشان داد که گیرنده.
6) «من قبول تغییر» چک لیست (حزب دریافت)
- کارت را بخوانید، سوالات باز را روشن کنید.
- داشبورد SLO/هشدار را در 2-4 ساعت گذشته بررسی کنید.
- تایید نقش P1/P2 در ربات (اختصاص) و صدا/کانال های پیجر.
- فرض مالکیت حوادث فعال و تایمر به روز رسانی.
- بررسی آثار برنامه ریزی شده/انتشار، لغو عملیات مخاطره آمیز برای 30 دقیقه اول.
- ساخته شده "پیام اکو" به کانال: "من یک تغییر، حوادث فعال:...، کلمات. به روز رسانی در "..
7) استانداردهای ارتباطی
Каналы: '#oncall'، '#incident -warroom- <ID>'، '#statuspage'.
فواصل به روز رسانی: SEV-0: 15 دقیقه، SEV-1: 30 دقیقه، SEV-2 +: 60 دقیقه.
فرمت به روز رسانی: تاثیر - تشخیص - اقدامات - به روز رسانی بعدی (زمان).
تشدید: بدون پیشرفت در N دقیقه → اتصال TL/Platform/DB/Sec توسط ماتریس.
شفافیت مالکیت: هر عملی یک مجری و یک ETA دارد.
8) انتقال وظایف (نه حادثه)
معیارهای انتقال: بلوک های کار SLO/انتشار/انطباق و یا منقضی می شود.
طراحی: بلیط با «تعریف مرحله بعدی» و نتیجه مورد انتظار، تمام مصنوعات (سیاهههای مربوط/تصاویر/نمودار) متصل می شوند.
اولویت بندی: Kanban- swimlane «تحویل در تماس».
مهلت: انتقال به علت تاریخ ؛ تاخیر به مالک سرویس افزوده می شود.
9) اتوماسیون و ادغام
تقویم چرخش: هماهنگ سازی با پیجر ؛ ربات در ابتدای شیفت «چه کسی در حال انجام وظیفه است» را منتشر می کند.
ChatOps: «/handover start »، جمع آوری خودکار کارت از منابع (وضعیت SLO، حوادث باز، انتشار).
بلیط: تخصیص خودکار مالک توسط P1/P2 ؛ «تحویل» برچسب ها.
صفحه وضعیت: پل به روز رسانی عمومی با قالب.
حسابرسی: ورود به سیستم انتقال (چه کسی/زمانی که پذیرفته شده)، ارتباط با SEV و گزارش.
10) مدیریت خستگی
محدودیت ها: حداکثر X صفحه/ساعت و Y در یک ردیف در شب - به P2/escalation بروید.
ساعتهای آرام برای هشدارهای غیر بحرانی (بلیط به جای صفحه بندی).
جبران خسارت پس از ساعت و استراحت پس از حادثه.
آموزش و سایه برای مهندسین جدید در تماس.
بازنگری تغییرات پر سر و صدا → تنظیم هشدارها و playbooks.
11) معیارهای کیفیت شیفت و پاس
نرخ نقص تحویل: نسبت حوادث با از دست دادن زمینه در طول یک تغییر.
MTTA در اطراف تغییر: متوسط/قله ± 30 دقیقه از سوئیچ.
از دست رفته/به روز رسانی اواخر: به روز رسانی SEV منقضی شده.
هشدار بهداشت:% صفحات کاذب ؛ هشدار بدون runbook/مالک.
بار در هر شیفت: صفحات/ساعت، مدت زمان متوسط کار فعال.
رضایت: تغییرات NPS (نظرسنجی در تماس)، خستگی در مقیاس.
12) ارتباط با مدیریت حوادث و RCA
حوادث فعال در زمان تغییر بسته نمی شوند ؛ مسئولیت به طور صریح منتقل و ثابت شده است.
در RCA، بخش «Shift Impact» مورد نیاز است: آیا رانش زمینه، به روز رسانی دیر، اقدام دوگانه وجود دارد.
CAPA: بهبود کارت، چک لیست، اتوماسیون، آموزش.
13) امنیت، انطباق و محرمانه بودن
PII/اسرار در متن آزاد کارت ممنوع است ؛ دسترسی به مخازن امن
دسترسی موقت: حقوق تماس برای پنجره تغییر (JIT/JEA)، چرخش کلید صادر می شود.
دنباله حسابرسی: ورود به سیستم غیر قابل تغییر که خواندن/تغییر کارت و صفحه وضعیت.
نظارتی: شرایط اطلاعیه های مشتری در کارت تغییر کنترل می شود.
14) ضد الگوهای
«من آن را به صورت شفاهی» بدون کارت/بلیط.
انتشار دقیقا در زمان تغییر بدون IC و پشتیبان.
پیجر در یک فرد «در هواپیما/مترو» بدون P2.
کارت به عنوان یک «ورق» بدون مرحله بعدی/ETA.
Triage در چت شخصی - اطلاعات از دست رفته است، حسابرسی غیر ممکن است.
هیچ مدرکی از واقعیت انتقال وجود ندارد - «چه کسی پاسخ داد» اختلافات.
15) قالب ها
قالب کارت شیفت) فشرده (
Shift: 2025-11-01 18: 00-02: 00 UTC (local: Europe/Kyiv 20: 00-04: 00)
P1: @duty-alex P2: @duty-olga IC: @ic-of-day
SLO Summary: API ok, Payments p95↑ by 12% (observation)
Active Incidents:
- INC-3421 (SEV-2): KYC's success is falling in the TR region. Owner: @ p1. Trail. step: switch 20% of traffic to provider B, update at 20:30 UTC.
Risks/jobs: 22:00 UTC - index migration to ClickHouse (read-only), owner @ data-ivan.
Providers: PSP-A green, KYC-A partially degrades TR.
Status page: post from 17:50 UTC; next update 20:30 UTC.
Next steps P1: 1) Check KYC switching effect; 2) Prepare canary 5% for v2 payments. 14.
دریافت قالب اکو
[Took over shift] 18:02 UTC. Active: INC-3421 (SEV-2). Trail. update 18:30 UTC.
Checked alerts in 2h - no new P1s. Status page availability approx.
16) جاسازی در عمل روزانه
مراسم تغییر روزانه: 5-10 دقیقه هماهنگ سازی صدا در حوادث فعال.
ممیزی کارت هفتگی: به طور انتخابی کامل بودن/ارتباط را بررسی کنید.
روزهای بازی: شبیه سازی تغییرات با بسیاری از رویدادهای موازی.
دایرکتوری بارانداز: قالب کارت/چک لیست در مخزن، بررسی به عنوان کد.
17) خط پایین
جابجایی و انتقال به خوبی سازمان یافته «روانکاری» کل دستگاه عامل است. Shift card، synchronization کوتاه، چک لیست دقیق، اتوماسیون و نگرانی برای ثبات تیم، لحظات خطرناک را به یک روال بدون از دست دادن کیفیت تبدیل می کند: زمینه حفظ می شود، زمان واکنش پایدار است و کاربران تغییر وظیفه را متوجه نمی شوند.