عملیات و مدیریت → مدیریت تغییر
مدیریت تغییر
1) اهداف و اصول
هدف این است که به سرعت و با خیال راحت تغییر کند، خطر حوادث، خرابی و نقض مقررات را کاهش دهد.
اصول:- قابل پیش بینی و برگشت پذیر: هر تغییر برنامه ریزی شده، قابل اثبات و برگشت پذیر است.
- مبتنی بر ریسک: عمق کنترل بستگی به ریسک (حوزه های قضایی، پول، PII) دارد.
- کوچک و مکرر: افزایش های کوچک برای ارزیابی و بازگشت آسان تر است.
- اول اتوماسیون: زیرساخت به عنوان کد، تست، اعتبار سنجی، چک خودکار.
- تنها منبع حقیقت: یک RFC/بلیط، یک تقویم واحد و یک گزارش از اقدامات.
2) محدوده
کد محصول (backend/frontend، SDK تلفن همراه).
زیرساخت (IaC، Kubernetes/VM/CDN/Edge).
داده ها (نمودار DB، مهاجرت، فروشگاه/ETL).
تنظیمات و ویژگی های پرچم.
یکپارچگی (PSP، KYC، ارائه دهندگان بازی).
سیاست های امنیتی و دسترسی
3) نقش ها و RACI
مالک مسئول را تغییر دهید
سرپرست انتشار/RelEng - هماهنگی قطار را آزاد کنید.
SRE/Ops - عملیات، دروازه SLO/SLA.
امنیت/انطباق - بررسی ریسک و انطباق.
CAB (هیئت مشاوره تغییر) - تصویب تغییرات عادی/پرخطر.
ذینفعان کسب و کار/پشتیبانی - مطلع.
4) طبقه بندی تغییرات
استاندارد (معمولی، از پیش تایید شده): مکرر، کم خطر، playbook آماده (به عنوان مثال به روز رسانی پرچم، چرخش کلید).
عادی: نیاز به RFC، ارزیابی، CAB احتمالی، آزمایشات و برنامه برگشت.
اضطراری: رفع فوری حوادث P1 ؛ حداقل مسیر بوروکراتیک، بررسی پس از واقعیت/SAW.
5) تغییر چرخه عمر
1. Trigger (RFC): هدف، دامنه، ریسک، خدمات/مناطق آسیب دیده، برنامه پشتیبان.
2. ارزیابی ریسک: ماتریس تاثیر × احتمال، تاثیر بر SLO/انطباق/ارزش.
3. برنامه ریزی: پنجره، وابستگی، مهاجرت، ارتباطات، آزمون اعتبار سنجی.
4. اعتبار سنجی: خودکار، تجزیه و تحلیل استاتیک، بررسی امنیت، اجرای عملکرد.
5. استقرار: استراتژی مترقی (نگاه کنید به § 8)، تله متری و gardrails.
6. مشاهده: SLO نرخ سوختگی، هشدارها، معیارهای تجاری (GGR/NGR، تبدیل).
7. تکمیل: پذیرش نتیجه، به روز رسانی اسناد، پس از مرگ برای انحراف.
6) RFC: حداقل ترکیب
زمینه: چرا تغییر، فرضیه نفوذ
محدوده: سیستم ها، مناطق، نسخه های مشتری.
ریسک: ماتریس و سناریوهای شکست، شعاع انفجار.
برنامه استقرار: گام به گام، با معیارهای برو/توقف.
طرح پشتیبان: دستورات/مراحل، شرایط شروع، انتظارات RTO/RPO.
طرح تست: آنچه ما قبل/بعد (عملکرد، عملکرد، ایمنی) بررسی می کنیم.
ارتباطات: چه کسی ما را مطلع می کند، قالب های پیام.
حسابرسی: لینک به بلیط، تعهد، مصنوعات CI/CD.
7) تغییر تقویم و ویندوز
تقویم واحد: همه نسخه ها، مهاجرت، خاموش کردن ویژگی ها، رویدادهای خارجی (ورزش/بازاریابی/تعطیلات).
پنجره های یخ: فروش عمده/مسابقات قهرمانی/ساعت اوج، گزارش مالیاتی.
سیاست مداخله: جلوگیری از تغییرات متضاد در مسیرهای بحرانی مشابه.
امواج منطقه ای: اول «گرم» مناطق/ترافیک کم، پس از آن - آنهایی که اصلی.
8) استراتژی های استقرار فنی
Canary: سهم کوچکی از ترافیک → مقایسه معیارها (تاخیر p95، خطا٪، تبدیل).
آبی سبز: محیط های موازی، تغییر مسیر اتمی.
تحویل پیشرفته: درصد اجرا با شرایط توقف خودکار.
ویژگی پرچم: سوئیچ عملکرد، کشتن سوئیچ، A/B.
Dark Launch/Shadow Traffic: بررسی سایه ها بدون تاثیر بر کاربران.
محدودیت گام: افزایش تدریجی در QPS/رقابت.
Gardrails: توقف اتوماتیک زمانی که آستانه p95/خطا٪ بیش از حد است، بازده/بازپرداخت افزایش می یابد، مجوز/سپرده سقوط می کند.
9) داده ها و تغییرات طرح
سازگاری: مهاجرت افزودنی → کد که هر دو طرح قدیمی و جدید را می خواند.
مهاجرت دو فاز: (1) اضافه کردن فیلدها/شاخص های جدید → (2) کد سوئیچ → (3) حذف قدیمی.
نسخه قرارداد: طرح های Avro/Protobuf با رجیستری ؛ عقب/جلو سازگار است.
مهاجرت حجم بزرگ: دسته، مکث، idempointency، ایست بازرسی و پیشرفت.
تحمل فاجعه: تست RPO/RTO، عکس های فوری، تمرینات بازیابی.
داده های BI: تغییر ویترین/معیارها - از طریق MR/SR و فرهنگ لغت معیارها (شناسه، فرمول).
10) پیکربندی و مدیریت مخفی
پیکربندی به عنوان داده: پیکربندی های نسخه شده، اعتبار سنجی توسط طرح، ارتقاء از طریق محیط زیست.
اسرار: چرخش کلیدی، اصول حداقل امتیازات، حسابرسی درخواست ها.
محدودیت ها/شرکا (PSP/KYC) - از طریق پارامتری کردن، نه از طریق چنگال کد.
11) انطباق و ممیزی (زمینه iGaming)
ردیابی تغییرات: چه کسی/چه زمانی/چه چیزی تغییر کرده است (پرچم ها، پیکربندی ها، مسیرها، مهاجرت ها).
تفکیک وظایف: نقش های مختلف برای نویسنده، داور و deploer (SOX مانند).
گزارش های نظارتی: نسخه های ثابت، کنترل نسخه شهرک ها (GGR/NGR، پاداش)، کنترل دسترسی به PII.
ارائه دهندگان: نسخه های ثابت گواهینامه های SDK/ارائه دهنده، تعهدات SLA.
12) ارتباطات
قالب های هشدار: قبل از انتشار (چه/زمانی/خطرات)، در طی (وضعیت،٪ ترافیک، معیارها)، بعد از (مجموع).
پیام های خارجی: آگهی ها/صفحه وضعیت زمانی که بر مشتریان تاثیر می گذارد.
هماهنگی: # کانال انتشار جنگ اتاق، صاحب انتشار، فرکانس به روز رسانی.
13) معیارهای عملکرد
DORA: فرکانس استقرار، زمان سرب برای تغییرات، تغییر نرخ شکست (CFR)، MTTR.
تاثیر SLO: سهم زمان در SLO قبل/بعد از انتشار.
نرخ برگشت - فرکانس برگشت توسط دسته تغییر.
انتشار بدهی: در انتظار مهاجرت/ویژگی پرچم در برزخ.
تاثیر کسب و کار: تبدیل، KYC TTV، میزان موفقیت PSP، GGR/NGR رانش در هنگام نورد.
14) ضد الگوهای
انتشار بیگ بنگ: تغییرات زیادی در یک زمان - درک علت رگرسیون دشوار است.
مهاجرت ناسازگار: حذف/تغییر نام فیلدها بدون خواندن دوگانه.
پرچم های بدون صاحب و مهلت برای حذف: شاخه های «ابدی» منطق.
انتشار بدون تله متری و معیارهای توقف: «با چشم» و تشخیص دیر هنگام آسیب.
نادیده گرفتن تقویم: تقاطع با رویدادهای اوج/کمپین.
مراحل دستی بدون playbooks و حسابرسی: تنوع بالا و خطر.
15) چک لیست
قبل از شروع (RFC آماده)
- تغییر هدف و KPI ها فرموله شده است
- خطر و شعاع انفجار ارزیابی، تغییر کلاس انتخاب شده است
- برنامه استقرار و پشتیبان گیری گام به گام نوشته شده است
- یک برنامه آزمون و نتایج در مرحله/canary وجود دارد
- ارتباطات و تقویم به روز شده، ذینفعان اطلاع داده شده است
در طول نورد
- p95/error٪ معیارها، سیگنال های کسب و کار و سیاهههای مربوط در زمان واقعی نظارت
- مراحل پیشرفت توسط نقاط چک تایید شده است
- در عملیات گاردریل - خودکار توقف و عقب نشینی
پس از
- نتایج انتشار ثبت شده (تغییرات، نسخه ها، مصنوعات)
- پس از مرگ برای انحراف (≤ 5 روز کاری)
- بدهی ها (حذف پرچم، مهاجرت نهایی) با صاحبان ثبت می شوند
16) قالب های کوچک
RFC الگو (کوتاه):- هدف/فرضیه
- دامنه و تأثیرات (خدمات، مناطق، داده ها، مشتریان)
- تاثیر × احتمال و اقدامات کاهش
- طرح نورد (مراحل،٪ ترافیک، معیارهای برو/بدون رفتن)
- طرح پشتیبان (مراحل، RTO/RPO، داده ها)
- طرح تست (عملکرد/عملکرد/ایمنی)
- ارتباطات (کانال ها، فرکانس)
- مصنوعات (بلیط، PR، اعداد ساخت)
- تغییر: "پرداخت خدمات v2. 14 + مهاجرت psp_limits"
- پنجره: 2025-11-02 00: 00-01: 00 EET
- مناطق آسیب دیده: اتحادیه اروپا، LATAM (10٪ → 50٪ → 100٪)
- خطرات/باغبانی: خطا٪> 2٪ 10 دقیقه - توقف و عقب نشینی
- تماس با: مالک، @ SRE-on-call، @ Support-lead
- عوامل: p95> + 25٪ 10 دقیقه، موفقیت PSP <97٪
- مراحل: (1) ترافیک −→ 0٪ در v2. 14; (2) پرچم ها را به v2 تغییر دهید. 13; (3) بازگشت مهاجرت از طریق عکس فوری/بازرسی ؛ (4) تست دود ؛ (5) گزارش
17) ادغام با قطار آزادی
قطار آزاد: اسلات های ثابت (به عنوان مثال 2 × در هفته)، SLA در ادغام برش.
سیاست Hotfix: قطارهای فردی/شاخه ها، مسیر سریع به تولید.
نسخه بندی: semver، برچسب ها در مصنوعات و محیط، SBOM.
18) خط پایین
مدیریت تغییر ترمز سرعت نیست، بلکه مکانیزمی برای شتاب ایمن است. طبقه بندی مبتنی بر ریسک، RFC های خوب، نورد پیشرفته، مهاجرت داده های سازگار، ارتباطات روشن و اثر قابل اندازه گیری، انتشار را به یک فرایند قابل کنترل، قابل تکرار و قابل رسیدگی تبدیل می کند.