عملیات و → کنترل کیفیت عملیات مدیریت
کنترل کیفیت عملیات
1) چرا شما به آن نیاز دارید
کیفیت معامله پیش بینی پذیری و تکرارپذیری فعالیت هایی است که درآمد، SLA ها و اعتماد کاربر بستگی دارد. یک سیستم کنترل کیفیت قوی تنوع را کاهش می دهد، تحویل بین شیفت ها را سرعت می بخشد، تعداد خطاها را در هنگام انتشار کاهش می دهد و سرعت پاسخ به حوادث را افزایش می دهد.
اهداف:- فرآیندها را قابل اندازه گیری و مدیریت کنید.
- کاهش تنوع عملکرد (ثبات).
- کاهش ضایعات (انتظار، تغییرات، «عصای دستی»).
- بهبود مستمر (کایزن) را به کار روزانه تبدیل کنید.
2) مدل کیفیت: QA در مقابل QC
QA (تضمین کیفیت) - کیفیت داخلی: استانداردها، SOP ها، آموزش ها، دروازه ها، چک های خودکار قبل و در طول فرآیند.
QC (کنترل کیفیت) - بررسی نتیجه/نمونه برداری/حسابرسی پس از اعدام (بررسی بلیط، چک ورود به سیستم، کنترل کارت SPC).
اصل: حداکثر کیفیت - در مرحله طراحی و اجرا (QA)، QC «بیمه» و منبع داده برای بهبود است.
3) عناصر کلیدی سیستم
1. استانداردها و SOP ها: دستورالعمل های گام به گام، مدل نقش، چک لیست ها.
2. نقشه فرآیند: ورودی/خروجی، صاحبان، SLO فرآیند، مصنوعات.
3. دروازه های کیفیت: قبل از چک، توقف شیر برای خطر.
4. SPC (کنترل فرآیند آماری): کارت های کنترل، محرک ها.
5. ممیزی و نمونه برداری: تأیید منظم انطباق با استانداردها.
6. بازخورد و RCA: postmortems، 5 چرا/» استخوان ماهی«
7. آموزش و صدور گواهینامه: ماتریس مهارت، شیفت سایه
8. اتوماسیون: چک های خودکار، ربات ها، سیاست ها، آزمون های ادغام.
4) فرآیندهای کنترل کیفیت (نمونه)
روال تغییر (نظارت، چرخش کلید، پشتیبان گیری، چک وظیفه).
تحویل و افزایش (ماتریس تشدید، کانال های ارتباطی، زمان بندی).
مدیریت حادثه (تشخیص → ارتباطات → بازیابی).
انتشار/اتصالات ویژگی/انتقال ترافیک.
عملیات با ارائه دهندگان (PSP/KYC)، آشتی، گزارش ها.
مدیریت محتوا/محدودیت ها، جکپات/پاداش.
کار با داده ها (ETL، آرشیو، محرمانه بودن).
5) SLO فرآیند و KPI های کیفیت
ما SLO فرآیند (زمان تکمیل، سطح نقص، انطباق با چک لیست) را تعیین می کنیم و KPI را اندازه گیری می کنیم:- FPY (عملکرد پاس اول) - نسبت فرآیندهای که بدون دوباره کاری گذشت.
- RFT (Right First Time): درصد کارهای بدون خطا
- DPMO: نقص در هر میلیون فرصت (برای عملیات فله).
- SLO فرآیند: مدت زمان p95/p99،٪ از تکمیل موفقیت آمیز.
- میزان انطباق: انطباق با SOP ها/چک لیست های اجباری.
- Change Failure Rate: سهم rollback/incident releases.
- فرآیند MTTD/MTTR تشخیص خطا/بازیابی.
- نمره کیفیت تحویل: کیفیت تحویل (کامل بودن، به موقع بودن).
6) استانداردها و چک لیست ها (QA)
الگوی فهرست تغییر) مثال (:- بررسی سلامت داشبورد کلیدی (API p99، تاخیر، اتصالات DB).
- وضعیت ارائه دهنده (PSP/KYC/استودیو)، سهمیه و محدودیت.
- صف حادثه و باز پس از مرگ.
- برنامه انتشار/phicheflag برای فاصله تغییر.
- کانال های ارتباطی بیش از حد و در دسترس بودن تشدید.
- پشتیبان گیری/کلید/اسرار - کنترل برنامه ریزی شده.
- تحویل از تغییر قبلی (مصنوعات، خطرات، مشاهدات).
- تمام آزمایشات/خطوط/ایمنی سبز.
- قراردادهای CDC/ابزارهای خارجی ارسال شده است.
- طرح برگشت و phicheflags ؛ قناري آماده است.
- Runbook فعلی، همراه تایید شده، پنجره های ارائه دهنده در نظر گرفته شده است.
- حاشیه نویسی انتشار در داشبورد گنجانده شده است.
7) SPC و کارت های کنترل
ما از کارت های کنترل (X-bar/R، p-chart) برای گردش کار پایدار استفاده می کنیم:- آنچه ما نظارت می کنیم: مدت زمان عملیات، درصد نقص، زمان واکنش به هشدارها، زمان تحویل.
- قوانین: 1 امتیاز خارج از محدوده، 7 امتیاز متوالی با رشد/سقوط، 8 امتیاز در یک طرف به طور متوسط - یک سیگنال از تغییر در روند.
- اقدامات: برای سیگنال های SPC → RCA کوتاه و اقدامات اصلاحی (تصحیح SOP، آموزش، اتوماسیون).
8) نمونه برداری و حسابرسی (QC)
طرح نمونه برداری: فرآیندهای بحرانی - چک روزانه نقطه ؛ متوسط - هفتگی ؛ پایین - توسط ماشه.
معیارهای حسابرسی: کامل بودن چک لیست ها، صحت اجرا، صحت ارتباطات، انطباق با SLO، انطباق با ایمنی.
نمره دهی حسابرسی: 0-100 با وزن با انتقاد ؛ نتایج - به داشبورد کیفیت کلی.
9) کیفیت تحویل و تغییر
بسته تحویل: وضعیت کوتاه، خطرات، «روند مشاهده شده»، فعالیت های ناتمام، SLO در هر فاصله.
ارتباطات: یک فرمت واحد برای به روز رسانی (قالب)، SLA برای پاسخ به یک کانال حادثه، جعبه زمان برای تصمیم گیری.
شیفت سایه: اپراتورهای جدید در حال انجام وظیفه «در سایه» هستند، سپس با توجه به چک لیست صدور گواهینامه به شیفت مستقل حرکت می کنند.
10) کیفیت مدیریت حوادث
تعریف انجام شده: حادثه تنها پس از بازگرداندن SLO، انتشار به روز رسانی برای کسب و کار/پشتیبانی و ایجاد وظایف برای رفع بسته است.
پس از مرگ بدون اتهام: حقایق، وقایع، «آنچه که دفعه بعد متفاوت خواهد بود».
موارد عملی SLA: مهلت و صاحبان ؛ آشتی وضعیت هفتگی
معیارها:٪ از حوادث بدون رگرسیون، زمان متوسط برای اولین به روز رسانی، کامل بودن جدول زمانی.
11) اتوماسیون کنترل کیفیت
چک کننده های خودکار: ربات ها پر کردن چک لیست ها، حضور حاشیه نویسی انتشار، صحت مسیرهای Alertmanager را بررسی می کنند.
سیاست ها/قوانین: دروازه های اجباری در CI/CD، اعتبار پیکربندی (JSON/YAML)، اسکنرهای مخفی.
استخراج فرآیند: تجزیه و تحلیل سیاهههای مربوط به پیدا کردن تنگناها و انحرافات از مسیر «مرجع».
یادآوری خودکار: موارد پس از مرگ منقضی شده، موارد عمل نشده، موارد SOP از دست رفته.
12) معیارها و داشبورد (حداقل مجموعه)
بررسی کیفیت عملیات: FPY، RFT، DPMO، روند SLO، تغییر نرخ شکست، آیتم های عمل باز.
Shifts Board: چک لیست، نمره کیفیت Handoff، زمان پاسخ هشدار، نظارت بر پوشش.
کیفیت حوادث: MTTD/MTTR، اولین به روز رسانی مشتری، کامل بودن RCA، رگرسیون.
کیفیت انتشار: درصد قناری ها با تخریب، چرخش، میانگین مدت زمان به روز رسانی ذینفعان.
انطباق و امنیت: اجرای روش های اجباری (پشتیبان گیری، چرخش کلید، دسترسی)، نقض و مهلت برای حذف.
13) هشدار کیفیت (ایده ها)
ALERT ShiftChecklistMissed
IF operations_shift_checklist_completed == 0 FOR 15m
LABELS {severity="warning", team="ops"}
ALERT HandoffQualityLow
IF handoff_quality_score < 80 FOR 1h
LABELS {severity="warning", team="ops"}
ALERT IncidentUpdatesSLA
IF incident_first_update_minutes > 10
LABELS {severity="critical", team="incident"}
ALERT ChangeFailureRateSpike
IF rate(release_rollbacks_total[7d]) > 1. 5 baseline_28d
LABELS {severity="warning", team="platform"}
14) روش بهبود (حلقه PDCA)
1. طرح: معیارها/اهداف را انتخاب کنید، تنگناها را بر اساس SPC/داده های حسابرسی شناسایی کنید.
2. آیا: تغییر خلبان (SOP، آموزش، اتوماسیون) در یک منطقه محدود است.
3. بررسی: مقایسه معیارهای (FPY/RFT/SLO/حوادث) قبل/بعد.
4. عمل: مقیاس موفق، رول به عقب ناموفق ؛ استانداردهای به روز رسانی
15) نقش ها و مسئولیت ها
صاحب فرآیند: SLO، استانداردها، داشبورد، پیشرفت ها.
اپراتورها: اجرا، چک لیست، ارتباطات حادثه.
SRE/Platform: اتوماسیون، نظارت، مسیرهای Alertmanager.
عملیات QA: ممیزی، نمونه برداری، چک لیست، آموزش.
مدیر کیفیت: هماهنگی PDCA، اولویت بندی بهبود.
16) ضد الگوهای
«بیایید بعدا بررسی کنیم» - عدم وجود QA، وابستگی تنها به QC پس از واقعیت.
چک لیست به خاطر یک تیک (بدون عواقب برای حذفیات).
هیچ استاندارد واحدی برای تحویل وجود ندارد - از دست دادن زمینه و تکرار خطاها.
اندازه گیری «همه در یک ردیف» بدون هدف → معیارها بدون اقدامات.
Postmortems بدون آیتم های عمل و مهلت → رگرسیون ثابت است.
بررسی های دستی از آنچه می تواند به صورت خودکار انجام شود.
17) چک لیست پیاده سازی
- نقشه فرآیند، صاحبان، ورودی/خروجی، SLO.
- SOP ها و چک لیست ها (تغییر، انتشار، حوادث، ارائه دهندگان).
- دروازه های کیفیت در CI/CD و ابزار عملیاتی.
- داشبورد SPC و کارت های کنترل.
- طرح نمونه برداری و ممیزی های منظم.
- قالب تحویل و آموزش تغییر سایه.
- مقررات پس از مرگ و موارد اقدام ردیابی.
- خودکار چک و یادآوری.
- اهداف بهبود سه ماهه (FPY/RFT/SLO/MTTR).
18) قالب (قطعات)
قالب تحویل (خلاصه):
Handoff: <date/time>
SLO summary: <p95 API, errors, incidents>
Releases/features: <what's at work, risks, windows>
Providers: <statuses, quotas, restrictions>
Risks/observations: <trends, potential bottlenecks>
Action items before <time>: <list, owners>
Contacts: <on-call, escalations>
قالب پس از مرگ (خلاصه):
Impact: <who was affected, metrics>
Timeline: <UTC + timezone, key events>
Root cause: <5 Why / fishbone>
Corrective actions: <what we change now>
Preventive actions: <what we will change in the process/tools>
Owners & Due dates: <who and when>
Signals to watch: <metrics and alerts>
19) شروع سریع (30 روز)
هفته 1: توصیف 3-5 فرآیندهای بحرانی، SLOs، صاحبان ؛ شروع تغییر اساسی/چک لیست انتشار.
هفته 2: شامل داشبورد کیفیت و 3 هشدار (ShiftChecklist، Handoff، IncidentSLA).
هفته 3: اجرای نمونه ها/ممیزی ها و SPC ها برای معیارهای 1-2.
هفته 4: انجام 2 روش postmortems و تصویب طرح PDCA برای سه ماهه.
20) سوالات متداول
س: چگونه به سرعت اثر را ببینید ؟
A: شروع با تحویل و IncidentSLA: این باعث کاهش فوری MTTR و افزایش قابلیت پیش بینی می شود.
س: آیا SPC مورد نیاز است اگر در حال حاضر هشدار وجود دارد ؟
پاسخ: بله. هشدار گرفتن «آتش سوزی»، SPC - تغییرات روند قبل از آتش سوزی.
س: چه چیزی برای اولین بار به صورت خودکار ؟
A: دروازه های انتشار، چک کردن چک لیست های تغییر، حاشیه نویسی انتشار و یادآوری در مورد موارد عمل.