نظارت بر مدل
1) چرا
هدف این است که حفظ کیفیت و ایمنی راه حل های مدل در فروش در حالی که مطابق با SLA/SLO، RG/AML/قانونی و بودجه. نظارت باید تجزیه و تحلیل اولیه (داده ها، کالیبراسیون، تاخیر، هزینه) را شناسایی کند، هزینه های مورد انتظار خطاها را به حداقل برساند و تکرارپذیری/حسابرسی را تضمین کند.
2) مناطق نظارت (نقشه)
1. در دسترس بودن و عملکرد: تاخیر p95/p99، نرخ خطا، RPS، autoscale.
2. کیفیت پیش بینی: PR-AUC/KS (در برچسب های آنلاین)، کالیبراسیون (ECE)، انتظار می رود هزینه @ آستانه.
3. رانش و ثبات: PSI/KL توسط ویژگی ها و سرعت، تغییر توزیع/دسته بندی.
4. پوشش و کامل بودن: سهم درخواست های با موفقیت انجام شده، سهم ویژگی های «خالی»، انبارهای نرخ ضربه.
5. Slice/Fairness: معیارهای بازار/ارائه دهنده/دستگاه/سن حساب.
6. گاردریل (RG/AML): نقض سیاست، فرکانس مداخله، مثبت کاذب/منفی.
7. هزینه: هزینه/درخواست، هزینه/ویژگی، GPU/CPU-clock، فایل های کوچک/IO (برای دسته/نزدیک RT).
8. داده ها/قراردادها: طرح ویژگی، نسخه ها، هم ارزی آنلاین/آفلاین.
3) SLI/SLO (نشانه هایی برای iGaming)
Latency p95: شخصی سازی ≤ 150 میلی ثانیه، هشدار RG/AML ≤ 5 با e2e.
دسترسی: ≥ 99 9%.
نرخ خطا 5xx: ≤ 0. 5٪ در 5 دقیقه پنجره.
پوشش: ≥ 99٪ از درخواست ها سرعت و راه حل معتبر دریافت کردند.
تازگی برچسب ها برای ارزیابی آنلاین: D + 1 (روزانه)، برای پروکسی های سریع - ≤ 1 ساعت.
رانندگی PSI: ویژگی/نرخ <0. 2 (هشدار с 0. 1).
کالیبراسیون ECE: ≤ 0. 05.
Expected-cost_live: نه بالاتر از مدل پایه + X٪ (هدف X توسط کسب و کار انتخاب شده است).
4) سیگنال ها و فرمول ها
4. 1 رانش
PSI: خلاصه توسط بن تفاوت در توزیع (قطار در مقابل PROD).
KL-واگرایی: حساس به «نازک» دم ؛ مانیتور برای ویژگی های کلیدی/سرعت.
KS برای نرخ (اگر برچسب ها وجود داشته باشد): تفاوت CDF برای مثبت/منفی.
4. 2 کالیبراسیون
4. 3 هزینه مورد انتظار
به حداقل رساندن (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) در آستانه کار ؛ شمارش آنلاین در یک پنجره کشویی با برچسب های تاخیر.
5) منابع برچسب
برچسب های آنلاین (پروکسی سریع): رویداد سپرده 7 روز, کلیک کنید/تبدیل, تکمیل مورد RG.
برچسب های تاخیر: بازپرداخت/تقلب (45-90 روز)، ریزش طولانی مدت/LTV.
قوانین: نگه داشتن به عنوان از زمان ؛ از وقایع «از آینده» استفاده نکنید.
6) داشبورد (حداقل ترکیب)
1. عامل: RPS، p50/p95/p99 تاخیر، 4xx/5xx، اشباع، autoscaling.
2. کیفیت: نمره توزیع، PR-AUC (در برچسب پروکسی)، ECE، انتظار می رود هزینه، KS.
3. رانش: PSI/KL توسط ویژگی های بالا، دسته های جدید، نرخ از دست رفته، تاخیر ویژگی fetch.
4. Slice/Fairness: PR-AUC/ECE/هزینه مورد انتظار توسط بازار/ارائه دهنده/دستگاه.
5. Guardrails: نقض RG/AML، مداخلات/درخواست 1k، نرخ توقف کاذب.
6. هزینه: هزینه/درخواست، زمان CPU/GPU، نرخ ضربه کش، جستجوی خارجی.
7) هشدار (به عنوان مثال قوانین)
HighP95Latency: p95> 150 ms (5 دقیقه) → صفحه SRE/MLOps.
خطا در پشت سر هم: 5xx> 0. 5% (5 دقیقه) → بازگشت اسکریپت در دسترس است.
PSI_Drift: PSI (amount_base)> 0. 2 (15 دقیقه) → گرم کردن مجدد.
ECE_Bad: ECE> 0 07 (30 دقیقه) → بازسازی کالیبراسیون/آستانه.
ExpectedCost_Up: + X٪ به معیار (1 روز) → در نظر گرفتن بازگشت/اضافه بار.
Slice_Failure: PR-AUC در بازار R کاهش یافت> Y٪ (روز 1) → صاحب دامنه بلیط.
Guardrails_Breach: سهم پیشنهادات تهاجمی> cap → kill-switch فوری.
8) ورود و ردیابی
سیاهههای مربوط به پرس و جو (حداقل): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extreme), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (اختیاری) توضیحات (SHAP top-K)
OTel - трейсы: спаны 'feature _ fetch' → 'preprocess' → 'score' → 'postprocess' → 'guardrail'.
PII: فقط نام مستعار/نشانه ؛ پوشش سیاست، اقامت کلیدی.
9) ارزیابی کیفیت آنلاین
پنجره های کشویی برای PR-AUC/KS توسط برچسب های سریع (ساعت/روز).
برچسب های حفظ شده: گزارش های گذشته نگر D + 7/D + 30/D + 90، تنظیمات هزینه مورد انتظار.
کالیبراسیون: ارزیابی مجدد ایزوتونیک/پلات در D + 1، مصنوعات خودکار تازه کردن.
10) آستانه تصمیم گیری و سیاست
ما آستانه را به عنوان یک پیکربندی در دفتر نگه می داریم ؛ آنلاین ما در نظر انتظار می رود هزینه و تنظیم در محدوده مجاز (نرخ محدود).
کلاه ایمنی: محدودیت های بالا/پایین اقدامات ؛ لغو دستی برای انطباق.
آستانه Backtesting: شبیه سازی شبانه در داده های دیروز.
11) برش و انصاف
بخش ها: بازار/صلاحیت، ارائه دهنده، دستگاه/ASN، سن حساب، قدرت سپرده.
معیارها: PR-AUC، ECE، هزینه مورد انتظار، تفاوت FPR/TPR (شانس برابر)، تأثیر متفاوت.
اقدامات: کالیبراسیون/آستانه برش، آموزش مجدد با مقیاس، تجدید نظر در ویژگی.
12) هم ارزی آنلاین/آفلاین
ویژگی آزمون برابری: MAE/MAPE در نمونه کنترل ؛ هشدار هنگام واگرایی> آستانه.
نسخه بندی: 'feature _ spec _ version', 'logic _ version'; بایگانی کرم.
قراردادهای مدار: شکستن تغییر بدون ورود دوگانه (v1/v2) مجاز نیست.
13) گارد محافظ (RG/AML)
Логи 'policy _ id/propensity/mask/decision'; تخلفات را گزارش دهید
اقدامات قبل/بعد از فیلتر، محدودیت فرکانس، خنک کننده، لیست ممنوعیت ها.
معیارهای زمان مصاحبه و نرخ مداخله غلط
14) حوادث و runbook
سناریوها و مراحل:1. Latency↑/5xx↑: check external feature providers → enable cache/timeouts → scale rollback در صورت لزوم.
2. PSI/ECE/هزینه مورد انتظار خراب شد: مسدود کردن ترافیک (canary↓)، فعال کردن آستانه عقب/مدل، اجرای مجدد.
3. شکست برش: آستانه برش خاص موقت، بلیط به صاحب دامنه.
4. نقض Guardrails: سوئیچ کشتن، حسابرسی مورد، پس از دریا.
15) هزینه و عملکرد
پروفایل: کسری از زمان در ویژگی واکشی در مقابل نمره در مقابل IO.
استراتژی های کش: TTL/اخراج، ویژگی های داغ در RAM، آنهایی که سرد - تنبل.
مدل quantization/بهینه سازی: FP16/INT8 در حالی که حفظ کیفیت.
بازپرداخت: هزینه/درخواست، هزینه/ویژگی توسط تیم/بازار.
16) نمونه ها (قطعات)
آستانه هزینه مورد انتظار (شبه کد):python thr_grid = np.linspace(0.01, 0.99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np.argmin(costs)]
پرومتئوس (ایده های متریک):
text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}
هشدار (ایده):
text
ALERT DriftDetected
IF psi_feature_amount_base > 0.2 FOR 15m
17) فرآیندها و RACI
R (مسئول): MLOps (مشاهده/هشدار/رجیستری)، علوم داده (معیارهای کیفیت/کالیبراسیون/آستانه)، مهندسی داده (ویژگی ها/قراردادها/هم ارزی).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (PII/RG/AML/DSAR)، امنیت (KMS/حسابرسی)، SRE (SLO/حوادث)، امور مالی (هزینه).
I (مطلع): محصول/بازاریابی/عملیات/پشتیبانی.
18) نقشه راه
MVP (2-4 هفته):1. SLI/SLO اساسی (تاخیر/5xx/پوشش) + داشبورد.
2. PSI برای 10 ویژگی برتر و توزیع امتیاز ؛ ECE و هزینه مورد انتظار در برچسب های پروکسی.
3. سیاهههای تصمیم + مسیرهای OTel ؛ آزمون معادل آنلاین/آفلاین.
4. هشدارها HighP95Latency/PSI_Drift/ECE_Bad + runbook "و.
مرحله 2 (4-8 هفته):- پانل های برش/عدالت، معیارهای عقب نشینی شبانه در برچسب های تاخیر.
- خودکار کالیبراسیون و شبیه ساز آستانه.
- هزینه داشبورد و سهمیه/محدودیت در ویژگی/تکرار.
- رانش آزاد/مجدد خودکار با کنترل قناری.
- بایگانی WORM از گزارش های کیفیت و مصنوعات.
- تست های نظارت بر هرج و مرج و تمرینات DR.
19) چک لیست تحویل
- SLI/SLO توافق و نظارت در سایه/قناری ≥ 24 ساعت.
- PSI/KL، ECE، انتظار می رود هزینه و PR-AUC در نظر گرفته آنلاین ؛ استانداردها و هشدارها مشخص شده است.
- پانل های برش/عدالت فعال می شوند ؛ صاحبان بخش اختصاص داده شده است.
- سیاهههای مربوط/مسیرهای پیاده روی کامل (تصمیم گیری، آستانه، ماسک)، PII ماسک، و اقامت ملاقات کرد.
- آزمون هم ارزی آنلاین/آفلاین سبز ؛ نمودارهای برجسته تحت قرارداد.
- Runbook "و یک کلیک برگشت تست شده ؛ گارد محافظ для را بکشید.
- هزینه متناسب با بودجه ؛ کش/سهمیه/محدودیت فعال هستند.
- آرشیو WORM از معیارها/مصنوعات و گزارش های کیفیت ذخیره می شود.
20) ضد الگوهای و خطرات
عدم وجود برچسب های آنلاین و ارزیابی گذشته نگر.
ROC-AUC تنها نظارت بدون انتظار هزینه و کالیبراسیون.
نادیده گرفتن شکست های پنهان در مناطق/دستگاه ها.
هیچ ویژگی معادل آنلاین/آفلاین → «واقعیت دوگانه» وجود ندارد.
صفر guardrails: پیشنهادات سمی، نقض RG/AML.
بدون بازگشت/برنامه DR، هیچ آرشیو WORM.
21) خط پایین
نظارت بر مدل یک هشدار زودهنگام و سیستم مدیریت ریسک/هزینه است و نه یک بار در هفته. "SLO را وارد کنید، اندازه گیری رانش/کالیبراسیون/هزینه مورد انتظار، برش آهنگ و guardrails، نگه دکمه های برگشت/کشتن سوئیچ، به طور خودکار گزارش ها و retrains. بنابراین مدل ها مفید، اخلاقی و سازگار با هر گونه آشفتگی داده ها و ترافیک باقی خواهند ماند.