نظارت بر مدل

1) چرا

هدف این است که حفظ کیفیت و ایمنی راه حل های مدل در فروش در حالی که مطابق با SLA/SLO، RG/AML/قانونی و بودجه. نظارت باید تجزیه و تحلیل اولیه (داده ها، کالیبراسیون، تاخیر، هزینه) را شناسایی کند، هزینه های مورد انتظار خطاها را به حداقل برساند و تکرارپذیری/حسابرسی را تضمین کند.

2) مناطق نظارت (نقشه)

1. در دسترس بودن و عملکرد: تاخیر p95/p99، نرخ خطا، RPS، autoscale.
2. کیفیت پیش بینی: PR-AUC/KS (در برچسب های آنلاین)، کالیبراسیون (ECE)، انتظار می رود هزینه @ آستانه.
3. رانش و ثبات: PSI/KL توسط ویژگی ها و سرعت، تغییر توزیع/دسته بندی.
4. پوشش و کامل بودن: سهم درخواست های با موفقیت انجام شده، سهم ویژگی های «خالی»، انبارهای نرخ ضربه.
5. Slice/Fairness: معیارهای بازار/ارائه دهنده/دستگاه/سن حساب.
6. گاردریل (RG/AML): نقض سیاست، فرکانس مداخله، مثبت کاذب/منفی.
7. هزینه: هزینه/درخواست، هزینه/ویژگی، GPU/CPU-clock، فایل های کوچک/IO (برای دسته/نزدیک RT).
8. داده ها/قراردادها: طرح ویژگی، نسخه ها، هم ارزی آنلاین/آفلاین.

3) SLI/SLO (نشانه هایی برای iGaming)

Latency p95: شخصی سازی ≤ 150 میلی ثانیه، هشدار RG/AML ≤ 5 با e2e.
دسترسی: ≥ 99 9%.
نرخ خطا 5xx: ≤ 0. 5٪ در 5 دقیقه پنجره.
پوشش: ≥ 99٪ از درخواست ها سرعت و راه حل معتبر دریافت کردند.
تازگی برچسب ها برای ارزیابی آنلاین: D + 1 (روزانه)، برای پروکسی های سریع - ≤ 1 ساعت.
رانندگی PSI: ویژگی/نرخ <0. 2 (هشدار с 0. 1).
کالیبراسیون ECE: ≤ 0. 05.
Expected-cost_live: نه بالاتر از مدل پایه + X٪ (هدف X توسط کسب و کار انتخاب شده است).

4) سیگنال ها و فرمول ها

4. 1 رانش

PSI: خلاصه توسط بن تفاوت در توزیع (قطار در مقابل PROD).
KL-واگرایی: حساس به «نازک» دم ؛ مانیتور برای ویژگی های کلیدی/سرعت.
KS برای نرخ (اگر برچسب ها وجود داشته باشد): تفاوت CDF برای مثبت/منفی.

4. 2 کالیبراسیون

ECE (خطای کالیبراسیون مورد انتظار):	پیش بینی-prob − تجربی نرخ	روي سبد.
منحنی قابلیت اطمینان: نمودار دقت در مقابل احتمال.

4. 3 هزینه مورد انتظار

به حداقل رساندن (C = c_{fp}\cdot FPR + c_{fn}\cdot FNR) در آستانه کار ؛ شمارش آنلاین در یک پنجره کشویی با برچسب های تاخیر.

5) منابع برچسب

برچسب های آنلاین (پروکسی سریع): رویداد سپرده 7 روز, کلیک کنید/تبدیل, تکمیل مورد RG.
برچسب های تاخیر: بازپرداخت/تقلب (45-90 روز)، ریزش طولانی مدت/LTV.
قوانین: نگه داشتن به عنوان از زمان ؛ از وقایع «از آینده» استفاده نکنید.

6) داشبورد (حداقل ترکیب)

1. عامل: RPS، p50/p95/p99 تاخیر، 4xx/5xx، اشباع، autoscaling.
2. کیفیت: نمره توزیع، PR-AUC (در برچسب پروکسی)، ECE، انتظار می رود هزینه، KS.
3. رانش: PSI/KL توسط ویژگی های بالا، دسته های جدید، نرخ از دست رفته، تاخیر ویژگی fetch.
4. Slice/Fairness: PR-AUC/ECE/هزینه مورد انتظار توسط بازار/ارائه دهنده/دستگاه.
5. Guardrails: نقض RG/AML، مداخلات/درخواست 1k، نرخ توقف کاذب.
6. هزینه: هزینه/درخواست، زمان CPU/GPU، نرخ ضربه کش، جستجوی خارجی.

7) هشدار (به عنوان مثال قوانین)

HighP95Latency: p95> 150 ms (5 دقیقه) → صفحه SRE/MLOps.
خطا در پشت سر هم: 5xx> 0. 5% (5 دقیقه) → بازگشت اسکریپت در دسترس است.
PSI_Drift: PSI (amount_base)> 0. 2 (15 دقیقه) → گرم کردن مجدد.
ECE_Bad: ECE> 0 07 (30 دقیقه) → بازسازی کالیبراسیون/آستانه.
ExpectedCost_Up: + X٪ به معیار (1 روز) → در نظر گرفتن بازگشت/اضافه بار.
Slice_Failure: PR-AUC در بازار R کاهش یافت> Y٪ (روز 1) → صاحب دامنه بلیط.
Guardrails_Breach: سهم پیشنهادات تهاجمی> cap → kill-switch فوری.

8) ورود و ردیابی

سیاهههای مربوط به پرس و جو (حداقل): 'request _ id', 'trace _ id', 'model _ id/version', 'feature _ version', 'feature _ stats' (missing%, extreme), 'score', 'decision', 'threshold', 'policy _ id', 'guard _ mask', 'latency _ ms', 'cost _ estimate', (اختیاری) توضیحات (SHAP top-K)

OTel - трейсы: спаны 'feature _ fetch' → 'preprocess' → 'score' → 'postprocess' → 'guardrail'.
PII: فقط نام مستعار/نشانه ؛ پوشش سیاست، اقامت کلیدی.

9) ارزیابی کیفیت آنلاین

پنجره های کشویی برای PR-AUC/KS توسط برچسب های سریع (ساعت/روز).
برچسب های حفظ شده: گزارش های گذشته نگر D + 7/D + 30/D + 90، تنظیمات هزینه مورد انتظار.
کالیبراسیون: ارزیابی مجدد ایزوتونیک/پلات در D + 1، مصنوعات خودکار تازه کردن.

10) آستانه تصمیم گیری و سیاست

ما آستانه را به عنوان یک پیکربندی در دفتر نگه می داریم ؛ آنلاین ما در نظر انتظار می رود هزینه و تنظیم در محدوده مجاز (نرخ محدود).
کلاه ایمنی: محدودیت های بالا/پایین اقدامات ؛ لغو دستی برای انطباق.
آستانه Backtesting: شبیه سازی شبانه در داده های دیروز.

11) برش و انصاف

بخش ها: بازار/صلاحیت، ارائه دهنده، دستگاه/ASN، سن حساب، قدرت سپرده.
معیارها: PR-AUC، ECE، هزینه مورد انتظار، تفاوت FPR/TPR (شانس برابر)، تأثیر متفاوت.
اقدامات: کالیبراسیون/آستانه برش، آموزش مجدد با مقیاس، تجدید نظر در ویژگی.

12) هم ارزی آنلاین/آفلاین

ویژگی آزمون برابری: MAE/MAPE در نمونه کنترل ؛ هشدار هنگام واگرایی> آستانه.
نسخه بندی: 'feature _ spec _ version', 'logic _ version'; بایگانی کرم.
قراردادهای مدار: شکستن تغییر بدون ورود دوگانه (v1/v2) مجاز نیست.

13) گارد محافظ (RG/AML)

اقدامات قبل/بعد از فیلتر، محدودیت فرکانس، خنک کننده، لیست ممنوعیت ها.

Логи 'policy _ id/propensity/mask/decision'; تخلفات را گزارش دهید

معیارهای زمان مصاحبه و نرخ مداخله غلط

14) حوادث و runbook

سناریوها و مراحل:

1. Latency↑/5xx↑: check external feature providers → enable cache/timeouts → scale rollback در صورت لزوم.

2. PSI/ECE/هزینه مورد انتظار خراب شد: مسدود کردن ترافیک (canary↓)، فعال کردن آستانه عقب/مدل، اجرای مجدد.

3. شکست برش: آستانه برش خاص موقت، بلیط به صاحب دامنه.

4. نقض Guardrails: سوئیچ کشتن، حسابرسی مورد، پس از دریا.

15) هزینه و عملکرد

پروفایل: کسری از زمان در ویژگی واکشی در مقابل نمره در مقابل IO.
استراتژی های کش: TTL/اخراج، ویژگی های داغ در RAM، آنهایی که سرد - تنبل.
مدل quantization/بهینه سازی: FP16/INT8 در حالی که حفظ کیفیت.
بازپرداخت: هزینه/درخواست، هزینه/ویژگی توسط تیم/بازار.

16) نمونه ها (قطعات)

آستانه هزینه مورد انتظار (شبه کد):

python thr_grid = np. linspace(0. 01, 0. 99, 99)
costs = [expected_cost(y_true, y_prob >= t, c_fp, c_fn) for t in thr_grid]
thr_best = thr_grid[np. argmin(costs)]

پرومتئوس (ایده های متریک):

text model_inference_latency_ms_bucket feature_fetch_latency_ms_bucket model_request_total{code}
model_score_distribution_bucket psi_feature_amount_base ece_calibration expected_cost_live slice_pr_auc{slice="EEA_mobile"}

هشدار (ایده):

text
ALERT DriftDetected
IF psi_feature_amount_base > 0. 2 FOR 15m

17) فرآیندها و RACI

R (مسئول): MLOps (مشاهده/هشدار/رجیستری)، علوم داده (معیارهای کیفیت/کالیبراسیون/آستانه)، مهندسی داده (ویژگی ها/قراردادها/هم ارزی).
A (پاسخگو): رئیس داده/CDO.
C (مشورت): انطباق/DPO (PII/RG/AML/DSAR)، امنیت (KMS/حسابرسی)، SRE (SLO/حوادث)، امور مالی (هزینه).
I (مطلع): محصول/بازاریابی/عملیات/پشتیبانی.

18) نقشه راه

MVP (2-4 هفته):

1. SLI/SLO اساسی (تاخیر/5xx/پوشش) + داشبورد.

2. PSI برای 10 ویژگی برتر و توزیع امتیاز ؛ ECE و هزینه مورد انتظار در برچسب های پروکسی.

3. سیاهههای تصمیم + مسیرهای OTel ؛ آزمون معادل آنلاین/آفلاین.

4. هشدارها HighP95Latency/PSI_Drift/ECE_Bad + runbook "و.

مرحله 2 (4-8 هفته):

پانل های برش/عدالت، معیارهای عقب نشینی شبانه در برچسب های تاخیر.
خودکار کالیبراسیون و شبیه ساز آستانه.
هزینه داشبورد و سهمیه/محدودیت در ویژگی/تکرار.

مرحله 3 (8-12 هفته):

رانش آزاد/مجدد خودکار با کنترل قناری.
بایگانی WORM از گزارش های کیفیت و مصنوعات.
تست های نظارت بر هرج و مرج و تمرینات DR.

19) چک لیست تحویل

SLI/SLO توافق و نظارت در سایه/قناری ≥ 24 ساعت.
PSI/KL، ECE، انتظار می رود هزینه و PR-AUC در نظر گرفته آنلاین ؛ استانداردها و هشدارها مشخص شده است.
پانل های برش/عدالت فعال می شوند ؛ صاحبان بخش اختصاص داده شده است.
سیاهههای مربوط/مسیرهای پیاده روی کامل (تصمیم گیری، آستانه، ماسک)، PII ماسک، و اقامت ملاقات کرد.
آزمون هم ارزی آنلاین/آفلاین سبز ؛ نمودارهای برجسته تحت قرارداد.
Runbook "و یک کلیک برگشت تست شده ؛ گارد محافظ для را بکشید.
هزینه متناسب با بودجه ؛ کش/سهمیه/محدودیت فعال هستند.
آرشیو WORM از معیارها/مصنوعات و گزارش های کیفیت ذخیره می شود.

20) ضد الگوهای و خطرات

عدم وجود برچسب های آنلاین و ارزیابی گذشته نگر.
ROC-AUC تنها نظارت بدون انتظار هزینه و کالیبراسیون.
نادیده گرفتن شکست های پنهان در مناطق/دستگاه ها.
هیچ ویژگی معادل آنلاین/آفلاین → «واقعیت دوگانه» وجود ندارد.
صفر guardrails: پیشنهادات سمی، نقض RG/AML.
بدون بازگشت/برنامه DR، هیچ آرشیو WORM.

21) خط پایین

نظارت بر مدل یک هشدار زودهنگام و سیستم مدیریت ریسک/هزینه است و نه یک بار در هفته. "SLO را وارد کنید، اندازه گیری رانش/کالیبراسیون/هزینه مورد انتظار، برش آهنگ و guardrails، نگه دکمه های برگشت/کشتن سوئیچ، به طور خودکار گزارش ها و retrains. بنابراین مدل ها مفید، اخلاقی و سازگار با هر گونه آشفتگی داده ها و ترافیک باقی خواهند ماند.

نظارت بر مدل

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم