GH GambleHub

एआई पाइपलाइन और प्रशिक्षण स्वचालन

1) उद्देश्य और सिद्धांत

उद्देश्य: डेटा को चालू करने के लिए विश्वसनीय और पुन: पेश किया जाता है → न्यूनतम समय-से-मूल्य और जोखिम/लागत के नियंत्रण के साथ → मॉडल → निर्णय → प्रतिक्रिया।

सिद्धांत:
  • पाइपलाइन-ए-कोड: सब कुछ (डीएजी, कॉन्फ़िग, परीक्षण, राजनेता) - गिट में, पीआर और समीक्षा के माध्यम से।
  • निर्धारणवाद: डेटा/कोड/कंटेनर/निर्भरता के निश्चित संस्करण।
  • चिंताओं का पृथक्करण: DataOps, Ops, TreneOps, DeployOps, MoniterOps।
  • गार्डेड ऑटोमेशन: हम स्वचालित करते हैं, लेकिन गुणवत्ता, सुरक्षा और अनुपालन के "द्वार" के साथ।
  • डिजाइन द्वारा गोपनीयता: पीआईआई न्यूनतम, निवास, ऑडिट।

2) कन्वेयर परतें और वास्तुकला

1. इनगेस्ट एंड ब्रॉन्ज: घटनाओं/बैचों का विश्वसनीय स्वागत (सीडीसी, टायर, रिट्रे, डीएलक्यू)।

2. रजत (सामान्यीकरण/संवर्धन): एससीडी, मुद्राएं/समय, समाशोधन, डीडअप।

3. गोल्ड (स्टोरफ्रंट): प्रशिक्षण/रिपोर्टिंग के लिए विषय टेबल और डेटासेट।

4. फ़ीचर स्टोर: ऑनलाइन/ऑफ़लाइन सुविधाओं, संस्करणों और एसएलओ के लिए समान सूत्र।

5. ट्रेन और मान्यता: नमूना तैयार करना, प्रशिक्षण, अंशांकन, मूल्यांकन/जांच द्वार।

6. रजिस्ट्री और संवर्धन: मॉडल का पंजीकरण, गुणवत्ता कार्ड, संवर्धन नीति।

7. सेवारत: REST/gRPC/बैच, सुविधा कैश, सुविधा झंडे, कैनरी/छाया।

8. मॉनिटर और फीडबैक: SLI/SLO, बहाव/अंशांकन, ऑनलाइन लेबल, ऑटो-रिट्रेन।


3) ऑर्केस्ट्रेशन: डीएजी पैटर्न

दैनिक सीटी (डी + 1): रात्रि डेटा चक्र → सुविधाएँ → प्रशिक्षण → सत्यापन → रजिस्ट्री उम्मीदवार।

इवेंट-ड्रिवेन रिट्रेन: पीएसआई/ईसीई/अपेक्षित-लागत बहाव या सर्किट रिलीज के लिए ट्रिगर।

रोलिंग विंडोज: डेटा की "स्लाइडिंग विंडो" के साथ साप्ताहिक/मासिक रिट्रेनिंग।

ब्लू/ग्रीन आर्टिफैक्ट्स: सभी कलाकृतियां अपरिवर्तनीय (हैश), समानांतर संस्करण हैं।

डुअल-राइट v1/v2: डबल राइट और समतुल्यता तुलना के माध्यम से स्कीमा/फीचर माइग्रेशन।

एयरफ्लो उदाहरण (थंबनेल):
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) डेटासेट और नमूने

फ़ीचर/लेबल के लिए प्वाइंट-इन-टाइम जुड़ें और "कोई भविष्य नहीं"।

लीक के लिए बाजारों/किरायेदारों/समय, होल्डआउट और "अंतर" द्वारा स्तरीकृत।

संस्करण: 'data _ version', 'logic _ version', 'asof _ date'; WORM स्नैपशॉट।


5) फीचर स्टोर और ऑनलाइन/ऑफ़लाइन समतुल्यता

सुविधाओं का एकीकृत विनिर्देशन (नाम, सूत्र, स्वामी, एसएलओ, परीक्षण)।

ऑनलाइन = ऑफ़ लाइन: सामान्य परिवर्तन कोड; समतुल्यता परीक्षण (MAE/MAPE)।

टीटीएल और कैश: विंडोज़ 10m/1h/1d; टाइमआउट/रिट्रीट; फोलबैक "last_known_good."

स्पेका फ़िसी (YAML):
yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}

6) प्रशिक्षण स्वचालन (सीटी) और गुणवत्ता गेट

सीटी चक्र: तैयारी → प्रशिक्षण → अंशांकन → मूल्यांकन → उम्मीदवार का पंजीकरण।

गेट्स (उदाहरण):
  • ऑफ-लाइन: PR-AUC बेंचमार्क ≥ − the; ECE ≤ 0। 05; अपेक्षित लागत सीमा ≤।
  • स्लाइस/निष्पक्षता: किसी भी स्लाइस में मैट्रिक्स में गिरावट ≤ Y%; असमान प्रभाव सामान्य है।
  • समतुल्यता विशेषता: लगभग।
  • लागत: समय/संसाधन - बजट।
कॉन्फ़िग गेट्स (YAML):
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5

7) मॉडल रजिस्टर और पदोन्नति

मॉडल कार्ड: डेटा, विंडोज, फीचर्स, ऑफ/ऑनलाइन मैट्रिक्स, अंशांकन, जोखिम, मालिक।

चरण: 'मंचन → उत्पादन → संग्रहीत'; केवल सिद्ध फाटकों के माध्यम से पदोन्नति।

रोलबैक नीति: नवीनतम उत्पादन संस्करणों का ≥N रखें; वन-क्लिक रोलबैक।


8) सीआई/सीडी/सीटी: कैसे कनेक्ट करें

सीआई (कोड/परीक्षण): इकाई/एकीकरण/अनुबंध परीक्षण, लिंटर्स, सुरक्षा स्कैन।

सीडी (सेवारत): Docker/K8s/Helm/feature झंडे, कैनरी/छाया/नीला-हरा।

सीटी (डेटा/प्रशिक्षण): अनुसूची/घटना ऑर्केस्ट्रेटर; कलाकृतियाँ - रजिस्ट्री।

प्रमोशन गेट्स: ग्रीन ऑनलाइन एसएलओ (कैनरी ≥ एक्स घंटे पर) के साथ उत्पादन में ऑटो-रिलीज।


9) बहु-किरायेदारी और निवास

किरायेदार/क्षेत्र: पृथक पाइपलाइन और एन्क्रिप्शन कुंजियाँ (EEA/UK/BR); बिना कारण के इंटरग्रिजनल शामिल होने पर प्रतिबंध।

राज: केएमएस/सीएमके, सीक्रेट मैनेजर; लॉग में टोकन आईडी।

DSAR/RTBF नीतियां: अनुमानित अनुमान और सुविधाओं और लॉग में चयनात्मक संपादन; मामलों के लिए कानूनी पकड़।


10) निगरानी प्रतिक्रिया - रिट्रेन

SLI/SLO: विलंबता p95/p99, 5xx, कवरेज, लागत/अनुरोध; बहाव पीएसआई/केएल, ईसीई, अपेक्षित लागत।

ऑनलाइन लेबल: प्रॉक्सी (घंटा/दिन) और देरी (D + + + 90)।

ऑटो-एक्शन: रिकैलिब्रेशन/थ्रेशोल्ड अपडेट → शैडो रिट्रेन → कैनरी → प्रमोशन।

रनबुक: गिरावट परिदृश्य (बहाव, अंशांकन, सुविधा कैश, प्रदाता)।


11) सुरक्षा, आरजी/एएमएल और समाधान नीति

गार्ड: प्री/पोस्ट-फ़िल्टर, कैप फ़्रीक्वेंसी, कूलडाउन, प्रतिबंध सूची।

नीति परिरक्षण - मॉडल → समाधान → नीति फ़िल्टर → कार्रवाई।

ऑडिट: 'मॉडल _ id/version', 'feature _ version', 'थ्रेशोल्ड', 'police _ id', कारण.

WORM संग्रह: रिलीज़, गुणवत्ता रिपोर्ट, परीक्षण/पदोन्नति लॉग।


12) लागत और प्रदर्शन

पथ प्रोफाइलिंग: सुविधाएँ (30-60%), निष्कर्ष (20-40%), आईओ/नेटवर्क।

लागत-डैशबोर्ड: लागत/अनुरोध, लागत/सुविधा, जीपीयू/सीपीयू-घड़ी, छोटी-फाइलें।

अनुकूलन: भारी ऑफ़ लाइन सुविधाओं, हॉट विंडो कैश, INT8/FP16, रीप्ले कोटा/बैकफिल का भौतिकीकरण।

चार्जबैक: हम टीम/बाजार द्वारा बजट वितरित करते हैं, "महंगी" सुविधाओं को नियंत्रित करते हैं।


13) उदाहरण (टुकड़े)

आर्गो वर्कफ़्लो:
yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
गेट स्क्रिप्ट (स्यूडोकोड):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
संवर्धन नीति (विचार):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) प्रक्रियाएं और आरएसीआई

आर (जिम्मेदार):
  • डेटा एनजी - इनजेस्ट/सिल्वर/गोल्ड, फीचर स्टोर, सीडीसी/बैकफिल;
  • डाटा विज्ञान - नमूने/प्रशिक्षण/अंशांकन/द्वार;
  • MLOps - orkestration/re /serving/nablyudayemest।
  • ए (जवाबदेह): डेटा के प्रमुख/सीडीओ।
  • सी (परामर्श): अनुपालन/डीपीओ (पीआईआई/आरजी/एएमएल/डीएसएआर), सुरक्षा (केएमएस/लेखा परीक्षा), एसआरई (एसएलओ/मूल्य), वित्त (बजट/आरओआई), उत्पाद।
  • मैं (सूचित): विपणन/संचालन/सहायता।

15) कार्यान्वयन रोडमैप

एमवीपी (3-6 सप्ताह):

1. डीएजी "दैनिक सीटी": Bronze→Silver→Gold→Feature Store→Train→Eval→Registry (मंचन)।

2. फ़ीचर स्टोर v1 और ऑनलाइन/ऑफ़लाइन समतुल्यता परीक्षण।

3. गुणवत्ता द्वार (पीआर-एयूसी/ईसीई/अपेक्षित-लागत/स्लाइस)।

4. मॉडल रजिस्टर, कार्ड और WORM रिलीज़ संग्रह।

चरण 2 (6-12 सप्ताह):
  • ऑनलाइन एसएलओ के माध्यम से ऑटो-रिकैलिब्रेशन/थ्रेशोल्ड अपडेट, कैनरी-प्रमोशन।
  • बहाव द्वारा इवेंट-चालित रिट्रेन; प्रवास के लिए डुअल-राइट v1/v2।
  • लागत-डैशबोर्ड और बैकफिल/रीप्ले कोटा; बहु-किरायेदार अलगाव।
चरण 3 (12-20 सप्ताह):
  • स्लाइस और ऑटो-रिपोर्टिंग पर निष्पक्षता नीतियां।
  • व्यक्तिगत कुंजी के साथ बहु-क्षेत्रीय निवास (EEA/UK/BR)।
  • अनुसूची और घटनाओं द्वारा ऑटो-रिट्रेन, पाइपलाइनों का ऑटोजेन प्रलेखन।

16) डिलीवरी चेकलिस्ट

  • पाइपलाइन-ए-कोड в गिट; सीआई परीक्षण (इकाई/एकीकरण/अनुबंध/सुरक्षा)।
  • कांस्य/रजत/गोल्ड और फीचर स्टोर स्थिर हैं; समतुल्यता हरे रंग की विशेष
  • ऑफ़ लाइन गेट पास हुए; मॉडल कार्ड भरा हुआ है; WORM संग्रह बनाया।
  • हरे एसएलओ के साथ कैनरी ≥ 24 एच; रोलबैक बटन और किल-स्विच फ़ंक्शन।
  • बहाव/ईसीई/अपेक्षित-लागत और ऑनलाइन लेबल निगरानी सक्षम है।
  • पीआईआई/रेजिडेंसी/डीएसएआर/आरटीबीएफ/लीगल होल्ड मिले; ऑडिट कॉन्फ़िगर किया।
  • बजट में लागत; कैश/कोटा/फीचर और रीप्ले सीमा सक्रिय हैं।

17) एंटी-पैटर्न और जोखिम

ऑर्केस्ट्रेटर के बाहर मैनुअल, "वन-शॉट" कदम; कोई गिट कहानी नहीं।

गेट और कार्ड के बिना प्रशिक्षण; पदोन्नति "हाथ से।"

असंगत ऑनलाइन/ऑफ़लाइन सुविधाएँ - बिक्री पर विसंगतियाँ।

बहाव/अंशांकन/अपेक्षित-लागत की अनदेखी; आरओसी-एयूसी "प्रति प्रजाति" केवल।

निवास/पीआईआई नीतियों की कमी; "कच्चे" आईडी का लॉगिंग।

असीमित बैकफिल/रिप्ले - एसएलए पर लागत विस्फोट और प्रभाव।


18) नीचे की रेखा

एआई पाइपलाइन मूल्य की एक पाइपलाइन है, न कि लैपटॉप का एक सेट। डेटा परतों, फीचर स्टोर और सीटी/सीआई/सीडी को औपचारिक बनाएं, गुणवत्ता और सुरक्षा गेट जोड़ें, बहाव द्वारा स्वचालित रिट्रेन करें, ऑनलाइन/ऑफ़लाइन समतुल्यता और एक पारदर्शी अर्थव्यवस्था रखें। यह आपको एक तेज, अनुमानित और अनुपालन डेटा → मॉडल → प्रभाव चक्र देता है जो बाजारों और समय में तराजू करता है।

Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।