AI-interplines և ուսուցման ավտոմատիզացիա

1) Նշանակումներ և սկզբունքներ

Նպատակը 'ռիսկի/արժեքի վերահսկումն է, և վերարտադրվում է վերափոխել վերջնական լուծվող մոդելի տվյալները' նվազագույն Time-to-value-ի հետ։

Սկզբունքները

Pipeline-as-Code: Բոլորը (DAG, դելիգներ, թեստեր, քաղաքականություններ) - Git-ում, PR-ի և խանդի միջոցով։

Determinism: տվյալների/կոդի/տարաների/կախվածության ֆիքսված տարբերակներ։

Separation of Concerns: DataOps, FeatureOps, TrainOps, DeployOps, MonitorOps.

Guarded Automation: մենք ավտոմատիզացնում ենք, բայց որակի, անվտանգության և կոմպլանսի «գեյտերի» հետ։

Privacy by Design: PII-ի նվազեցումը, բնակությունը, աուդիտը։

2) փոխակրիչի շերտերն ու ճարտարապետությունը

1. Ingest & Bultze-ը իրադարձությունների/մարտերի հուսալի ընդունումն է (CDC, անվադողեր, ռետրաններ, DLQ)։

2. Silver (նորմալացում/հարստացում): SCD, արժույթ/ժամանակ, մաքրում, դեդուպը։

3. Gold (վիտրիններ) 'առարկայական սեղաններ և դանասետներ ուսուցման/հաշվետվության համար։

4. Feature Store: մեկ բանաձևեր on.ru/wwww.ru, տարբերակները և SLO-ը։

5. Train & Validate: Ընտրության պատրաստումը, ուսուցումը, տրամաչափը, գնահատումը/չեկի խաղացողները։

6. Registry & Promotion: Ռուսական մոդելներ, որակի քարտեր, գովազդային քաղաքականություն։

7. Serving: REST/gRPC/Batch, fich-cashi, fich-դրոշներ, canary/shadow։

8. Monitor & Feedback: SLI/SLO, dreef/տրամաչափություն, առցանց պիտակներ, 112-retrain։

3) Նվագախումբ 'DAG արտոնագրեր

Daily CT (D + 1) 'գիշերային տվյալների ցիկլը դելֆիչին խորհուրդ է տալիս վերապատրաստել ռուսական valivation ռուսական թեկնածուն գրանցամատյանում։

Event-Driven Retrain: PSI/IV/expected-cost-ը կամ սխեմաների արտադրությամբ։

Rolling Windows: weekly/monthly-ը վերապատրաստում է «սայթաքող պատուհանի» տվյալների հետ։

Blue/Green Artifac.ru: Բոլոր արտեֆակտները իմուտաբելներ են (hash), զուգահեռ տարբերակներ։

Dance-write v1/v2: www.m. սխեմաներ/fich կրկնակի ձայնագրման և համարժեք համեմատության միջոցով։

Airflow (ուրվագիծ)։

python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest. sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf. yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates. yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) Տվյալների և նմուշների հավաքածուներ

Point-in-time join և «առանց ապագայի» ֆիչի/պիտակների համար։

Շուկայի/տենանտների/ժամանակի ստրատիֆիկացիան, holdout և «gap» արտահոսքի համար։

Տարբերակումը '«բանաձև _ version», «logic _ version», «asof _ date»; WORM-դիպուկահարները։

5) Feature Store-ը և on.ru/2019-ի համարժեք արժեքը։

Ֆիչի միասնական ճշգրտումը (անունը, բանաձևը, սեփականատերը, SLO, թեստերը)։

Առցանց = օֆլայնը 'փոխակերպման ընդհանուր կոդը; համարժեք թեստը (MAE/MAPE)։

TTL և kash: Պատուհաններ 10m/1h/1d; timauts/retrai; ֆոլբեկներ «lport _ known _ good»։

Fichi (YAML)։

yaml name: bets_sum_7d owner: ml-risk offline: {source: silver. fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0. 5 slo: {latency_ms_p95: 20, availability: 0. 999}

6) Ուսուցման ավտոմատիզացիան (CT) և որակի խաղացողները

CT-ցիկլը 'տեխնոլոգիական տրամաբանության պատրաստումը գնահատվում է ռուսական թեկնածուի։

Գեյթս (օրինակ)

Off-2019: PR-AUC 210 enchmark 210; ECE ≤ 0. 05; expected-cost-limita։

Slice/Fairness: Մետրիկի նվազումը ցանկացած սլայքում Y- ի%; www.parate impact նորմալ է։

Ֆիչի համարժեքությունը 'մոտ.

Արժեքը ՝ բյուջեի ժամանակը/ռեսուրսները։

Ռուսական խաղացողների (YAML)

yaml gates:
pr_auc_min: 0. 42 ece_max: 0. 05 expected_cost_delta_max: 0. 0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0. 5

7) Մոդելների գրանցումը և խթանումը

Մոդելի քարտը 'տվյալները, պատուհանները, ֆիչիները, off/onts, տրամաչափը, ռիսկերը, սեփականատերը։

Stages: `Staging → Production → Archived`; բաց է միայն ստուգված խաղացողների միջոցով։

Արձագանքի քաղաքականությունը 'պահել N- ի վերջին պրոդ տարբերակները։ one-click rollback.

8) CI/CD/CT 'ինչպես միացնել

CI (կոդ/թեստեր) 'յունիտ/ինտեգրալ/պայմանագրային թեստեր, ոսպնյակներ, 108-սկաններ։

CD (CD): Docker/K8s/Helm/fich դրոշներ, canary/shadow/blue-green։

CT (տվյալներ/ուսուցում) 'գրաֆիկայի/իրադարձությունների նվագարկիչ։ արտեֆակտները։

Promotion Gates: Ավտոմեքենաների թողարկումը կանաչ առցանց SLO-ում (canary No X ժամ)։

9) Բազմաբնույթ և բնակավայր

Tenants/տարածքներ 'մեկուսացված pline և բանալիներ (EFC/UK/RF); միջտարածաշրջանային ջոների արգելքը առանց հիմքի։

Գաղտնիքները ՝ KFC/CMK, Secret Live; թունավորված ID լոգարաններում։

DSAR/RTBF-ի քաղաքական գործիչները 'հաշվարկված պրոյեկտներ և ընտրովի խմբագրություններ ֆիթիում և լոգարաններում։ Legal Hold-ի համար։

10) Մոսկվան հաստատեց retrain www.retrain-ի հետադարձ կապը

SLI/SLO: latency p95/p99, 5xx, coverage, cost/request; dreif PSI/KL, IV, expected-cost։

Առցանց պիտակները ՝ 108 (ժամ/օր) և ձերբակալվածները (D + 7/D + 30/D + 90)։

Avto-գործողությունները ՝ recalibration/threshold corate www.shadow retrain promotion։

Runbooks: քայքայման սցենարներ (dreef, տրամաչափություն, fich-kash, պրովայդերներ)։

11) Անվտանգություն, RG/AML և որոշումների քաղաքականություն

Guardrails: pre/post-inter, caps հաճախականությունը, cooldown, արգելքների ցուցակները։

Policy Shielding: մոդելը բացատրում է քաղաքականության ռուսական ֆիլտրի լուծումը։

Աուդիտ ՝ «model _ id/version», «feature _ version», «threshold», «policy _ id», պատճառները։

WORM արխիվը 'օրինագծեր, որակի հաշվետվություններ, թեստերի/գովազդային ամսագրեր։

12) Արժեքը և արտադրողականությունը

Ճանապարհի ավելացումը 'ֆիչին (30-60%), ինֆիսը (20-40%), IO/ցանցը։

Cost-dashbords: cost/request, cost/feature, GPU/CPU ժամացույց, small-medes։

Օպտիմիզացիան 'ծանր ֆիգուրային օֆլինի նյութականացումը, տաք պատուհանների քեշը, INT8/FP16, ռելեների քվոտաները/backfill։

Chargeback: Մենք բաժանում ենք/շուկաների բյուջեն, վերահսկում ենք «թանկ» ֆիչին։

13) Օրինակներ (բեկորներ)

Argo Workflow:

yaml apiVersion: argoproj. io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf. yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates. yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs. parameters. cmd}}"]}

Gate-ջութակը (կեղծ)

python ok = (pr_auc >= gate. pr_auc_min and ece <= gate. ece_max and expected_cost_delta <= gate. expected_cost_delta_max and slice_drop_pct <= gate. slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate. features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)

Քաղաքական գործիչը (գաղափար)

yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) Գործընթացներ և RACI

R (Responsible):

Data Eng — Ingest/Silver/Gold, Feature Store, CDC/Backfill;
Windows Science - նմուշներ/ուսուցում/տրամաչափություն/գեյթ;
MLOps-ը նվագախմբն է/108/սերվինգ/դիտարկելիություն։
A (Accountable): Head of Data / CDO.
C (Consulted): Compli.ru/DPO (PII/RG/AML/DSAR), System (KMS/աուդիտ), SDE (SLO/արժեքը), Finance (բյուջեներ/ROI), DT։
I (Informed) 'Մարքեթինգ/Վիրահատություն/Աջակցություն։

15) Իրականացման ճանապարհային քարտեզը

MVP (3-6 շաբաթ)

1. DAG «daily CT»: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry(Staging).

2. Feature Store v1-ը և on.ru/24.ru համարժեք թեստը։

3. Որակի գեյտերը (PR-AUC/IV/expected-cost/slice)։

4. Մոդելների, քարտի և WORM-արխիվների գրանցումը։

Aleksanda 2 (6-12 շաբաթ)

Avto-recalibration/threshold corate, canary-promotion առցանց SLO-ում։

Event-driven retrain-ը դրեյֆով; d07-write v1/v2 միգրացիայի համար։

Cost-dashbords և քվոտաներ backfill/repley-ում; multi-tenault մեկուսացում։

Բրազիլիա 3 (12-20 շաբաթ)

Fairness-ի քաղաքականությունները սլայզների և Auto-reporting-ի վրա։

Մուլտֆիլմի-էքսպորտային նստավայրը (EFC/UK/IV) առանձին բեկորների հետ։

Auto-retraine-ը ժամանակացույցով և իրադարձություններով, www.plins փաստաթղթերի ինքնագիր։

16) Chek-Show-Show-Show-

Pipeline-as-Code в Git; CI թեստերը (unit/ինտեգրում/պայմանագրեր/անվտանգություն)։
Bultze/Silver/Gold և Feature Store կայուն են։ ֆիգուրի համարժեքությունը կանաչ է։
Օֆլայնային գեյտերը անցան; մոդելի քարտը լցված է; WORM արխիվը ստեղծվել է։
Canary 2424 ժամ կանաչ SLO-ով; rollback կոճակը և kill-switch աշխատում են։
Disdreifa/IV/expected-cost և online պիտակները ներառված են։
PII/նստավայրը/DSAR/RTBF/Legal Hold պահպանված են; աուդիտը տրամադրված է։
Արժեքը գրանցամատյանում; kash/quots/limits fici և repley ակտիվ են։

17) Anti-patterns և ռիսկեր

Ձեռքով, «միանգամյա» քայլերը նվագախմբից դուրս; Ոչ git-պատմություններ։

Ուսուցում առանց խաղացողների և քարտերի; «ձեռքով» է։

Չհամաձայնեցված on.ru- ն/wwww.fics-ը երկարաժամկետ տարբերություններ ունի։

Dreefa/տրամաչափման/expected-cost։ ՄԻԱՅՆ ROC-AUC «տեսակների համար»։

Բնակչության բացակայությունը/PII քաղաքական։ «հում» ID տրամաբանությունը։

Անսահմանափակ backfill/repley-ը բացատրում է արժեքի պայթյունը և ազդեցությունը SLA-ի վրա։

18) Արդյունքը

AI-104 pline-ը արժեքի փոխակրիչ է, ոչ թե նոութբուքերի հավաքածու։ Ֆորմալիզացրեք տվյալների շերտերը, Feature Store-ը և CT/CI/CD-ը, ավելացրեք որակի և անվտանգության գեյերը, ավտոմատիզացրեք retrain dreain, պահպանեք on.ru/wwww.ru և թափանցիկ տնտեսությունը։ Այսպիսով, դուք կստանաք արագ, կանխատեսելի և կոմպլեկտիվ ցիկլ «այս մոդելը ռուսական ազդեցություն», որը մեծանում է շուկաների և ժամանակի վրա։

AI-interplines և ուսուցման ավտոմատիզացիա

Կապ հաստատեք մեզ հետ

Արագ կապ

Տեսանյութը շուտով կթարմացվի

Այս պահին մենք ծանրաբեռնված ենք նախագծերով