GH GambleHub

AIパイプラインとトレーニングオートメーション

1)目的と原則

目的:データ→機能→モデル→意思決定→フィードバックを有効にするために信頼性が高く、再現されています。

原則:
  • Pipeline-as-Code:すべて(DAG、構成、テスト、政治家)-Gitで、PRとレビューを通じて。
  • 確定性:固定バージョンのdata/code/containers/dependencies。
  • 懸念の分離:DataOps、 FeatureOps、 TrainOps、 DeployOps、 MonitorOps。
  • Guarded Automation:品質、安全性、コンプライアンスの「ゲート」で自動化します。
  • 設計によるプライバシー:PIIの最小化、居住、監査。

2)コンベヤーの層および建築

1.Ingest&Bronze:イベント/バッチ(CDC、タイヤ、リトレイ、DLQ)の信頼性の高い受信。
2.銀(正規化/濃縮):SCD、通貨/時間、クリア、dedup。
3.ゴールド(ストアフロント):トレーニング/レポート用のサブジェクトテーブルとデータセット。
4.Feature Store:オンライン/オフライン機能、バージョン、SLO用のユニフォーム式。
5.Train&Validate:サンプル準備、トレーニング、校正、評価/チェックゲート。
6.レジストリ&プロモーション:モデル、品質カード、プロモーションポリシーの登録。
7.サービング:REST/gRPC/バッチ、フィーチャーキャッシュ、フィーチャーフラグ、カナリア/シャドウ。
8.モニター&フィードバック:SLI/SLO、ドリフト/キャリブレーション、オンラインラベル、自動再トレーニング。


3)オーケストレーション: DAGパターン

毎日のCT (D+1):毎晩のデータサイクル→機能→トレーニング→検証→レジストリ候補。
イベント駆動型リトレイン:PSI/ECE/予想コストのドリフトまたは回路リリースのトリガー。
Windowsのローリング:データの「スライディングウィンドウ」で毎週/毎月の再訓練。
青/緑のアーティファクト:すべてのアーティファクトは不変(ハッシュ)、並列バージョンです。
デュアル書き込みv1/v2:二重書き込みと同等性の比較によるスキーマ/フィーチャーの移行。

Airflowの例(サムネイル):
python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest.sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf.yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates.yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4)データセットおよびサンプル

特徴/ラベルのためのポイント・イン・タイムの結合そして「未来無し」。
リークのための市場/テナント/時間、ホールドアウトと「ギャップ」によって層別化。
バージョン管理:'data_version'、 'logic_version'、 'asof_date';WORMスナップショット。


5)特徴店およびオンライン/オフラインの同等性

特徴の統一された指定(名前、式、所有者、SLO、テスト)。
オンライン=オフライン:一般的な変換コード;等価性試験(MAE/MAPE)。

TTLおよびキャッシュ: 窓10m/1h/1d;タイムアウト/リトリート;フォールバック「last_known_good.」

Speca fici (YAML):
yaml name: bets_sum_7d owner: ml-risk offline: {source: silver.fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0.5 slo: {latency_ms_p95: 20, availability: 0.999}

6)訓練のオートメーション(CT)および質のゲート

CTサイクル:準備→トレーニング→キャリブレーション→評価→候補者の登録。

ゲート(例):
  • オフライン:PR-AUCベンチマーク≥ − δ;ECE ≤ 0。05;期待される費用限界≤。
  • スライス/公平性:任意のスライス内のメトリクスのドロップ≤ Y%;異質な影響は正常です。
  • 同等性の特徴:およそ。
  • コスト:時間/リソース≤予算。
設定ゲート(YAML):
yaml gates:
pr_auc_min: 0.42 ece_max: 0.05 expected_cost_delta_max: 0.0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0.5

7)モデル登録および昇進

モデルカード:データ、ウィンドウ、機能、オフオンラインメトリクス、キャリブレーション、リスク、所有者。
ステージ:'Staging→Production→Archived';証明されたゲートによってだけ昇進。
ロールバックポリシー:最新バージョンのN ≥保持します。ワンクリックでロールバック。


8) CI/CD/CT: 接続する方法

CI(コード/テスト):単位/統合/契約テスト、リンタ、セキュリティスキャン。
CD(サービング):Docker/K8s/Helm/featureの旗、カナリア/影/青緑。
CT(データ/トレーニング):スケジュール/イベントオーケストレーター;アーティファクト→レジストリ。
プロモーションゲート:グリーンオンラインSLOで生産中の自動リリース(カナリア≥ X時間)。


9)複数のテナントおよび居住

テナント/リージョン:孤立パイプラインと暗号化キー(EEA/UK/BR);地域間の参加を理由なく禁止します。
秘密:KMS/CMK、シークレットマネージャー;ログにトークン化されたID。
DSAR/RTBFポリシー:機能とログの計算可能な投影と選択的編集;ケースの法的保持。


10)モニタリング→フィードバック→リトレイン

SLI/SLO:遅延p95/p99、 5xxの適用範囲、費用/要求;ドリフトPSI/KL、 ECE、予想コスト。
オンラインラベル:プロキシ(時間/日)と遅延(D+7/D+30/D+90)。
自動アクション:再調整/しきい値の更新→シャドウリトレイン→カナリア→プロモーション。
Runbooks:劣化シナリオ(ドリフト、キャリブレーション、フィーチャーキャッシュ、プロバイダ)。


11)セキュリティ、RG/AMLおよびソリューションポリシー

ガードレール:プリフィルター/ポストフィルター、キャップ周波数、クールダウン、禁止リスト。
ポリシーシールド-モデル→ソリューション→ポリシーフィルタ→アクション。
監査:'model_id/version'、 'feature_version'、 'threshold'、 'policy_id'、理由。
WORMアーカイブ:リリース、品質レポート、テスト/プロモーションログ。


12)コストとパフォーマンス

パスのプロファイリング:特徴(30-60%)、推論(20-40%)、 IO/ネットワーク。
コストダッシュボード:コスト/リクエスト、コスト/機能、GPU/CPUクロック、スモールファイル。
最適化:重いオフライン機能、ホットウィンドウキャッシュ、INT8/FP16、リプレイクォータ/バックフィルの具現化。
チャージバック:私達はチーム/市場によって予算を配り、「高価な」特徴を制御します。


13)例(断片)

Argoワークフロー:
yaml apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf.yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates.yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs.parameters.cmd}}"]}
ゲートスクリプト(擬似コード):
python ok = (pr_auc >= gate.pr_auc_min and ece <= gate.ece_max and expected_cost_delta <= gate.expected_cost_delta_max and slice_drop_pct <= gate.slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate.features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)
プロモーションポリシー(アイデア):
yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14)プロセスとRACI

R(責任がある):
  • Data Eng-Ingest/Silver/Gold、 Feature Store、 CDC/Backfill;
  • データサイエンス-サンプル/トレーニング/校正/ゲート;
  • MLOps-orkestration/reestr/serving/nablyudayemost。
  • A(説明責任):データ/CDOの責任者。
  • C(コンサルティング):コンプライアンス/DPO (PII/RG/AML/DSAR)、セキュリティ(KMS/監査)、 SRE (SLO/Value)、ファイナンス(予算/ROI)、製品。
  • I(インフォームド):マーケティング/オペレーション/サポート。

15)実装ロードマップ

MVP (3-6週):

1.DAG 「デイリーCT」:ブロンズ→シルバー→ゴールド→フィーチャーストア→トレイン→Eval→レジストリ(ステージング)。

2.Feature Store v1およびオンライン/オフライン等価テスト。

3.品質ゲート(PR-AUC/ECE/期待コスト/スライス)。

4.モデルレジスタ、カード、WORMリリースアーカイブ。

フェーズ2(6-12週間):
  • 自動再調整/しきい値の更新、オンラインSLOによるカナリアプロモーション。
  • ドリフトによるイベント駆動のリトレイン。マイグレーション用のデュアル書き込みv1/v2。
  • コスト・ダッシュボードとバックフィル/リプレイ・クォータ;複数のテナントの分離。
フェーズ3(12-20週間):
  • スライスと自動レポートの公平性ポリシー。
  • 個々のキーを持つ多地域レジデンス(EEA/UK/BR)。
  • スケジュールとイベントによる自動再トレーニング、パイプラインの自動ドキュメント。

16)配達チェックリスト

  • パイプライン・アズ・コードGit;CIテスト(単位/統合/契約/セキュリティ)。
  • 青銅/銀/金および特徴の店は安定しています;等価性の特徴緑。
  • 渡されるオフラインゲート;モデルカードはいっぱいです。WORMアーカイブを作成しました。
  • カナリア≥緑色のSLOで24時間;ロールバックボタンとキルスイッチ機能。
  • ドリフト/ECE/予想コストとオンラインラベル監視が有効になります。
  • PII/residency/DSAR/RTBF/Legal Hold meet;監査が設定されました。
  • 予算のコスト;キャッシュ/クォータ/フィーチャーとリプレイ制限がアクティブになります。

17)アンチパターンとリスク

マニュアル、オーケストレーターの外の「ワンショット」ステップ。Gitの話はありません。
ゲートおよびカードなしの訓練;「手で」プロモーション。
オンライン/オフライン機能の一貫性がない→販売中の不一致。
ドリフト/キャリブレーション/予想コストを無視します。ROC-AUC「種ごと」のみ。
居住/PIIポリシーの欠如;「raw」 IDのロギング。
無制限のバックフィル/リプレイ→コスト爆発とSLAへの影響。


18)ボトムライン

AIパイプラインは価値のパイプラインであり、ノートパソコンのセットではありません。データ層、Feature StoreおよびCT/CI/CDを形式化し、品質と安全性ゲートを追加し、ドリフトによる再訓練を自動化し、オンライン/オフラインの同等性を維持し、透明な経済を実現します。これにより、市場と時間を横断する高速で予測可能で準拠したデータ→モデル→エフェクトサイクルが実現します。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。