KI-Pipelines und Lernautomatisierung

1) Zweck und Grundsätze

Das Ziel: Daten → Daten → Modelle → Lösungen zuverlässig und reproduzierbar → Feedback zu verwandeln, mit minimalem Zeitwert und Risiko-/Kostenkontrolle.

Grundsätze:

Pipeline-as-Code: alles (DAG, Configs, Tests, Politiker) - in Git, durch PR und Revue.
Determinismus: feste Versionen von Daten/Code/Containern/Abhängigkeiten.
Separation of Concerns: DataOps, FeatureOps, TrainOps, DeployOps, MonitorOps.
Guarded Automation: automatisieren, aber mit „Gates“ von Qualität, Sicherheit und Compliance.
Privacy by Design: PII-Minimierung, Wohnsitz, Audit.

2) Schichten und Pipeline-Architektur

1. Ingest & Bronze: zuverlässiger Empfang von Events/Battles (CDC, Reifen, Retrays, DLQ).
2. Silber (Normalisierung/Anreicherung): SCD, Währungen/Zeit, Clearing, Dedup.
3. Gold (Vitrinen): Thementische und Datasets für Training/Reporting.
4. Feature Store: einheitliche Formeln für Online/Offline, Versionen und SLO.
5. Train & Validate: Probenvorbereitung, Training, Kalibrierung, Auswertung/Check-Gates.
6. Registry & Promotion: Musterregister, Qualitätskarten, Förderpolitik.
7. Serving: REST/gRPC/Batch, Fish-Caches, Fish-Flags, Canary/Shadow.
8. Monitor & Feedback: SLI/SLO, Drift/Kalibrierung, Online-Labels, Auto-Retrain.

3) Orchestrierung: DAG-Muster

Daily CT (D + 1): Nächtlicher Datenzyklus → Fichi → Training → Validierung → Registrierungskandidat.
Event-Driven Retrain: Trigger durch PSI/ECE/Expected-Cost Drift oder durch Schaltungsfreigabe.
Rolling Windows: wöchentliche/monatliche Umschulung mit „gleitendem Fenster“ der Daten.
Blue/Green Artifacts: Alle Artefakte sind immutable (Hash), parallele Versionen.
Dual-write v1/v2: Schaltungen/Fich-Migrationen durch Double Write und Äquivalenzvergleich.

Beispiel Airflow (Skizze):

python with DAG("ct_daily", schedule="@daily", start_date=..., catchup=False) as dag:
bronze = BashOperator(task_id="ingest_cdc", bash_command="ingest. sh")
silver = BashOperator(task_id="silver_norm", bash_command="dbt run --models silver")
gold  = BashOperator(task_id="gold_marts", bash_command="dbt run --models gold")
feats = BashOperator(task_id="feature_store_publish", bash_command="features publish")
ds   = BashOperator(task_id="build_dataset", bash_command="dataset build --asof {{ ds }}")
train = BashOperator(task_id="train", bash_command="trainer run --config conf. yaml")
eval  = BashOperator(task_id="evaluate", bash_command="eval run --gate conf/gates. yaml")
reg  = BashOperator(task_id="register", bash_command="registry add --stage Staging")
bronze >> silver >> gold >> feats >> ds >> train >> eval >> reg

4) Datensätze und Stichproben

Point-in-Time-Join und „No Future“ für Fitch/Labels.
Stratifizierung nach Märkten/Tenanten/Zeit, Holdout und „Gap“ für Lecks.
Versionierung: 'data _ version', 'logic _ version', 'asof _ date'; WORM-Schnappschüsse.

5) Feature Store und Äquivalenz online/offline

Einheitliche Festlegungen (Name, Formel, Besitzer, SLO, Tests).
Online = offline: allgemeiner Transformationscode; Gleichwertigkeitsprüfung (MAE/MAPE).
TTL und Cache: 10m/1h/1d Fenster; Timeouts/Retrays; Folbeks' last_known_good".

Speca fichi (YAML):

yaml name: bets_sum_7d owner: ml-risk offline: {source: silver. fact_bets, window: "[-7d,0)"}
online: {compute: "streaming_window: 7d", ttl: "10m"}
tests:
- compare_online_offline_max_abs_diff: 0. 5 slo: {latency_ms_p95: 20, availability: 0. 999}

6) Lernautomatisierung (CT) und Qualitätstore

CT-Zyklus: Vorbereitung → Schulung → Kalibrierung → Bewertung → Registrierung des Kandidaten.

Tore (Beispiel):

Off-line: PR-AUC ≥ Benchmark − δ; ECE ≤ 0. 05; Expected-Cost ≤ Limit.
Slice/Fairness: Rückgang der Metriken in jedem Slice ≤ Y%; disparate impact ist normal.
Äquivalenz fich: ca.
Kosten: Zeit/Ressourcen ≤ Budget.

Config Gates (YAML):

yaml gates:
pr_auc_min: 0. 42 ece_max: 0. 05 expected_cost_delta_max: 0. 0 slice_drop_max_pct: 10 features_equivalence_p95_abs_diff_max: 0. 5

7) Modellregister und Förderung

Modellkarte: Daten, Fenster, Fichi, Off/Online-Metriken, Kalibrierung, Risiken, Besitzer.
Stages: `Staging → Production → Archived`; Promotion nur über bewährte Gates.
Rollback-Richtlinie: Speichern Sie die ≥N der neuesten Prod-Versionen; one-click rollback.

8) CI/CD/CT: wie man verbindet

CI (Code/Tests): Unit/Integration/Contract Tests, Linters, Security Scans.
CD (serving): Docker/K8s/Helm/ficha-flags, canary/shadow/blue-green.
CT (Daten/Training): Orchestrator nach Zeitplan/Veranstaltungen; Artefakte → Register.
Promotion Gates: Auto-Release in Prod mit grünen Online-SLO (auf Canary ≥ X Uhren).

9) Multi-Leasing und Wohnsitz

Tenanten/Regionen: isolierte Pipelines und Verschlüsselungsschlüssel (EWR/UK/BR); Verbot interregionaler Joins ohne Grundlage.
Geheimnisse: KMS/CMK, Secret Manager; tokenisierte IDs in Protokollen.
DSAR/RTBF-Richtlinien: Berechenbare Projektionen und selektive Bearbeitungen in Fich und Logs; Legal Hold für Fälle.

10) Überwachung → Feedback → Retrain

SLI/SLO: latency p95/p99, 5xx, coverage, cost/request; PSI/KL Drift, ECE, Expected-Cost.
Online-Labels: Stellvertreter (Stunde/Tag) und Inhaftierte (D + 7/D + 30/D + 90).
Automatische Aktionen: recalibration/threshold update → shadow retrain → canary → promotion.
Runbooks: Degradationsszenarien (Drift, Kalibrierung, Fich-Cache, Provider).

11) Sicherheit, RG/AML und Entscheidungspolitik

Guardrails: Vor-/Nachfilter, Caps Frequenzen, Cooldown, Verbotslisten.
Policy Shielding: Modell → Lösung → Filter → Aktion.
Audit: 'model _ id/version', 'feature _ version', 'threshold', 'policy _ id', Ursachen.
WORM-Archiv: Freigaben, Qualitätsberichte, Test-/Promotionprotokolle.

12) Kosten und Leistung

Pfadprofil: fichy (30-60%), inference (20-40%), IO/Netzwerk.
Kosten-Dashboards: Kosten/Anfrage, Kosten/Funktion, GPU/CPU-Stunden, kleine Dateien.
Optimierung: Materialisierung von Heavy-Fit Offline, Hot-Window-Cache, INT8/FP16, Replay-/Backfill-Quoten.
Chargeback: Wir verteilen das Budget auf Teams/Märkte, kontrollieren die „teuren“ Fici.

13) Beispiele (Fragmente)

Argo Workflow:

yaml apiVersion: argoproj. io/v1alpha1 kind: Workflow metadata: {name: ct-daily}
spec:
entrypoint: pipeline templates:
- name: pipeline dag:
tasks:
- name: gold template: task arguments: {parameters: [{name: cmd, value: "dbt run --models gold"}]}
- name: features dependencies: [gold]
template: task arguments: {parameters: [{name: cmd, value: "features publish"}]}
- name: train dependencies: [features]
template: task arguments: {parameters: [{name: cmd, value: "trainer run --config conf. yaml"}]}
- name: eval dependencies: [train]
template: task arguments: {parameters: [{name: cmd, value: "eval run --gate conf/gates. yaml"}]}
- name: task inputs: {parameters: [{name: cmd}]}
container: {image: "ml/ct:latest", command: ["/bin/bash","-lc"], args: ["{{inputs. parameters. cmd}}"]}

Gate-Skript (Pseudocode):

python ok = (pr_auc >= gate. pr_auc_min and ece <= gate. ece_max and expected_cost_delta <= gate. expected_cost_delta_max and slice_drop_pct <= gate. slice_drop_max_pct and features_equivalence_p95_abs_diff <= gate. features_equivalence_p95_abs_diff_max)
exit(0 if ok else 1)

Förderpolitik (Idee):

yaml promotion:
require:
- offline_gates_passed
- canary_online_hours >= 24
- slo_green: [latency_p95, error_rate, coverage]
- drift_warn_rate <= 5%

14) Prozesse und RACI

R (Responsible):

Data Eng — Ingest/Silver/Gold, Feature Store, CDC/Backfill;
Data Science - Stichproben/Training/Kalibrierung/Gates;
MLOps - orkestrazija/rejestr/serwing/nabljudajemost.
A (Accountable): Head of Data / CDO.
C (konsultiert): Compliance/DPO (PII/RG/AML/DSAR), Security (KMS/Audit), SRE (SLO/Cost), Finance (Budgets/ROI), Product.
I (Informiert): Marketing/Operations/Support.

15) Fahrplan für die Umsetzung

MVP (3-6 Wochen):

1. DAG «daily CT»: Bronze→Silver→Gold→Feature Store→Train→Eval→Registry(Staging).

2. Feature Store v1 und Äquivalenztest online/offline.

3. Qualitätsgates (PR-AUC/ECE/expected-cost/slice).

4. Modellregister, Karte und WORM-Archiv der Veröffentlichungen.

Phase 2 (6-12 Wochen):

Auto-Recalibration/Threshold-Update, Canary-Promotion per Online-SLO.
Event-driven retrain durch Drift; dual-write v1/v2 für Migrationen.
Kosten-Dashboards und Quoten für Backfill/Replays; multi-tenant Isolierung.

Phase 3 (12-20 Wochen):

Fairness-Richtlinien für Slides und Auto-Reporting.
Mehrregionaler Wohnsitz (EWR/UK/BR) mit separaten Schlüsseln.
Auto-Retraine nach Zeitplan und Veranstaltungen, autogen Dokumentation von Piplines.

16) Prod Readiness Checkliste

Pipeline-as-Code в Git; CI-Tests (Einheit/Integration/Verträge/Sicherheit).
Bronze/Silber/Gold und Feature Store stabil; Gleichwertigkeit fich grün.
Offline-Gates bestanden; die Modellkarte ist ausgefüllt; WORM-Archiv erstellt.
Canary ≥ 24 h mit grünen SLO; Rollback-Taste und Kill-Schalter funktionieren.
Drift Monitoring/ECE/Expected-Cost und Online Labels inklusive.
PII/Wohnsitz/DSAR/RTBF/Legal Hold erfüllt; Überwachung ist konfiguriert.
Kosten im Haushalt; Cache/Kontingente/Limits für Fiches und Replays sind aktiv.

17) Anti-Muster und Risiken

Manuelle, „einmalige“ Schritte außerhalb des Orchestrators; Es gibt keine Git-Story.
Training ohne Tore und Karten; Förderung „von Hand“.
Inkonsistente Online-/Offline-Daten → Unstimmigkeiten auf dem Produkt.
Drift/Kalibrierung/Expected-Cost ignorieren; nur ROC-AUC „für die Art“.
Kein Wohnsitz/PII-Politik; Protokollierung von „rohen“ IDs.
Unbegrenzte Backfill/Replays → Kostenexplosion und Auswirkungen auf SLA.

18) Ergebnis

AI-Pipelines sind eine Wertpipeline, keine Sammlung von Laptops. Formalisieren Sie Datenschichten, Feature Store und CT/CI/CD, fügen Sie Qualitäts- und Sicherheitsgates hinzu, automatisieren Sie den Retrain durch Drift, halten Sie Online/Offline-Äquivalenz und transparente Wirtschaft. So erhalten Sie einen schnellen, vorhersehbaren und konformen Daten- → Modell- → Effektzyklus, der über Märkte und Zeiten hinweg skalierbar ist.

KI-Pipelines und Lernautomatisierung

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet