データライフサイクル
1)目的と原則
目標は、分析、運用、および規制シナリオをサポートし、開始から最終処分へのデータの予測可能、準拠、および費用対効果の高い移動を可能にすることです。
基本原則:- 製品としてのデータ:各セットには所有者、契約、SLO、ドキュメントがあります。
- Schema-first:スキームが必要です。変更-バージョン管理を通じて。
- プライバシー・バイ・デザイン:PII最小化、匿名化、地域ストレージ。
- Observation-by-Default:メトリック、アクセスログ、リネージ。
- コスト配分:ストレージレベル、TTL、サンプリング、圧縮。
2)ライフサイクルフェーズ
2.1作成/収集
ソース:製品(ウェブ/モバイル)、バックエンド、支払い、KYC/AMLプロバイダ、ゲーム/スタジオ、マーケティング、オペレーティングログ。
識別子:'event_id'、 'user。pseudo_id'、 'session_id'、 'trace_id'。
契約:JSON/Avroスキーム、AsyncAPI/OpenAPI。
入力品質:スキームの検証、必須フィールド、サイズ制限、重複防止。
プライバシー:機密フィールドのトークン化、ジオルーティングインジェスト(EEA/UK/BR)。
2.2 Ingest&Raw
輸送:HTTP/gRPC→エッジ→バス(Kafka/Redpanda)。
未加工層(青銅色):時間/市場/テナントによる分割、(法医学のために)不変のペイロードだけを加えて下さい。
政治家:dedup by '(event_id、 source)'、 DLQ for 「broken」イベント、Legal Holdタグ。
2.3加工・洗浄(精製)
正規化(シルバー):入力、重複除外、ディレクトリ、FX/タイムゾーン、濃縮。
品質(DQ):完全性/一意性/範囲/参照整合性。
再処理:idempotentコンベア、タイムトラベル、制御されたバックフィル。
2.4サービス/利用
ゴールドショーケース:BI/レポート (GGR、 RG、 AML)、製品およびリスクモデル、リアルタイムショーケース。
アクセス:SQL/Trino、 semantic metrics layer、 API/GraphQL、 Feature Store。
SLAの新鮮さ:例えば、ゴールドデイリーショーケースは現地時間の6:00まで準備ができています。
2.5共有および公開
内部消費者:アナリティクス、製品、リスク、コンプライアンス、マーケティング、金融。
外部オフロード:レギュレータ、パートナー/プロバイダ;不変パッケージ(PDF/CSV/JSON+ハッシュ)。
監視チャンネル:署名されたアーティファクト、ダウンロード/エクスポートの監査。
2.6アーカイブ/保持
保存ポリシー:データの種類と管轄(例:規制-5-7年)。
貯蔵の層:不変性のための熱い/暖かい/冷たい、WORM/オブジェクトロック。
アーカイブインデックス:ディレクトリ、バージョン/マーケットラベル、クイックメタデータ検索。
2.7取除き、終わります(処分して下さい)
共通の取り外し:TTL/保持;安全なクリーニング、インデックスの更新。
法的取引:DSAR/RTBF(忘れられる権利)、法的保管義務の例外、法的保留(凍結除去)。
検証:削除レポート、監査ログ、クロスレプリカ制御。
3)分類およびカタログ
感度カテゴリー:public/internal/confidential/restricted。
支払い、ゲームプレイ、コンプライアンス/AML、 RG、マーケティング、Ops、ファイナンス。
データカタログ:説明、所有者、新鮮さSLA、スキーム、系統、アクセスレベル。
技術:'管轄'、'テナント'、'pii_class'、' retention_class'、 'legal_hold'。
4)レイクハウスモデルと回路図
ブロンズ/シルバー/ゴールド:変換と責任の明確なルール。
フォーマット:Parquet+ACIDのテーブル形式(デルタ/アイスバーグ/フーディ)。
スキームの進化:セマンティックバージョン、縦方向の互換性、変更を破るためのダブルエントリの移行。
レジストリ:スキーマレジストリ、契約のCI検証、消費者主導のテスト。
5)データ品質(DQ)
品質指標:- 「完全性」(Completeness)-実際に受信したイベント/行の割合。
- 妥当性:スキーマ検証に合格したレコードの割合。
- 一意性:重複制御。
- 一貫性:参考書およびリンクの承諾。
- 鮮度:遅延到着/具体化。
- コード(YAML/SQLテスト)、ダッシュボード、SLOアラートとしてのDQルール。
- 劣化中の自動フォールバック(最後の正しいカット)。
6)プライバシーとコンプライアンス
PII最小化:疑似IDを格納し、マッピングを絶縁ループに取り込みます。
マスキングとRLS/CLS:列/行レベル;ダイナミックポリシー。
地域化:市場別のデータ居住;ディレクトリ/暗号化キーを分離します。
DSAR/RTBF:制御された投影、選択的編集、監査問題。
法的保留:マークを凍結、アーカイブを変更しない、アクセスログ。
7)アクセスとセキュリティ
認証/承認:SSO、 RBAC/ABAC、管轄および役割の属性。
暗号化:TLS in-transit;KMS/CMKによるat-rest;キーの回転。
アクセスログ:who/what/when/where;大量エクスポート/スキャンのアラート。
職務の分離:prod/analytics/admins/reviewerのための異なった役割。
8)系統および観察可能性
技術系統:ソース→変換→ショーケース→レポートから。
運用系統:リリース、フィーチャーフラグ、モデル、AML/RGルールとのリンク。
プラットフォームメトリクス:スループット、ラグ、故障率、コスト/クエリ、コスト/GB。
トレース:'trace_id'をアプリケーションからストアフロント/アラートに転送します。
9)時間モデルおよびretroprocesses
Event-time vs Processing-time: public-time、 watermarks/allowed lateness。
バックフィルと再処理:idempotentパイプライン、タイムトラベル、「ダブルカウント」の制御。
保存状態:TTL、スナップショット、災害復旧。
10)経済とコスト管理
パーティショニング(日付/市場/テナント)、クラスタリング/Z注文。
高周波分析のサンプリング(トランザクション/コンプライアンスではありません)。
多層貯蔵(熱く/暖かい/冷たい)、自動TTL。
チームによる予算/チャージバック、重い要求とバックフィルの制限。
11)プロセスとRACI
R(責任ある):データプラットフォーム(ingest/storage/orchestration)、データエンジニアリング(transformation)、ドメイン所有者(Contracts/DQ/SLO)。
A(説明責任):データ責任者/最高データ責任者。
C(コンサルティング):コンプライアンス/法的/DPO、アーキテクチャ、SRE、セキュリティ。
I (Informed): BI/Продукт/Маркетинг/Финансы/Операции。
12) SLO/SLI(標本ターゲット)
13)ダッシュボード
ドメイン/市場別の鮮度ヒートマップ。
スレッドによる完全性/妥当性。
ストレージとクエリのコスト(レイヤーとコマンドによる)。
クリティカルレポートの系統図(規制、GGR、 RG/AML)。
DSAR/RTBFキュー、Legal Holdステータス。
14)保持ポリシーテンプレート(例)
実際の日付は、法律/DPOおよび現地法によって決定されます。
15)ドキュメントと標準
データ製品ページ:所有者、宛先、SLA、スキーマ、DQルール、連絡先。
変更ログ:スキーマ/ロジックバージョン、インパクト分析、マイグレーション。
Runbooks:再処理、バックフィル、緊急シナリオ、フリーズ・ボタン。
16)実装ロードマップ
MVP (4-6週):1.データカタログと分類(トップドメイン)、基本的なスキームと登録。
2.レイクハウス青銅/シルバー、検証と重複排除と摂取。
3.1-2ゴールドケース(例)GGRと変換)。
4.最小DQルールと鮮度/完全性ダッシュボード。
5.保持ポリシーとアクセスRBAC。
フェーズ2(6-12週間):- リネージ、メトリックのセマンティック層、DSAR/RTBFプロシージャ。
- 地域化(EEA/UK)、規制工芸品のWORM、リーガルホールド。
- コスト最適化、SLOアラート、予算レポート。
- データメッシュ(ドメイン製品)、消費者主導の契約およびテスト。
- スキーム/ロジック、リプレイを変更するときの影響の自動シミュレーション。
- 単一のコンプライアンスパネル(規制、アクセス、DQ、系統)。
17)売り上げ前のチェックリスト
- 承認されたスキーム、レジスタ内の契約、互換性テスト。
- DQルールがアクティブで、アラートが設定され、SLOが設定されています。
- RBAC/ABACロールがチェックされ、アクセスログが有効になっています。
- Legal/DPOによって保持/削除/アーカイブポリシーが検証されました。
- DSAR/RTBF/Legal Holdプロシージャは文書化され、テストされます。
- ライン/メトリック/コストがダッシュボードに表示されます。
- backfill/reprocessing/DRのためのRunbooksは準備ができています。
18)頻繁なミスとそれらを回避する方法
単一の分類とディレクトリはありません。必須のData Productカードを入力します。
スキームのない生データ:スキーマファースト+CI検証。
取り外し不要:最初からTTLとRTBFを設計します。
PIIと分析ミックス:マッピングを個別に保存し、マスキングを適用します。
所有者とSLOのないゴールド:所有者と新鮮さの目標を割り当てます。
管理されていないコスト:バッチ、圧縮、階層型ストレージ、クォータ。
19)用語集(短い)
DSAR/RTBF-データ主体の要求/削除の権利。
法的保持-法的理由のための取り外しの凍結。
血統-起源と変換のトレーサビリティ。
Data Productは、SLAを使用したデータの管理製品ユニットです。
DQ-データ品質規則とメトリクス。
レイクハウス-データレイクとACIDテーブルの組み合わせ。
20)ボトムライン
データライフサイクルは、単なるファイルウェアハウスではなく、管理されたアレンジメントシステムです。明確な契約とスキーム、分類とカタログ、測定可能な品質、プライバシーとセキュリティ、費用対効果の高いストレージアーキテクチャ、透明性のあるリネージにより、データは驚きや隠れたリスクなしに製品、コンプライアンス、分析をサポートする信頼性の高い資産になります。