چرخه عمر داده ها
1) اهداف و اصول
هدف این است که امکان حرکت قابل پیش بینی، سازگار و مقرون به صرفه داده ها از ابتدا تا حالت نهایی، حمایت از سناریوهای تحلیلی، عملیاتی و نظارتی فراهم شود.
اصول اساسی:- داده به عنوان یک محصول: هر مجموعه دارای مالک، قرارداد، SLO، اسناد و مدارک است.
- Schema-first: طرح ها مورد نیاز هستند. تغییرات - از طریق نسخه.
- حریم خصوصی توسط طراحی: به حداقل رساندن PII، pseudonymization، ذخیره سازی منطقه ای.
- مشاهده به صورت پیش فرض: معیارها، ورود به سیستم دسترسی، اصل و نسب.
- هزینه آگاه: سطح ذخیره سازی، TTL، نمونه برداری، فشرده سازی.
2) مراحل چرخه زندگی
2. 1 ایجاد/جمع آوری
منابع: محصولات (وب/تلفن همراه)، پشتیبان گیری، پرداخت، ارائه دهندگان KYC/AML، بازی/استودیو، بازاریابی، سیاهههای مربوط به عملیات.
شناسه ها: 'event _ id'، 'کاربر. pseudo_id'، 'session _ id'، 'trace _ id'.
قراردادها: طرح های JSON/Avro، AsyncAPI/OpenAPI.
کیفیت ورودی: اعتبار سنجی طرح ها، زمینه های اجباری، محدودیت اندازه، ضد تکراری.
حریم خصوصی: نشانه گذاری زمینه های حساس، جغرافیایی مسیریابی (EEA/UK/BR).
2. 2 مصرف و خام
حمل و نقل: HTTP/gRPC → لبه → اتوبوس (کافکا/Redpanda).
لایه خام (برنز): اضافه کردن فقط، بارهای غیر قابل تغییر (برای پزشکی قانونی)، پارتیشن بندی شده توسط زمان/بازار/مستاجر.
سیاستمداران: توسط «(event_id، منبع)»، DLQ برای رویدادهای «شکسته»، برچسب های نگهداری قانونی.
2. 3 پردازش و تمیز کردن (اصلاح)
عادی سازی (نقره ای): تایپ کردن، deduplication، دایرکتوری ها، FX/timezones، غنی سازی.
کیفیت (DQ): کامل بودن/منحصر به فرد بودن/محدوده/یکپارچگی مرجع.
پردازش مجدد: نوار نقاله idempointent، زمان سفر، backfills کنترل می شود.
2. 4 خدمات/استفاده
ویترین طلا: BI/گزارش (GGR، RG، AML)، مدل های محصول و ریسک، ویترین در زمان واقعی.
دسترسی: SQL/Trino، لایه معیارهای معنایی، API/GraphQL، فروشگاه ویژگی.
تازگی SLA: به عنوان مثال، ویترین های روزانه طلا تا ساعت 6:00 به وقت محلی آماده هستند.
2. ۵ اشتراک گذاری و انتشار
مصرف کنندگان داخلی: تجزیه و تحلیل، محصول، ریسک، انطباق، بازاریابی، مالی.
بارهای خارجی: تنظیم کننده ها، شرکا/ارائه دهندگان ؛ بسته های غیر قابل تغییر (PDF/CSV/JSON + هش).
کانال های نظارت شده: مصنوعات امضا شده، بارگیری/صادرات حسابرسی.
2. 6 بایگانی/حفظ
سیاست های نگهداری: بر اساس نوع داده ها و صلاحیت (به عنوان مثال،. نظارتی - 5-7 سال).
لایه های ذخیره سازی: گرم/گرم/سرد، WORM/Object Lock برای تغییر ناپذیری.
نمایه سازی بایگانی: دایرکتوری ها، برچسب های نسخه/بازار، جستجوی سریع ابرداده.
2. 7 حذف و پایان (دفع)
حذف مشترک: TTL/احتباس ؛ تمیز کردن امن، به روز رسانی شاخص.
معاملات حقوقی: DSAR/RTBF (حق فراموش شدن)، استثنا برای تعهدات ذخیره سازی قانونی، نگهداری قانونی (حذف یخ).
تأیید: گزارش های حذف، گزارش حسابرسی، کنترل متقابل ماکت.
3) طبقه بندی و کاتالوگ
دسته بندی حساسیت: عمومی/داخلی/محرمانه/محدود.
Домены: پرداخت، گیم پلی، انطباق/AML، RG، بازاریابی، عملیات، امور مالی.
کاتالوگ داده ها: شرح، مالک، SLA طراوت، طرح، اصل و نسب، سطح دسترسی.
Теги: 'صلاحیت'، 'مستاجر'، 'pii _ class'، 'retention _ class'، 'legal _ hold'.
4) مدل دریاچه و شماتیک
برنز/نقره/طلا: قوانین روشن برای تحول و مسئولیت
فرمت ها: پارکت + قالب جدول با ACID (دلتا/کوه یخ/هودی).
تکامل طرح ها: نسخه های معنایی، سازگاری طولی، مهاجرت دو ورودی برای شکستن تغییرات.
رجیستری: ثبت طرح، اعتبار سنجی CI قراردادها، تست های مبتنی بر مصرف کننده.
5) کیفیت داده (DQ)
معیارهای کیفیت:- Completeness - درصد رویدادها/ردیف هایی که در واقع دریافت شده است.
- اعتبار: نسبت پرونده هایی که اعتبار سنجی طرح را گذرانده اند.
- منحصر به فرد: کنترل تکراری.
- سازگاری: انطباق با کتاب های مرجع و لینک ها.
- طراوت: تاخیر در ورود/تحقق.
- قوانین DQ به عنوان کد (آزمون YAML/SQL)، داشبورد، هشدار SLO.
- بازگشت خودکار در طول تخریب (آخرین برش صحیح).
6) حفظ حریم خصوصی و انطباق
PII minimization: ذخیره شبه شناسه، نگاشتها را به یک حلقه جدا شده.
پوشش و RLS/CLS: در سطح ستون/ردیف ؛ سیاست های دینامیک
منطقه سازی: اقامت داده ها توسط بازار ؛ دایرکتوری ها/کلید های رمزگذاری جداگانه.
DSAR/RTBF: پیش بینی های کنترل شده، ویرایش های انتخابی، مسائل حسابرسی.
حقوقی نگه دارید: علائم یخ، آرشیو بدون تغییر، ورود به سیستم دسترسی.
7) دسترسی و امنیت
احراز هویت/مجوز: SSO، RBAC/ABAC، ویژگی های حوزه های قضایی و نقش ها.
رمزگذاری: TLS در حمل و نقل ؛ در حالت استراحت از طریق KMS/CMK ؛ چرخش کلید
دسترسی به سیاهههای مربوط: چه کسی/چه/چه زمانی/کجا ؛ هشدار برای صادرات انبوه/اسکن.
تفکیک وظایف: نقشهای مختلف برای prod/analytics/admins/reviewers.
8) اصل و نسب و قابلیت مشاهده
اصل و نسب فنی: از منبع → تحول → ویترین → گزارش.
خط مشی عملیاتی: پیوندها با نسخه های منتشر شده، پرچم های ویژگی، مدل ها، قوانین AML/RG.
معیارهای پلت فرم: توان، تاخیر، نرخ شکست، هزینه/پرس و جو، هزینه/GB.
ردیابی: انتقال 'trace _ id' از برنامه ها به فروشگاه ها/هشدارها.
9) مدل های زمان و پردازش مجدد
زمان رویداد در مقابل زمان پردازش: приоритет زمان رویداد، علامت های سفید/تأخیر مجاز.
پر کردن و پردازش مجدد: خطوط لوله idempotent، زمان سفر، کنترل «شمارش دوگانه».
صرفه جویی در ایالات: TTL، عکس های فوری، بازیابی فاجعه.
10) اقتصاد و کنترل هزینه
پارتیشن بندی (تاریخ/بازار/مستاجر)، خوشه بندی/سفارش Z.
نمونه برداری برای تجزیه و تحلیل فرکانس بالا (نه برای معاملات/انطباق).
ذخیره سازی چند لایه (گرم/گرم/سرد)، TTL اتوماتیک.
بودجه/بازپرداخت توسط تیم، محدودیت در درخواست های سنگین و بازپرداخت.
11) فرآیندها و RACI
R (مسئول): پلت فرم داده (مصرف/ذخیره سازی/ارکستراسیون)، مهندسی داده (تحول)، صاحبان دامنه (قراردادها/DQ/SLO).
A (پاسخگو): رئیس داده/افسر ارشد داده.
C (مشورت): انطباق/قانونی/DPO، معماری، SRE، امنیت.
من (مطلع): BI/Продукт/Маркетинг/Финансы/Операции.
12) SLO/SLI (اهداف نمونه)
13) داشبورد
نقشه گرمای تازه بر اساس دامنه/بازار.
کامل بودن/اعتبار توسط موضوع.
هزینه ذخیره سازی و نمایش داده شد (توسط لایه و فرمان).
نقشه خطی برای گزارش های انتقادی (نظارتی، GGR، RG/AML).
صف DSAR/RTBF، وضعیت حقوقی نگه دارید.
14) قالب سیاست حفظ (به عنوان مثال)
تاریخ واقعی توسط Legal/DPO و قانون محلی تعیین می شود.
15) مستندات و استانداردها
داده ها صفحه محصول: مالک، مقصد، SLA، طرح، قوانین DQ، مخاطبین.
تغییر ورود به سیستم: نسخه طرح/منطق، تجزیه و تحلیل تاثیر، مهاجرت.
Runbooks: پردازش مجدد، پر کردن، سناریوهای اضطراری، دکمه فریز.
16) نقشه راه پیاده سازی
MVP (4-6 هفته):1. کاتالوگ داده ها و طبقه بندی (دامنه های برتر)، طرح های اساسی و ثبت نام.
2. Lakehouse برنز/نقره ای، مصرف با اعتبار و deduplication.
3. 1-2 موارد طلا (به عنوان مثال،. GGR و تبدیل).
4. حداقل قوانین DQ و داشبورد تازگی/کامل بودن.
5. سیاست های نگهداری و دسترسی به RBACs.
مرحله 2 (6-12 هفته):- Linage، لایه معنایی معیارها، روشهای DSAR/RTBF.
- منطقه ای (EEA/UK)، WORM برای مصنوعات نظارتی، نگهداری قانونی.
- بهینه سازی هزینه، هشدارهای SLO، گزارش بودجه.
- Data Mesh (محصولات دامنه)، قراردادها و آزمونهای مبتنی بر مصرف کننده.
- شبیه سازی خودکار تاثیر هنگام تغییر طرح/منطق، تکرار.
- پانل انطباق تنها (نظارتی، دسترسی، DQ، اصل و نسب).
17) چک لیست پیش فروش
- طرح های تایید شده، قراردادها در ثبت نام، تست سازگاری.
- قوانین DQ فعال هستند، هشدارها پیکربندی می شوند، SLO ها تنظیم می شوند.
- نقش RBAC/ABAC چک، سیاهههای مربوط به دسترسی را فعال کنید.
- سیاست های حفظ/حذف/بایگانی توسط Legal/DPO تأیید شده است.
- روش های DSAR/RTBF/Legal Hold مستند و آزمایش می شوند.
- خط/متریک/هزینه در داشبورد نمایش داده می شود.
- کتابهای اجرا برای پر کردن/پردازش مجدد/DR آماده هستند.
18) اشتباهات مکرر و چگونگی اجتناب از آنها
هیچ طبقه بندی و دایرکتوری واحد وجود ندارد: کارت های اجباری داده ها را وارد کنید.
دادههای خام بدون طرح: schema-first + CI validation
بدون حذف: طراحی TTL ها و فرآیندهای RTBF از ابتدا.
PII و تجزیه و تحلیل مخلوط: ذخیره نقشه ها به طور جداگانه، اعمال پوشش.
طلا بدون مالک و SLO: اهداف مالک و طراوت را تعیین کنید.
هزینه مدیریت نشده: دسته ها، فشرده سازی، ذخیره سازی لایه ای، سهمیه ها.
19) واژه نامه (کوتاه)
DSAR/RTBF - درخواست موضوع داده/حذف حق.
حقوقی نگه دارید - یخ حذف به دلایل قانونی.
Lineage - قابلیت ردیابی مبدا و تحولات.
محصول داده یک واحد محصول مدیریت شده از داده ها با SLA است.
DQ - قوانین و معیارهای کیفیت داده.
دریاچه - ترکیب دریاچه داده ها و جداول ACID.
20) خط پایین
چرخه عمر داده یک سیستم مدیریت شده است، نه فقط یک انبار فایل. قراردادها و طرح های روشن، طبقه بندی و کاتالوگ، کیفیت قابل اندازه گیری، حریم خصوصی و امنیت، معماری ذخیره سازی مقرون به صرفه و خطوط شفاف، داده ها را به یک دارایی قابل اعتماد تبدیل می کند که از محصول، انطباق و تجزیه و تحلیل بدون شگفتی و خطرات پنهان پشتیبانی می کند.