GH GambleHub

چرخه عمر داده ها

1) اهداف و اصول

هدف این است که امکان حرکت قابل پیش بینی، سازگار و مقرون به صرفه داده ها از ابتدا تا حالت نهایی، حمایت از سناریوهای تحلیلی، عملیاتی و نظارتی فراهم شود.

اصول اساسی:
  • داده به عنوان یک محصول: هر مجموعه دارای مالک، قرارداد، SLO، اسناد و مدارک است.
  • Schema-first: طرح ها مورد نیاز هستند. تغییرات - از طریق نسخه.
  • حریم خصوصی توسط طراحی: به حداقل رساندن PII، pseudonymization، ذخیره سازی منطقه ای.
  • مشاهده به صورت پیش فرض: معیارها، ورود به سیستم دسترسی، اصل و نسب.
  • هزینه آگاه: سطح ذخیره سازی، TTL، نمونه برداری، فشرده سازی.

2) مراحل چرخه زندگی

2. 1 ایجاد/جمع آوری

منابع: محصولات (وب/تلفن همراه)، پشتیبان گیری، پرداخت، ارائه دهندگان KYC/AML، بازی/استودیو، بازاریابی، سیاهههای مربوط به عملیات.
شناسه ها: 'event _ id'، 'کاربر. pseudo_id'، 'session _ id'، 'trace _ id'.
قراردادها: طرح های JSON/Avro، AsyncAPI/OpenAPI.
کیفیت ورودی: اعتبار سنجی طرح ها، زمینه های اجباری، محدودیت اندازه، ضد تکراری.
حریم خصوصی: نشانه گذاری زمینه های حساس، جغرافیایی مسیریابی (EEA/UK/BR).

2. 2 مصرف و خام

حمل و نقل: HTTP/gRPC → لبه → اتوبوس (کافکا/Redpanda).
لایه خام (برنز): اضافه کردن فقط، بارهای غیر قابل تغییر (برای پزشکی قانونی)، پارتیشن بندی شده توسط زمان/بازار/مستاجر.
سیاستمداران: توسط «(event_id، منبع)»، DLQ برای رویدادهای «شکسته»، برچسب های نگهداری قانونی.

2. 3 پردازش و تمیز کردن (اصلاح)

عادی سازی (نقره ای): تایپ کردن، deduplication، دایرکتوری ها، FX/timezones، غنی سازی.
کیفیت (DQ): کامل بودن/منحصر به فرد بودن/محدوده/یکپارچگی مرجع.
پردازش مجدد: نوار نقاله idempointent، زمان سفر، backfills کنترل می شود.

2. 4 خدمات/استفاده

ویترین طلا: BI/گزارش (GGR، RG، AML)، مدل های محصول و ریسک، ویترین در زمان واقعی.
دسترسی: SQL/Trino، لایه معیارهای معنایی، API/GraphQL، فروشگاه ویژگی.
تازگی SLA: به عنوان مثال، ویترین های روزانه طلا تا ساعت 6:00 به وقت محلی آماده هستند.

2. ۵ اشتراک گذاری و انتشار

مصرف کنندگان داخلی: تجزیه و تحلیل، محصول، ریسک، انطباق، بازاریابی، مالی.
بارهای خارجی: تنظیم کننده ها، شرکا/ارائه دهندگان ؛ بسته های غیر قابل تغییر (PDF/CSV/JSON + هش).
کانال های نظارت شده: مصنوعات امضا شده، بارگیری/صادرات حسابرسی.

2. 6 بایگانی/حفظ

سیاست های نگهداری: بر اساس نوع داده ها و صلاحیت (به عنوان مثال،. نظارتی - 5-7 سال).
لایه های ذخیره سازی: گرم/گرم/سرد، WORM/Object Lock برای تغییر ناپذیری.
نمایه سازی بایگانی: دایرکتوری ها، برچسب های نسخه/بازار، جستجوی سریع ابرداده.

2. 7 حذف و پایان (دفع)

حذف مشترک: TTL/احتباس ؛ تمیز کردن امن، به روز رسانی شاخص.
معاملات حقوقی: DSAR/RTBF (حق فراموش شدن)، استثنا برای تعهدات ذخیره سازی قانونی، نگهداری قانونی (حذف یخ).
تأیید: گزارش های حذف، گزارش حسابرسی، کنترل متقابل ماکت.

3) طبقه بندی و کاتالوگ

دسته بندی حساسیت: عمومی/داخلی/محرمانه/محدود.
Домены: پرداخت، گیم پلی، انطباق/AML، RG، بازاریابی، عملیات، امور مالی.
کاتالوگ داده ها: شرح، مالک، SLA طراوت، طرح، اصل و نسب، سطح دسترسی.
Теги: 'صلاحیت'، 'مستاجر'، 'pii _ class'، 'retention _ class'، 'legal _ hold'.

4) مدل دریاچه و شماتیک

برنز/نقره/طلا: قوانین روشن برای تحول و مسئولیت

فرمت ها: پارکت + قالب جدول با ACID (دلتا/کوه یخ/هودی).
تکامل طرح ها: نسخه های معنایی، سازگاری طولی، مهاجرت دو ورودی برای شکستن تغییرات.
رجیستری: ثبت طرح، اعتبار سنجی CI قراردادها، تست های مبتنی بر مصرف کننده.

5) کیفیت داده (DQ)

معیارهای کیفیت:
  • Completeness - درصد رویدادها/ردیف هایی که در واقع دریافت شده است.
  • اعتبار: نسبت پرونده هایی که اعتبار سنجی طرح را گذرانده اند.
  • منحصر به فرد: کنترل تکراری.
  • سازگاری: انطباق با کتاب های مرجع و لینک ها.
  • طراوت: تاخیر در ورود/تحقق.
شیوه ها:
  • قوانین DQ به عنوان کد (آزمون YAML/SQL)، داشبورد، هشدار SLO.
  • بازگشت خودکار در طول تخریب (آخرین برش صحیح).

6) حفظ حریم خصوصی و انطباق

PII minimization: ذخیره شبه شناسه، نگاشتها را به یک حلقه جدا شده.

پوشش و RLS/CLS: در سطح ستون/ردیف ؛ سیاست های دینامیک

منطقه سازی: اقامت داده ها توسط بازار ؛ دایرکتوری ها/کلید های رمزگذاری جداگانه.
DSAR/RTBF: پیش بینی های کنترل شده، ویرایش های انتخابی، مسائل حسابرسی.
حقوقی نگه دارید: علائم یخ، آرشیو بدون تغییر، ورود به سیستم دسترسی.

7) دسترسی و امنیت

احراز هویت/مجوز: SSO، RBAC/ABAC، ویژگی های حوزه های قضایی و نقش ها.

رمزگذاری: TLS در حمل و نقل ؛ در حالت استراحت از طریق KMS/CMK ؛ چرخش کلید

دسترسی به سیاهههای مربوط: چه کسی/چه/چه زمانی/کجا ؛ هشدار برای صادرات انبوه/اسکن.
تفکیک وظایف: نقشهای مختلف برای prod/analytics/admins/reviewers.

8) اصل و نسب و قابلیت مشاهده

اصل و نسب فنی: از منبع → تحول → ویترین → گزارش.
خط مشی عملیاتی: پیوندها با نسخه های منتشر شده، پرچم های ویژگی، مدل ها، قوانین AML/RG.
معیارهای پلت فرم: توان، تاخیر، نرخ شکست، هزینه/پرس و جو، هزینه/GB.
ردیابی: انتقال 'trace _ id' از برنامه ها به فروشگاه ها/هشدارها.

9) مدل های زمان و پردازش مجدد

زمان رویداد در مقابل زمان پردازش: приоритет زمان رویداد، علامت های سفید/تأخیر مجاز.
پر کردن و پردازش مجدد: خطوط لوله idempotent، زمان سفر، کنترل «شمارش دوگانه».
صرفه جویی در ایالات: TTL، عکس های فوری، بازیابی فاجعه.

10) اقتصاد و کنترل هزینه

پارتیشن بندی (تاریخ/بازار/مستاجر)، خوشه بندی/سفارش Z.
نمونه برداری برای تجزیه و تحلیل فرکانس بالا (نه برای معاملات/انطباق).
ذخیره سازی چند لایه (گرم/گرم/سرد)، TTL اتوماتیک.
بودجه/بازپرداخت توسط تیم، محدودیت در درخواست های سنگین و بازپرداخت.

11) فرآیندها و RACI

R (مسئول): پلت فرم داده (مصرف/ذخیره سازی/ارکستراسیون)، مهندسی داده (تحول)، صاحبان دامنه (قراردادها/DQ/SLO).
A (پاسخگو): رئیس داده/افسر ارشد داده.
C (مشورت): انطباق/قانونی/DPO، معماری، SRE، امنیت.
من (مطلع): BI/Продукт/Маркетинг/Финансы/Операции.

12) SLO/SLI (اهداف نمونه)

شاخص هاهدف از طراحی
طراوت نقره ای p95≤ 15 دقیقه
ویترین های روزانه طلاتا ساعت 6 قفل ميشه. زمان
کامل بودن за T≥ 99. 5%
اعتبار (طرح)≥ 99. 9%
در دسترس بودن گشت و گذار≥ 99. 9%
زمان پاسخ DSAR≤ 30 روز (سخت تر توسط قانون محلی)

13) داشبورد

نقشه گرمای تازه بر اساس دامنه/بازار.
کامل بودن/اعتبار توسط موضوع.
هزینه ذخیره سازی و نمایش داده شد (توسط لایه و فرمان).
نقشه خطی برای گزارش های انتقادی (نظارتی، GGR، RG/AML).
صف DSAR/RTBF، وضعیت حقوقی نگه دارید.

14) قالب سیاست حفظ (به عنوان مثال)

کلاس دادهداغ شدنگرم کردنبایگانی (کرم)مجموع TTL
معاملات پرداخت7 دی60 دی7 سال7 سال
رویدادهای بازی (تجزیه و تحلیل)3 دی30 دی1-2 سال1-2 سال
انطباق/مصنوعات AML14 دی90 دی5-7 سال5-7 سال
سیاهههای مربوط به عملیات3 دی30 دی1 سال1 سال

تاریخ واقعی توسط Legal/DPO و قانون محلی تعیین می شود.

15) مستندات و استانداردها

داده ها صفحه محصول: مالک، مقصد، SLA، طرح، قوانین DQ، مخاطبین.
تغییر ورود به سیستم: نسخه طرح/منطق، تجزیه و تحلیل تاثیر، مهاجرت.
Runbooks: پردازش مجدد، پر کردن، سناریوهای اضطراری، دکمه فریز.

16) نقشه راه پیاده سازی

MVP (4-6 هفته):

1. کاتالوگ داده ها و طبقه بندی (دامنه های برتر)، طرح های اساسی و ثبت نام.

2. Lakehouse برنز/نقره ای، مصرف با اعتبار و deduplication.

3. 1-2 موارد طلا (به عنوان مثال،. GGR و تبدیل).

4. حداقل قوانین DQ و داشبورد تازگی/کامل بودن.

5. سیاست های نگهداری و دسترسی به RBACs.

مرحله 2 (6-12 هفته):
  • Linage، لایه معنایی معیارها، روشهای DSAR/RTBF.
  • منطقه ای (EEA/UK)، WORM برای مصنوعات نظارتی، نگهداری قانونی.
  • بهینه سازی هزینه، هشدارهای SLO، گزارش بودجه.
مرحله 3 (12 + هفته):
  • Data Mesh (محصولات دامنه)، قراردادها و آزمونهای مبتنی بر مصرف کننده.
  • شبیه سازی خودکار تاثیر هنگام تغییر طرح/منطق، تکرار.
  • پانل انطباق تنها (نظارتی، دسترسی، DQ، اصل و نسب).

17) چک لیست پیش فروش

  • طرح های تایید شده، قراردادها در ثبت نام، تست سازگاری.
  • قوانین DQ فعال هستند، هشدارها پیکربندی می شوند، SLO ها تنظیم می شوند.
  • نقش RBAC/ABAC چک، سیاهههای مربوط به دسترسی را فعال کنید.
  • سیاست های حفظ/حذف/بایگانی توسط Legal/DPO تأیید شده است.
  • روش های DSAR/RTBF/Legal Hold مستند و آزمایش می شوند.
  • خط/متریک/هزینه در داشبورد نمایش داده می شود.
  • کتابهای اجرا برای پر کردن/پردازش مجدد/DR آماده هستند.

18) اشتباهات مکرر و چگونگی اجتناب از آنها

هیچ طبقه بندی و دایرکتوری واحد وجود ندارد: کارت های اجباری داده ها را وارد کنید.

دادههای خام بدون طرح: schema-first + CI validation

بدون حذف: طراحی TTL ها و فرآیندهای RTBF از ابتدا.
PII و تجزیه و تحلیل مخلوط: ذخیره نقشه ها به طور جداگانه، اعمال پوشش.
طلا بدون مالک و SLO: اهداف مالک و طراوت را تعیین کنید.
هزینه مدیریت نشده: دسته ها، فشرده سازی، ذخیره سازی لایه ای، سهمیه ها.

19) واژه نامه (کوتاه)

DSAR/RTBF - درخواست موضوع داده/حذف حق.
حقوقی نگه دارید - یخ حذف به دلایل قانونی.
Lineage - قابلیت ردیابی مبدا و تحولات.
محصول داده یک واحد محصول مدیریت شده از داده ها با SLA است.
DQ - قوانین و معیارهای کیفیت داده.
دریاچه - ترکیب دریاچه داده ها و جداول ACID.

20) خط پایین

چرخه عمر داده یک سیستم مدیریت شده است، نه فقط یک انبار فایل. قراردادها و طرح های روشن، طبقه بندی و کاتالوگ، کیفیت قابل اندازه گیری، حریم خصوصی و امنیت، معماری ذخیره سازی مقرون به صرفه و خطوط شفاف، داده ها را به یک دارایی قابل اعتماد تبدیل می کند که از محصول، انطباق و تجزیه و تحلیل بدون شگفتی و خطرات پنهان پشتیبانی می کند.

Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

Telegram
@Gamble_GC
شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.