دورة حياة البيانات
1) الغرض والمبادئ
الهدف هو تمكين نقل البيانات بشكل يمكن التنبؤ به ومتوافق وفعال من حيث التكلفة من البداية إلى التصرف النهائي، ودعم السيناريوهات التحليلية والتشغيلية والتنظيمية.
المبادئ الأساسية:- البيانات كمنتج: لكل مجموعة مالك، عقد، SLO، وثائق.
- المخطط أولا: المخططات مطلوبة ؛ التغييرات - من خلال الإصدار.
- الخصوصية حسب التصميم: تقليل PII، تسمية مستعارة، تخزين إقليمي.
- الملاحظة الافتراضية: المقاييس، تسجيل الدخول، النسب.
- إدراك التكلفة: مستويات التخزين، TTL، أخذ العينات، الضغط.
2) مراحل دورة الحياة
2. 1 إنشاء/جمع
المصادر: المنتجات (الويب/الهاتف المحمول)، والنواحي الخلفية، والمدفوعات، ومقدمي خدمات KYC/AML، والألعاب/الاستوديوهات، والتسويق، وسجلات التشغيل.
المعرفات: «event _ id'،» user. pseudo_id', 'session _ id', 'trace _ id'.
العقود: مخططات JSON/Avro، AsyncAPI/OpenAPI.
جودة المدخلات: التحقق من صحة المخططات، والمجالات الإلزامية، وحدود الحجم، ومكافحة التكرار.
الخصوصية: ترميز الحقول الحساسة، ابتلاع التوجيه الجغرافي (EEA/UK/BR).
2. 2 Inster & Raw
النقل: HTTP/gRPC → Edge → bus (Kafka/Redpanda).
الطبقة الخام (البرونزية): حمولات غير قابلة للتغيير (للطب الشرعي) مرفقة فقط، مقسمة حسب الوقت/السوق/المستأجر.
السياسيون: التخلص من «(event_id، المصدر)»، DLQ للأحداث «المكسورة»، علامات Legal Hold.
2. 3 التجهيز والتنظيف (التكرير)
التطبيع (الفضة): الطباعة، التفريغ، الأدلة، العملات الأجنبية/المناطق الزمنية، الإثراء.
الجودة (DQ): الاكتمال/التفرد/النطاقات/السلامة المرجعية.
إعادة المعالجة: وسائل النقل الخفية، والسفر عبر الزمن، والردم الخاضع للرقابة.
2. 4 خدمة/استخدام
العروض الذهبية: BI/الإبلاغ (GGR، RG، AML)، نماذج المنتجات والمخاطر، معارض في الوقت الفعلي.
الوصول: SQL/Trino، طبقة المقاييس الدلالية، API/GraphQL، متجر الميزات.
نضارة SLA: على سبيل المثال، العروض الذهبية اليومية جاهزة حتى الساعة 06:00 بالتوقيت المحلي.
2. 5 شارك ونشر
المستهلكون الداخليون: التحليلات، المنتج، المخاطر، الامتثال، التسويق، التمويل.
التفريغ الخارجي: المنظمون والشركاء/مقدمو الخدمات ؛ (PDF/CSV/JSON + hash).
القنوات المرصودة: القطع الأثرية الموقعة، تنزيلات/صادرات مراجعة الحسابات.
2. 6 أرشيف/احتفظ
سياسات الاحتفاظ: حسب نوع البيانات والولاية القضائية (مثلاً) التنظيم - 5-7 سنوات).
طبقات التخزين: ساخنة/دافئة/باردة، WORM/Object Lock للثبات.
فهرسة الأرشيف: الأدلة، الإصدار/ملصقات السوق، البحث السريع في البيانات الوصفية.
2. 7 إزالة وإنهاء (تخلص)
الإزالة الشائعة: TTL/الاحتفاظ بها ؛ التنظيف الآمن، وتحديث الفهارس.
المعاملات القانونية: DSAR/RTBF (الحق في النسيان)، استثناءات لالتزامات التخزين القانونية، Legal Hold (تجميد الإزالة).
التحقق: تقارير الحذف، وسجل مراجعة الحسابات، ومراقبة النسخ المقلدة.
3) التصنيف والفهرس
فئات الحساسية: العامة/الداخلية/السرية/المقيدة.
Домены: المدفوعات، طريقة اللعب، الامتثال/AML، RG، التسويق، العمليات، التمويل.
كتالوج البيانات: الوصف، المالك، نضارة SLA، المخططات، النسب، مستويات الوصول.
Теги: "الولاية القضائية"، "المستأجر"، "pii _ class'،" الاحتفاظ _ class'، "القانوني _ hold'.
4) نموذج البحيرة والتخطيطات
البرونز/الفضة/الذهب: قواعد واضحة للتحول والمسؤولية.
التنسيقات: Parquet + table formation with ACID (Delta/Iceberg/Hudi).
تطور المخططات: الإصدارات الدلالية، التوافق الطولي، هجرات الدخول المزدوج لكسر التغييرات.
السجل: سجل المخططات، التحقق من صحة العقود، الاختبارات التي يحركها المستهلك.
5) جودة البيانات (DQ)
مقاييس الجودة:- الاكتمال - النسبة المئوية للأحداث/الصفوف التي تم تلقيها بالفعل.
- الصلاحية: نسبة السجلات التي اجتازت عملية التحقق من صحة المخطط.
- التفرد: التحكم المكرر.
- الاتساق: الامتثال للكتب والوصلات المرجعية.
- النضارة: تأخر الوصول/التجسيد.
- قواعد DQ كرمز (اختبارات YAML/SQL)، لوحات القيادة، تنبيهات SLO.
- التراجع التلقائي أثناء التحلل (آخر قطع صحيح).
6) الخصوصية والامتثال
تقليل PII: تخزين معرف زائف، خذ الخرائط في حلقة معزولة.
القناع و RLS/CLS: على مستوى العمود/الصف ؛ سياسات دينامية.
الهيكلة الإقليمية: الإقامة في البيانات حسب السوق ؛ أدلة منفصلة/مفاتيح تشفير.
DSAR/RTBF: الإسقاطات الخاضعة للرقابة، والتعديلات الانتقائية، ومسائل مراجعة الحسابات.
عقد قانوني: علامات التجميد، عدم تغيير المحفوظات، تسجيل الدخول.
7) الوصول والأمن
التوثيق/الإذن: مكتب الإحصاء السوداني، والمكتب الإقليمي لآسيا والمحيط الهادئ/مركز البحوث الزراعية، وخصائص الولايات القضائية والأدوار.
التشفير: TLS أثناء العبور ؛ وأثناء الاستراحة عن طريق KMS/CMK ؛ دوران المفتاح.
سجلات الدخول: من/ماذا/متى/أين ؛ تنبيهات للصادرات/عمليات المسح الضخمة.
الفصل بين الواجبات: أدوار مختلفة للدفع/التحليلات/الإدارات/المراجعين.
8) النسب وقابلية الملاحظة
النسب التقني: من المصدر → التحول → تعرض التقارير →.
النسب التشغيلي: روابط مع الإصدارات، أعلام الميزات، النماذج، قواعد مكافحة غسل الأموال/النمو الحقيقي.
مقاييس المنصة: الإنتاجية، التأخر، معدل الفشل، التكلفة/الاستعلام، التكلفة/جيجابايت.
التعقب: نقل 'التعقب' من التطبيقات إلى واجهات المحلات/التنبيهات.
9) النماذج الزمنية والمعالجات التراجعية
وقت الحدث مقابل وقت المعالجة: وقت الحدث приоритет، العلامات المائية/التأخير المسموح به.
الردم وإعادة المعالجة: خطوط الأنابيب الخفية، والسفر عبر الزمن، والتحكم في «العد المزدوج».
حالات التوفير: TTL، اللقطات، التعافي من الكوارث.
10) الاقتصاد ومراقبة التكاليف
التقسيم (التاريخ/السوق/المستأجر)، التجميع/الطلب Z.
أخذ العينات لتحليلات الترددات العالية (وليس للمعاملات/الامتثال).
تخزين متعدد الطبقات (ساخن/دافئ/بارد)، TTL تلقائي.
الميزانية/استرداد التكاليف من قبل الفريق، والقيود المفروضة على الطلبات الثقيلة والملء.
11) العمليات و RACI
R (مسؤول): منصة البيانات (ابتلاع/تخزين/تنسيق)، هندسة البيانات (التحويل)، مالكو المجال (العقود/DQ/SLO).
ألف (مسؤول): رئيس قسم البيانات/كبير موظفي البيانات.
جيم (استشاري): الامتثال/القانون/إدارة الشؤون السياسية، الهندسة المعمارية، SRE، الأمن.
أنا (أبلغت): BI/Продукт/Маркетинг/Финансы/Операции.
12) SLO/SLI (عينة أهداف)
13) لوحات القيادة
خريطة الحرارة النضرة حسب المجال/السوق.
الاكتمال/الصلاحية بالخيط.
تكلفة التخزين والاستفسارات (حسب الطبقة والأمر).
خريطة النسب للتقارير النقدية (التنظيم، GGR، RG/AML).
طوابير DSAR/RTBF، حالات الاحتفاظ القانونية.
14) نماذج سياسة الاحتفاظ (مثال)
يتم تحديد التواريخ الفعلية من قبل القانون/DPO والقانون المحلي.
15) الوثائق والمعايير
صفحة منتج البيانات: المالك، الوجهة، SLA، المخططات، قواعد DQ، جهات الاتصال.
سجل التغيير: نسخ المخطط/المنطق، تحليل الأثر، الهجرات.
دفاتر التشغيل: إعادة المعالجة، الردم، سيناريوهات الطوارئ، زر الإفريز.
16) خارطة طريق التنفيذ
أفضل لاعب (4-6 أسابيع):1. فهرس البيانات وتصنيفها (المجالات العليا)، والمخططات الأساسية والتسجيل.
2. Lakehouse Bronze/Silver، ابتلاع مع التحقق والتفريغ.
3. 1-2 الصناديق الذهبية (على سبيل المثال GGR والتحويل).
4. الحد الأدنى من قواعد DQ ولوحة تحكم النضارة/الاكتمال.
5. سياسات الاستبقاء والوصول إلى المكاتب الإقليمية لآسيا والمحيط الهادئ.
المرحلة 2 (6-12 أسبوعاً):- نسب، طبقة دلالية من المقاييس، إجراءات DSAR/RTBF.
- Regionalisation (EEA/UK)، WORM للمصنوعات اليدوية التنظيمية، Legal Hold.
- تحسين التكاليف، تنبيهات SLO، تقارير الميزانية.
- شبكة البيانات (منتجات المجال)، العقود والاختبارات التي يحركها المستهلك.
- المحاكاة التلقائية للتأثير عند تغيير المخططات/المنطق، إعادة التشغيل.
- فريق امتثال واحد (التنظيم، الوصول، DQ، النسب).
17) قائمة مرجعية قبل البيع
- المخططات المعتمدة، والعقود المسجلة، واختبارات التوافق.
- قواعد DQ نشطة، ويتم تكوين التنبيهات، ويتم تعيين SLOs.
- تم التحقق من أدوار RBAC/ABAC، وتم تمكين سجلات الوصول.
- تم التصديق على سياسات الاحتفاظ/الحذف/المحفوظات من قبل Legal/DPO.
- يتم توثيق واختبار إجراءات DSAR/RTBF/Legal Hold.
- يتم عرض النسب/المقاييس/التكلفة في لوحات القيادة.
- دفاتر التشغيل للردم/إعادة المعالجة/DR جاهزة.
18) الأخطاء المتكررة وكيفية تجنبها
لا يوجد تصنيف ودليل واحد: أدخل بطاقات منتج البيانات الإلزامية.
البيانات الخام بدون مخططات: التحقق من صحة المخطط أولاً + CI.
لا يمكن إزالتها: عمليات تصميم TTLs و RTBF منذ البداية.
مزيج PII والتحليلات: تخزين الخرائط بشكل منفصل، ضع القناع.
الذهب بدون مالك و SLO: تعيين المالك وأهداف النضارة.
التكلفة غير المدارة: دفعات، ضغط، تخزين متدرج، حصص.
19) مسرد (موجز)
DSAR/RTBF - طلب موضوع البيانات/حذف الحق.
تعليق قانوني - تجميد الإبعاد لأسباب قانونية.
النسب - إمكانية تتبع المنشأ والتحولات.
Data Product هي وحدة منتج مُدارة من البيانات مع SLAs.
DQ - قواعد ومقاييس جودة البيانات.
البحيرة - تجمع بين بحيرة البيانات وجداول ACID.
20) خلاصة القول
دورة حياة البيانات هي نظام ترتيب مُدار، وليس مجرد مستودع ملفات. تجعل العقود والمخططات الواضحة والتصنيف والكتالوج والجودة القابلة للقياس والخصوصية والأمن وهندسة التخزين الفعالة من حيث التكلفة والنسب الشفاف البيانات أصولًا موثوقة تدعم المنتج والامتثال والتحليلات دون مفاجآت ومخاطر خفية.