אופן החיים של הנתונים
1) מטרה ועקרונות
המטרה היא לאפשר תנועה צפויה, תואמת ואפקטיבית של נתונים מההתחלה ועד הסוף, תמיכה בתרחישים אנליטיים, תפעוליים ורגולטוריים.
עקרונות בסיסיים:- נתונים כמוצר: לכל סט יש בעלים, חוזה, SLO, תיעוד.
- סכימה-ראשון: תוכניות נדרשות; שינויים - באמצעות ורסינציה.
- פרטיות על ידי עיצוב: מזעור PII, פסאודונימיזציה, אחסון אזורי.
- תצפית על ידי ברירת מחדל: מדדים, כריתת גישה, שושלת.
- רמות אחסון, טי-טי-אל, דגימה, דחיסה.
2) שלבי מחזור חיים
2. 1 יצירת/איסוף
מקורות: מוצרים (web/mobile), גיבוי, תשלומים, ספקי KYC/AML, משחקים/אולפנים, שיווק, רישומי הפעלה.
מזהים: ”event _ id',” user. pseudo_id', 'session _ id',' trace _ id'.
חוזים: תוכניות JSON/Avro, ASYncAPI/OpenAPI.
איכות קלט: אימות של תוכניות, שדות חובה, גבולות גודל, אנטי-כפילויות.
פרטיות: אסימון של שדות רגישים, ניתוב GEA (EEA/UK/BR).
2. 2 בלע & Raw
Transport: HTTP/gRPC # Edge # bus (קפקא/רדפנדה).
שכבה גולמית (ברונזה): Append-only, imputable payms (עבור זיהוי פלילי), מחיצה לפי זמן/שוק/דייר.
פוליטיקאים: dedup by '(event_id, מקור) ", DLQ לאירועים" שבורים ", תגים משפטיים Hold.
2. 3 עיבוד וניקוי (Recine)
נורמליזציה (כסף): הקלדה, שכפול, ספריות, FX/timezones, העשרה.
איכות (DQ): שלמות/ייחודיות/טווחים/שלמות התייחסות.
עיבוד חוזר: מסועים אידמפוטנטים, מסע בזמן, מילוי גב מבוקר.
2. 4 שירות/שימוש
תצוגות זהב: BI/reporting (GGR, RG, AML), מוצר ודגמי סיכון.
גישה: SQL/Trino, שכבת מדטים סמנטית, API/GraphQL, Feature Store.
טריות SLA: למשל, תצוגות זהב יומיות מוכנות עד 06:00 זמן מקומי.
2. 5 שיתוף ופרסום
צרכנים פנימיים: אנליטיקה, מוצר, סיכון, ציות, שיווק, פיננסים.
הורדות חיצוניות: רגולטורים, שותפים/ספקים; חבילות בלתי ניתנות לשינוי (PDF/CSV/JSON + hash).
ערוצים מנוטרים: חפצים חתומים, ביקורת הורדות/יצוא.
2. 6 ארכיון/שמור
מדיניות השמירה: לפי סוג המידע וסמכות השיפוט (למשל: רגולטורי - 5-7 שנים).
שכבות אחסון: חם/חם/קר, מנעול תולעת/אובייקט לחוסר תזוזה.
אינדקס ארכיון: ספריות, תוויות גירסה/שוק, חיפוש מטא-נתונים מהיר.
2. 7 הסר וסיים (השלך)
הסרה נפוצה: TTL/שימור; ניקוי בטוח, עדכון אינדקסים.
עסקאות משפטיות: DSAR/RTBF (הזכות להישכח), חריגים לחובות אחסון חוקיות, Ligal Hold (הסרת הקפאה).
אימות: דוחות מחיקה, יומן ביקורת, בקרת העתק מוצלבת.
3) סיווג וקטלוג
קטגוריות רגישות: ציבורי/פנימי/חסוי/מוגבל.
תשלומים, משחק, היענות/AML, RG, שיווק, מבצעים, פיננסים.
קטלוג נתונים: תיאור, בעלים, רעננות SLA, מזימות, שושלות, רמות גישה.
"תחום השיפוט", "דייר", "pii _ class'," returation _ class', "legal _ hold'.
4) מודל בית לייקהאוס ושרטוטים
ברונזה/כסף/זהב: כללים ברורים לשינוי ואחריות.
פורמטים: Parquet + table format עם ACID (דלתא/קרחון/האדי).
התפתחות של מזימות: גרסאות סמנטיות, תאימות אורכית, נדידת כניסה כפולה לשינויים שבירת.
רישום סכימה, אימות המודיעיני של חוזים, בדיקות מונעות על ידי צרכנים.
5) איכות נתונים (DQ)
מדדים איכותיים:- שלמות, אחוז האירועים/שורות למעשה התקבל.
- תוקף: הפרופורציה של רשומות שעברו את אימות סכימה.
- ייחודיות: שליטה כפולה.
- עקביות: ציות לספרי עיון וקישורים.
- רעננות: הגעה מאוחרת/התממשות.
מנהגים:
כללי DQ כקוד (מבחני YAML/SQL), לוחות מחוונים, התראות SLO.
נסיגה אוטומטית בזמן הידרדרות (החתך הנכון האחרון).
6) פרטיות וציות
מזעור PII: לאחסן פסאודו-ID, לקחת מפיות לתוך לולאה מבודדת.
מיסוך ו ־ RLS/CLS: ברמת הטור/שורה; מדיניות דינמית.
Regionalization: התמחות בנתונים לפי שוק; ספריות נפרדות/מפתחות הצפנה.
DSAR/RTBF: תחזיות מבוקרות, עריכה סלקטיבית, בעיות ביקורת.
החזקה חוקית: סימני הקפאה, ארכיונים בלתי משתנים, רישום גישה.
7) גישה וביטחון
אימות/אישור: SSO, RBAC/ABAC, תכונות של תחום שיפוט ותפקידים.
הצפנה: TLS במעבר; במנוחה באמצעות KMS/CMK; סיבוב מפתח.
יומני גישה: מי/מה/מתי/איפה; התראות ליצוא המוני/סריקות.
הפרדת חובות: תפקידים שונים עבור פרוד/אנליטיקה/ניהול/ביקורות.
8) שושלות ויכולת תצפית
שושלת טכנית: ממקור * transformation ac showcases # דו "חות.
שושלות תפעוליות: קישורים עם שחרור, דגלים, מודלים, כללי AML/RG.
מדדי פלטפורמה: תפוקה, פיגור, תעריף כישלון, עלות/שאילתה, עלות/GB.
איתור: העברת "trace _ id' מיישומים למחסנים/התראות.
9) מודלים של זמן וסילוף
זמן האירוע נגד זמן העיבוד: זה יהיה זמן האירוע, סימני מים/איחור מותר.
גיבוי ועיבוד מחדש: צינורות אידמפוטנטים, מסע בזמן, שליטה על ”ספירה כפולה”.
הצלת מדינות: TTL, תמונות, התאוששות אסון.
10) כלכלה ופיקוח עלויות
החלוקה (תאריך/שוק/דייר), הזמנת מקבץ/Z.
דגימה עבור אנליטיקה בתדירות גבוהה (לא עבור עסקאות/ציות).
אחסון רב שכבתי (חם/חם/קר), TTL אוטומטי.
תקציב/צ 'רגק על ידי צוות, מגבלות על בקשות כבדות ומילוי גב.
11) תהליכים ו ־ RACI
R (אחראי): פלטפורמת נתונים (Inslegent/Storage/Armentation), הנדסת נתונים (Transformation), בעלי דומיין (Contracts/DQ/SLO).
ראש מחלקת נתונים/מידע ראשי.
C (ייעוץ): ציות/משפטי/DPO, ארכיטקטורה, SRE, אבטחה.
I (מיודע): BI/Third Diamond/Diamond Design/Diamond Design.
12) SLO/SLI (מטרות מדגם)
13) לוחות מחוונים
מפת חום טרייה לפי תחום/שוק.
שלמות/תוקף על ידי חוט.
עלות האחסון והשאילתות (שכבה ופקודה).
מפת השושלת לדיווחים קריטיים (רגולטוריים, GGR, RG/AML).
תורים של DSAR/RTBF, סטטוסים משפטיים Hold.
14) תבניות מדיניות שימור (דוגמה)
התאריכים נקבעים על פי החוק והמשפט המקומי.
15) תיעוד וסטנדרטים
עמוד מוצר נתונים: בעלים, יעד, SLA, תרשימים, כללי DQ, אנשי קשר.
שינוי יומן: סכימה/גירסאות לוגיקה, ניתוח השפעה, נדידה.
ריצות: עיבוד מחדש, הילוך אחורי, תרחישי חירום, כפתור פריז.
16) מימוש מפת דרכים
MVP (4-6 שבועות):1. קטלוג נתונים וסיווג (תחומים עליונים), תוכניות בסיסיות ורשימות.
2. האגם ברונזה/כסף, בליעה עם אימות ושכפול.
3. מזוודות זהב 1-2 (למשל: GGR והמרה).
4. מינימום כללי DQ ורעננות/לוח מחוונים שלמות.
5. מדיניות שמירה וגישה לאר-בי-סי.
שלב 2 (שבועות 6-12):- לינאז ', שכבה סמנטית של מדטים, הליכי DSAR/RTBF.
- Regionalization (EEA/UK), WORM עבור פריטים רגולטוריים, Ligal Hold.
- אופטימיזציה עלויות, התראות SLO, דיווח תקציב.
- Data Mesh (מוצרי דומיין), חוזים ובדיקות המונעים על ידי צרכנים.
- הדמיה אוטומטית של ההשפעה בעת שינוי מזימות/היגיון, חוזר.
- לוח ציות יחיד (רגולטורי, גישה, DQ, שושלת).
17) רשימת בדיקות לפני המכירה
[ ] הסכמות אושרו, חוזים בקופה, מבחני תאימות.
[ כללי DQ ] פעילים, התראות מוגדרות, SLOs נקבעים.
[ ] תפקידי RBAC/ABAC נבדקו, יומני הגישה הופעלו.
[ מדיניות השימור/המחיקה/הארכיון ] אושרה על ידי המחלקה המשפטית/DPO.
[ ] הליכי DSAR/RTBF/Legal Hold מתועדים ונבדקים.
[ ] לינאז '/מדטים/עלות מוצגים בלוחות מחוונים.
[ ] ספרי ריצה עבור הילוך אחורי/עיבוד מחדש/DR מוכנים.
18) טעויות תכופות וכיצד להימנע מהן
אין סיווג יחיד וספרייה: הזן כרטיסי מוצר נתונים חובה.
מידע גולמי ללא תוכניות: סכימה ראשונה + אימות CI.
אין הסרה: עיצוב TTLs ותהליכי RTBF מההתחלה.
מח "ש ואנליטיקה מתערבבים: מפות חנויות בנפרד, מיישמים מיסוך.
זהב ללא בעלים ו-SLO: הקצאת בעלים ומטרות רעננות.
עלות לא מנוהלת: חבורות, דחיסה, אחסון, מכסות.
19) גלוסרי (קצר)
DSAR/RTBF - בקשה/מחיקה ימינה של נושא המידע.
הקפאת מעצר משפטית מסיבות משפטיות.
שושלת - איתור מקור ושינויים.
מוצר נתונים (באנגלית: Data Product) היא יחידה מנוהלת של נתונים.
DQ - כללי איכות נתונים ומדדים.
אגם לייקהאוס המשלב אגם נתונים ושולחנות חומצה.
20) השורה התחתונה
אופן החיים של הנתונים הוא מערכת סידור מנוהלת, לא רק מחסן קבצים. חוזים ותוכניות ברורים, סיווג וקטלוג, איכות מדידה, פרטיות וביטחון, ארכיטקטורת אחסון חסכונית ושושלת שקופה הופכים את הנתונים לנכס אמין התומך במוצר, ציות ואנליטיקה ללא הפתעות וסיכונים נסתרים.