ארכיטקטורת זרימת נתונים
1) מטרה ועקרונות
מטרות: לספק נתונים נכונים, בזמן ותאימים לאנליטיקה, דיווח, אנטי-הונאה, התאמה אישית ו-ML.
עקרונות:- נתונים כמוצר: בעלים ברורים, חוזים, SLOs ו-Versioning.
- סכימה-ראשון: תוכניות נדרשות; אבולוציה לפי חוקים.
- פרטיות על ידי עיצוב: מזעור PII, שינוי, בקרת גישה.
- תצפית לפי ברירת מחדל: עקבות, מדדים, שושלות, פרופילים איכותיים.
- עלות מודעת: אחסון נוטה, דגימה אירועים רועשים, דחיסה.
2) מקור ונוף אירועים
העברה: הפקדות/משיכות, הימורים/תשלום, בונוסים, גב מטען.
משתמש: הפעלות, קליקים, המרות, גבולות RG, סטטוסים של KYC.
הפעלה: רישומי יישומים, מדדי ביצועים, התראות.
ספקים: PSP/KYC/סנקציות/game studios (אגרגטורים).
התייחסות: קטלוגי משחקים, ספריות מדינה/מטבע, תעריפים/מסים.
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3) ארכיטקטורת התייחסות ברמה גבוהה
1. שכבה בולעת
Gateways (HTTP/gRPC), CDC מחברים (מ-OLTP), תורים/אוטובוסים (קפקא/רדפנדה), אספני טלמטריה.
אימות, נורמליזציה, מהדורת מח "ש בקלט, אכיפת חוזים.
2. שכבה זורמת
Stream Jabs (Flink/Spark Structured Streaming/Beam).
מאוורר לאחסון ושירותים מקוונים (פיצ 'סטור, אנטי הונאה).
3. שכבת אצווה
תזמור (Airflow/Dagster), הורדות אינקרמנטליות, מבחנים אחוריים וסוגי retroprocessions, SCD.
4. אחסון (בית האגם)
ברונזה: אירועים גולמיים (נספחים בלבד, בלתי ניתנים לשינוי).
כסף: טבלאות נקיות, קונפורמיות עם איכות ושכפול.
זהב: תצוגות/מארט עבור מקרים ספציפיים (BI/רגולטור/ML).
תבניות שולחן עם חומצה (דלתא/קרחון/האדי), שכבות חמות/חמות/קרות.
5. הגשה וגישה
BI/SQL (Trino/Presto/DuckDB), שכבה סמנטית (metrics layer), API/GraphQL, Feature Store עבור עקביות מקוונת/לא מקוונת.
6. ממשל ובטיחות
ספרייה/ליין, כללי DQ, מנוע גישה פוליטי (RBAC/ABAC), מיסוך/טוקניזציה, ארכיון תולעת לדיווחים.
4) חוזים ותוכניות
חוזי נתונים: OpenAPI/ASyncAPI/JSON Schema/Avro.
אבולוציה: גרסאות סמנטיות; שינויים תואמים אחורנית - הוספת שדות נאול; פריצה רק עם '/v2 'וכניסה כפולה לתקופת הנדידה.
רשמים: רשום סכימה, תיקיית דומיין (תשלומים, משחק, שיווק).
5) תבניות אינטגרציה
CDC (Change Data Capture): מ-OLTP לאוטובוס (Debezium), חלוקת מפתחות דומיין.
תיבת מוצא/תיבת דואר אלקטרוני: מובטח משלוח של אירועי היגיון תחום.
בדיוק-פעם/ביעילות-פעם: עסקאות במדינה, כיור אידמפוטנטי של, מפתחות שכפול.
נתונים וסימני מים מאוחרים: טיפול באירועים מאוחרים; חלונות עם איחור מותר.
עיבוד מחדש: צינורות אידמפוטנטים, מסע בזמן, תיקוני צילום.
6) דגם בית האגם: ברונזה/כסף/זהב
ברונזה (נא):- זמן (event_date) ומסיבות שוק (שיפוט).
- תוספת בלבד; אחסון של המטען המקורי לזיהוי פלילי.
- סוגים מנורמלים, ספרי עיון, שכפול על ידי '(event_id, event_time)'.
- אימות FK, תקן מטבע/זמן, העשרה.
- Denormalized Showcases (GGR, ניקוד RG, LTV, טבלאות קוהורט).
- SLA לעדכון, צבירה עבור BI ודיווח.
7) איכות נתונים
חוקים: אימות מעגל, טווחים, ייחודיות, שלמות, שלמות התייחסות.
פרופיל: הפצה, קרדינליות, ”סחיפה” של סימנים.
ניטור: p50/p95 עיכוב צינור, ירידה בקצב, תקציב שגיאה.
מדיניות הידרדרות: נסיגה אוטומטית (צילום אחרון), התראות ובדיקות T למדדים.
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8) פרטיות וציות
מזעור ומסיכות: אחסון פסאודו-זיהוי, מפיות חיפוש נפרדות.
Regionalization: Geo-מקומי דליים/קטלוגים (EEA/UK/BR), ”תושבות נתונים”.
פעולות משפטיות: DSAR/RTBF (תחזיות חישוביות ועריכה סלקטיבית), Ligal Hold, Unternable Report Archives.
רישום גישה: ביקורת רישומים של שולחנות ”רגישים”, פריצת זכוכית וגישה של JIT.
9) יכולת תצפית וניהול
Linege-אוטומטית עקבות תלויות מהמקור לחזית החנות.
מדדי צינור: תפוקה, פיגור, תעריף כישלון, עלות/GB, עלות/שאילתה.
Trace (Otel): "trace _ id' מיישומים נזרק לאירועים * אנו בונים מסלול בקשה מקצה לקצה.
התראות: תקציבי SLO, רעננות/נפח/חריגות קרדינליות.
10) מודל גישה וביטחון
קטגוריות נתונים: ציבורי/פנימי/חסוי/מוגבל.
מדיניות: אבטחה ברמת שורה/עמודה; מיסוך דינמי (PAN/IBAN/דוא "ל).
ניהול מפתחות: KMS/CMK, at-rest/in-transit הצפנה, סיבוב.
הפרדה בין חובות: תפקידים נפרדים של פרוד/אנליסט/מנהל/מבקר.
11) גישת נתונים ומוצרים
תשלומים, משחק, שיווק, סיכון, ציות.
מוצר נתונים: בעלים, רעננות SLA, מילון שדה, בדיקות, גרסאות, מטרי צריכה.
חוזים בין תחומים: מבחנים מודרכים, תואמים לאחור, מונעים על ידי צרכנים.
12) זרמי פיכסטור ו ־ ML
רישום מאפיינים: תיאור מאפיין, מקורות, טרנספורמציות, SLO.
עקביות מקוונת/מקוונת: קוד טרנספורמציה אחד, התממשות מקוונת לעכב 200-500 ms.
ניטור סחיפה: PSI/KS, התראות אוטומטיות וחילופי דגמים, בקרת מח "ש.
כתב עת של ניסויים: metadata, גרסאות, רבייה, מפות מודל.
13) דוגמנית ועלות אופטימיזציה
מחיצה והזמנה/אשכול לפי תחזיות תכופות.
אחסון קר וטי-טי-אל לשולחנות לא בשימוש, ואקום.
תצוגות ממומשות רק לדפוסי שאילתה יציבים.
מכסות ותקציבים לעבודות כבדות; רכיבה על ידי צוות.
14) טופולוגיה אזורית ורב דייר
רב-אזורי פעיל-פעיל: שכפול של נושאים ושולחנות, היקפי צינור עצמאיים.
כושלים/DR: מטרות RPO/RTO, צילומי metadata תזמור, בדיקת התאוששות.
רב-שכבתיות: ספרייה/מפתח/מכסה בידוד, סימון tenant_id.
15) תהליכים ו ־ RACI (בקיצור)
R: פלטפורמת נתונים (בלע, אחסון, תזמור), הנדסת נתונים (טרנספורמציה).
א ': ראש מחלקת נתונים/קצין נתונים ראשי.
C: ציות/משפטי/DPO, ארכיטקטורה, SRE.
אני: BI/Analytics, מוצר, שיווק, פיננסים.
16) SLO/SLI לזרימות
רעננות: p95 עיכבו את Silver there 15 min, Gold (יומי) מוכן 06:00 מנעול. זמן.
שלמות: ב-99. 5% מהאירועים בחלון טי.
תוקף: שגיאה-קצב של DQ בודק <0. 5% מהנפח.
מגישה זמינה: 99. 9% עבור API BI/Feature.
17) שולחן ותבניות מחיצות
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18) תזמור ו ־ DevX
פוזיציות צינור, בדיקות, ביקורות, GitOps.
חוזי נתונים סי-איי-איי: ספינים מעגליים, בדיקות DQ לפני פריסה.
מסגרת הילוך אחורי: אבטחת תהליכי רטרו עם R/W ואילוצי אידמפוטנטיות.
קטלוגים ותבניות: גנרטורים חותכי עוגיות, מיטב האימונים.
19) מימוש מפת דרכים
MVP (4-6 שבועות):1. אוטובוס אירועים + בליעה של 2-3 מקורות מפתח (OLTP CDC, API Pateway).
2. ברונזה/כסף, פורמט ACID, קטלוג וחוקי DQ בסיסיים.
3. 1-2 ארגזי זהב (GGR יומי ושפכי המרה).
4. מדדי Lag/שלמות, שושלות בסיסיות, RBAC, ומסכות PII.
שלב 2 (שבועות 6-12):- יחידות הזרמה (p95 latency 5 latency min), Feature Store, RG/AML.
- שכבה סמנטית של מדדים, SLA לדיווח; לוחות מחוונים עולים.
- Regionalization (EEA/UK), הליכי DSAR/RTBF, Ligal Hold עבור חפצים.
- Data Mesh: תחומי מוצר, חוזים המונעים על ידי צרכנים.
- פעולות אם-אל עם ניטור סחף, ניהול משא ומתן אוטומטי מקוון/לא מקוון.
- סימולציה אוטומטית של סכימה משתנה (ניתוח השפעה) ו ”מה-אם” לפי עלות.
20) טעויות תכופות וכיצד להימנע מהן
תשלום גולמי ללא תרשימים: יישום סכימת-ראשון, הרשמה ואימות CI.
אין שכפול - מפתחות אירוע וסינקס אידמפוטנטי בסילבר.
לערבב מח "ש עם אנליטיקה - מפות נפרדות ושדות מסיכה.
זהב ללא בעלים: הקצאת בעלים, SLO ומדדי צריכה.
אין אסטרטגיית עיבוד מחדש, מסע בזמן, היגיון, שליטה בספירה כפולה.
ערך בלתי ניתן לניהול: חבורות, דחיסה, TTL, יכולת תצפית של ערך.
21) גלוסרי (קצר)
CDC - שינויים לכידה מ OLTP.
יוצא - אנו מפרסמים אירועי תחום מבחינה טרנספקטיבית.
סימן מים - הערכה של שלמות זרימה לחלונות.
אגם לייקהאוס - אגם נתונים + טבלאות חומצה.
מוצר נתונים - יחידת מוצר של נתונים עם בעלים ו ־ SLO.
חנות תכונה - הפצה עקבית של תכונות ML.
22) השורה התחתונה
ארכיטקטורת זרימת המידע היא מערכת ניתנת לניהול של הסדרים: חוזים ברורים, יכולת תצפית, אבטחה ועלות תחת שליטה. בעקבות התבניות המתוארות (סכימה-ראשונה, ברונזה/כסף/זהב, CDC + Outbox, DQ ושושלת, פרטיות-על-ידי עיצוב), הפלטפורמה מספקת באופן אמין עסקים, ציות ו-ML עם נתונים איכותיים עם SLOS צפוי ועלות מובנת של בעלות.