ניתוח זרם נגד אצווה
1) תמצית קצרה
עיבוד רצוף של אירועים בשניות: אנטי-הונאה/AML, אר-ג 'י, התראות SLA, לוחות מבצעיים.
חישוב מחדש תקופתי עם רבייה מלאה: דיווח רגולטורי (GGR/NGR), מסמכים פיננסיים, נתוני ML.
ציוני דרך: זרם p95 e2e 0. 5-5 אס, Batch D + 1 עד 06:00 (מנעול.) .
2) מטריצת בחירה (TL; DR)
חוק 80/20: כל דבר שאינו דורש תגובה <5 דקות - בבאץ '; השאר הוא בסטרם, עם אימות לילה אצווה.
3) ארכיטקטורה
3. 1 למבדה
זרם עבור מקוון + אצווה לאיחוד. פלוס: גמישות. מינוס: שני לוגיקות.
3. 2 קאפה
הכל כמו זרמים; אצווה = ”שידור חוזר” באמצעות יומן. פלוס: קוד אחד. מינוס: מורכבות של שידור חוזר/עלות.
3. 3 בית לייקהאוס-היברידי (מומלץ)
Stream # Online OLAP MARTS (דקות) ו-Bronze/Silver; באץ 'מרכיב מחדש את גולד (D + 1) ומפרסם דוחות.
4) נתונים וזמן
זרם
חלונות: מגששים/מקפצים/הפעלה.
סימני מים: 2-5 דקות; נתונים מאוחרים מסומנים ומעומעמים.
סטטיסטית: CEP, dedup, TTL.
אצווה
שינויים/CDC: ”עדכני _ at”, שכפול יומן.
SCD I/II/III:- תמונות: שכבות יום/חודש עבור ”as”.
5) דפוסי יישום ב ־ iGaming
AML/Antipraud: Stream (מהירות/מבנה) + Batch פיוס ומקרים.
גיימינג אחראי: בקרת זרם של גבולות/בלעדיות עצמית; אצווה דיווח קופות.
מבצעים/SRE: הזרם מתריע SLA; אצווה לאחר ניתוח של תקריות ומגמות.
מוצר/שיווק: Tream Personalization/Messions; חבורה קבוצתית/LTV.
פיננסים/דיווחים: Batch (זהב D + 1, חבילות תולעת), Stream - לוחות תפעוליים.
6) DQ, רבייה, שידור חוזר
זרם DQ: אימות של סכמות, dedup '(event_id, מקור)', השלמות של החלון, יחס מאוחר, dup-rate; DLQ קריטי #.
Batch DQ: ייחודיות/FK/טווח/זמן, פיוס עם OLTP/ספקים; # עבודת כשל קריטית + דיווח.
- זרם: העתק נושאים לפי טווח + טרנספורמציה דטרמיניסטית.
- Batch: time-travel/logic grass (”לוגיקה _ גרסה”) + gold snapshots.
7) פרטיות ותושבות
זרם: פסאודונימיזציה, מיסוך מקוון, צינורות אזוריים (EEA/UK/BR), פסקי זמן לחיצוני PII-lookups.
Batch: PII מיפוי בידוד, RLS/CLS, DSAR/RTBF, Ligal Hold, WORM ARCHIVES.
8) עלות-הנדסה
זרם: הימנע ממפתחות ”חמים” (מלחים), הגבלת תצפיות Async, מצבי TTL, הגדרה מראש.
אצווה: מחיצה/קיבוצים, דחיסת קבצים קטנים, התממשות של אגרגטים יציבים, מכסות/שיגור חלונות.
9) דוגמאות
9. 1 זרם - Flink SQL (מהירות הפקדה של 10 דקות)
sql
SELECT user_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS sum_10m
FROM stream. payments
GROUP BY user_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
9. 2 זרם - CEP (קוד פסאודו AML)
python if count_deposits(10MIN) >= 3 and sum_deposits(10MIN) > THRESH \
and all(d. amount < REPORTING_LIMIT for d in window):
emit_alert("AML_STRUCTURING", user_id, snapshot())
9. 3 אצווה - מיזוג (גידול כסף)
sql
MERGE INTO silver. payments s
USING stage. delta_payments d
ON s. transaction_id = d. transaction_id
WHEN MATCHED THEN UPDATE SET
WHEN NOT MATCHED THEN INSERT;
9. 4 אצווה - זהב GGR (D + 1)
sql
CREATE OR REPLACE VIEW gold. ggr_daily AS
SELECT
DATE(b. event_time) event_date,
b. market, g. provider_id,
SUM(b. stake_base) stakes_eur,
SUM(p. amount_base) payouts_eur,
SUM(b. stake_base) - SUM(p. amount_base) ggr_eur
FROM silver. fact_bets b
LEFT JOIN silver. fact_payouts p
ON p. user_pseudo_id = b. user_pseudo_id
AND p. game_id = b. game_id
AND DATE(p. event_time) = DATE(b. event_time)
JOIN dim. games g ON g. game_id = b. game_id
GROUP BY 1,2,3;
10) מדדים ו ־ SLO
זרם (ציוני דרך)
p95 בלע כוננות 2-5 c שלימות 99. 5%
סכימה-שגיאות רישום 0. 1%
יחס מאוחר 1%
זמינות 99. 9%
אצווה (ציוני דרך)
זהב. היומי מוכן עד 06:00 מנעול.
שלמות 99. 5%
תוקף 99. 9%
תקרית MTTR DQ 24-48 שעות
11) בדיקות ומשחררות
חוזים/מזימות: בדיקות מונעות על ידי צרכנים; מודיע קומפקטי אחורי.
נהלים קנריים, שיגור אפל, שידור חוזר של סימולטור.
ריצה יבשה על דגימות, השוואה של מדדים, פיוס.
12) אנטי דפוסים
היגיון שכפול: חישובי זרם ואצווה שונים ללא יישור נוסחה.
אפליקציה חיצונית סינכרונית בנתיב החם של הזרם ללא מטמון/פסק זמן.
טעינה מלאה ”ליתר ביטחון” במקום שינויים.
אין סימני מים/מדיניות מאוחרת.
PII בשכבות אנליטיות; אין CLS/RLS.
תערוכות זהב כי ”מוטציה” רטרואקטיבית.
13) הכלאה מומלצת (ספר מהלכים)
1. זרם-לולאה: Inlegue Ach Bus = Flink/Beam (סימני מים, dedup, CEP) lash
OLAP (ClickHouse/Pinot) עבור לוחות 1-5 דקות + ברונזה/כסף (append).
2. Batch Loop: CDC = Silver Normalization/SCD # Gold Daily תצוגה/Reports (תולעת).
3. התאמה: שכבה סמנטית יחידה של מדדים; פיוס Stream↔Batch לילה; סתירות> כרטיסי סף לאפס.
14) ראסי
R (אחראי): פלטפורמת זרימה (זרם-מידע), הנדסת נתונים (מודלים באץ '), Domain Analytics (מטריצות/כללים), MLOps (מאפיינים/Feature Store).
א '(אחראי): ראש הנתונים/CDO.
C (ייעוץ): ציות/משפטי/DPO, פיננסים (FX/GGR), סיכון (RG/AML), SRE (SLO/GGR).
אני (מושכל): BI/מוצר/שיווק/מבצעים.
15) מפת דרכים
MVP (2-4 שבועות):1. קפקא/רדפנדה + 2 נושאים קריטיים ('תשלומים', 'auth').
2. עבודת פלינק: סימן מים + dedup + 1 CEP rule (AML או RG).
3. OLAP מציגה תצוגה של 1-5 מיין + לוחות מחוונים lag/late/dup.
4. Lakehouse Silver (חומצה), הזהב הראשון. ggr_daily (D + 1 עד 06:00).
שלב 2 (שבועות 4-8):- שינויים/CDC לפי תחום, SCD II, שכבת מדדים סמנטית.
- הזרמת די-קיו ופיוס Stream↔Batch לילית.
- Regionalization (EEA/UK/BR), DSAR/RTBF, Ligal Hold.
- שידור חוזר של סימולטור, הקנרית/A-B משחרר חוקים/מדדים.
- לוחות-מחוונים ומכסות; אחסון מעוטר; תורות ד "ר.
- דור אוטומטי של תצוגה/מדדים תיעוד ושושלת.
16) רשימת מימושים
[ ] סכמות/חוזים ברישום; בדיקות גיבוי ירוקות.
זרם : סימני מים/איחור מותר, DLQ; לוחות OLAP בדרבן.
Batch: CDC/CDC, SCD II, Gold D + 1 עם יצוא תולעת.
[ ] שכבה סמנטית יחידה של מדדים; פיוס Stream↔Batch לילה.
[ ] רעננות/שלמות/לוחות DQ תוקף; התראה עד מאוחר.
[ ] RBAC/ABAC, הצפנה, תושבות; DSAR/RTBF/Ligal Hold.
[ עלות ] תחת שליטה (עלות/GB, עלות/שאילתה, גודל המדינה, הילוכים חוזרים מוקצים).
17) השורה התחתונה
זרם ו אצווה אינם מתחרים, אבל שני הילוכים של אותו כונן. זרם נותן את התגובה "כאן ועכשיו," אמת שניתן לאמת "בבוקר. "גישת לייקהאוס ההיברידית, שכבה אחת של מדטים ודיסציפלינת DQ/lineage מאפשרת לך לבנות קווי מתאר אנליטיים מהירים, רבייתיים וצייתניים שהם אופטימליים ב-SLA ובמחיר.