GH GambleHub

მონაცემთა შერწყმა სხვადასხვა წყაროდან

მონაცემთა შერწყმა სხვადასხვა წყაროდან

მონაცემთა შერწყმა არის ჰეტეროგენული ნაკადების (BD პროდუქტები, CRM, გადახდის პროვაიდერები, მოვლენების ლოგოები, მესამე მხარის რეესტრები) შერწყმის პროცესი ჰოლისტიკურ ერთეულებში და თანმიმდევრული ფანჯრები. მიზანია ოქროს ჩანაწერის მიღება და შეთანხმებული ჭრილობები ანალიტიკოსებისთვის, ML და ოპერაციული შემთხვევებისთვის.

1) ტიპიური სცენარები და მიზნები

360 ° არსებითად: კლიენტი/მოთამაშე, მოწყობილობა, გადახდის ინსტრუმენტი, პირსინგი.
გარიგების კონსოლიდაცია: რამდენიმე PSP/სალარო ოფისი - ერთიანი ჟურნალი სავალდებულო idempotence.
მოვლენების ნორმალიზაცია: ვებ/მობილური/უკანა ლოგოები - მოვლენების ერთი ლექსიკონი.
გამდიდრება: გარე საცნობარო წიგნები (გეო, FX, AML/სანქციები, მარკეტინგული წყაროები).
ერთი მეტრიკა: ვალუტის/დროსონის კოორდინაცია, სქემები და კოდირება.

2) წყაროების და სქემების ხელშეკრულებები

დაწყებამდე - მონაცემთა ხელშეკრულება თითოეული წყაროსთვის:
  • სქემა: ველები, ტიპები, ნულოვანი, გასაღები (და), მნიშვნელობების დომენები.
  • სემანტიკა: რას ნიშნავს თითოეული ველი (ლექსიკონი).
  • SLA: სიახლე/სიხშირე, მაქსიმალური შეფერხება და წესრიგი.
  • ევოლუცია: სქემების შეცვლის პოლიტიკა (backward/forward), deprecation.
  • ხარისხი: გასაღებების უნიკალურობა, დასაშვები დიაპაზონი, რეფერენდუმის მთლიანობა.

3) იდენტიფიკაცია: გასაღებები და შედარება (ჩანაწერების შეცვლა)

3. 1. მკაცრი იდენტიფიკატორები

ბუნებრივი გასაღებები: 'user _ id', 'transaction _ id', 'device _ id', 'iban'.
მარიონეტული გასაღებები: ელ.ფოსტა/ტელეფონი (ნორმალიზაციით: რეესტრი, ხარვეზები, ქვეყნების კოდი).
სუროგატები: 'surrogate _ id' კერულ ცხრილებში უნივერსალური გასაღების არარსებობის პირობებში.

3. 2. რბილი შედარების წესები

დეტერმინიუმი: ნორმალიზებული ელექტრონული ფოსტის + DR- ის ზუსტი დამთხვევა; „სახლი „/“ მობ “ტელეფონი E.164.
სავარაუდო (ფაზები): Jaro-Winkler/Levenshtein სახელისთვის/მისამართისთვის, TF-IDF/ambedings სტრიქონებისთვის, „ბლოკირება“ უხეში ჰეშების/პრეფიქსების გასწვრივ.
გრაფიკული მიდგომები: არსება, როგორც კვანძები, დამთხვევები, როგორც ზღვარი; კავშირის კომპონენტის კლასტერიზაცია.
„ნაბიჯის“ სტრატეგია: მკაცრიდან რბილი წესებით, სახელმძღვანელო ჭრილით „საზღვარზე“.

3. 3. კონსოლიდაციის წესები (survivorship)

წყაროს პრიორიტეტი: „KYC რეესტრი> CRM> ლოგოები“, როდესაც არსებობს მნიშვნელობათა კონფლიქტი.
სიახლე: დროის უფრო ახალი ნიშანი იმარჯვებს (მორგებულია საიმედოობისთვის).
შევსება: prefer non-NULL; მისამართების/ტეგების შერწყმა კომპლექტების გაერთიანებით.
აუდიტი: შეინარჩუნეთ „გადაწყვეტილების კვალი“ - რაც გადაწერილია და რატომ.

4) დედუპლიკაცია და MDM

MDM ფენა (Master Data Management): „მასტერკლასების“ + კომუნიკაციების ცხრილები „წყარო და ოსტატი“.
Golden Record: საერთო ჩანაწერი „კონფერენციის “/სიმართლის წყაროსთან.
ისტორია: SCD ტიპი 2 დროისთვის დამოკიდებული ატრიბუტებისთვის (მისამართი, KYC სტატუსი).
იდენტურობა: მერჯეის ცხრილი (მერჯე მაპი) „შერწყმის „/„ დაშლის “თარიღებით.

5) ცვლილებების ნაკადები: CDC, დაგვიანებული და დუბლიკატები

CDC (Change Data Capture): события `insert/update/delete` + `source_lsn`/offset.
დაგვიანებული მოვლენები: წყლის ეტიკეტები (watermarks) და ლოდინის ფანჯრები (grace period), გვიანდელი აფდეიტების შენახვა კორექტირებისთვის.
Out-of-order: დახარისხება გასაღები და დრო, რომლებიც ანაზღაურებენ აფდიტებს.
დუბლიკატები: idempotent გასაღებები ('event _ id', 'idempotency _ key'), ფანჯრის დედაპლატი.
Exactly-once: გარიგების სინგლი/store, 'MERGE' დეტერმინისტული ლოგიკით.

6) ტაიმსონები, ვალუტები და კალენდარი

დრო: შეინახეთ ლოკალიზებული ნაჭრები UTC +; აშკარად შეინახეთ 'ingestest _ at' და 'event _ time'.
ვალუტა: შეინახეთ „ნედლეული ვალუტა“ და ნორმალიზებული „base _ ccy“ ოპერაციის თარიღამდე.
კალენდრები: არდადეგების ცხრილი/სამუშაო დღეები რეგიონებში გულწრფელი შედარებისთვის.

7) ფსევდო-SQL შერწყმა (upsert/merge)

7. 1. გარიგებები (იდემპოტენტური ჟურნალი)

sql
MERGE INTO fact_transactions t
USING staging_transactions s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET amount = s. amount,
currency = s. currency,
status = s. status,
updated_at = s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id, user_ext_id, amount, currency, status, event_time, updated_at)
VALUES (s. txn_id, s. user_ext_id, s. amount, s. currency, s. status, s. event_time, s. updated_at);

7. 2. მომხმარებლის ოქროს ჩანაწერი (წყაროს პრიორიტეტი + სიახლე)

sql
WITH ranked AS (
SELECT s. ext_user_id,
s. norm_email,
s. phone_e164,
s. addr_struct,
s. source,
s. updated_at,
ROW_NUMBER() OVER (
PARTITION BY s. ext_user_id
ORDER BY
CASE s. source
WHEN 'KYC' THEN 1 WHEN 'CRM' THEN 2 ELSE 3 END,
s. updated_at DESC
) AS rn
FROM staging_users s
)
MERGE INTO dim_user_golden g
USING ranked r
ON g. ext_user_id = r. ext_user_id
WHEN MATCHED AND r. rn = 1 THEN
UPDATE SET email = COALESCE(r. norm_email, g. email),
phone = COALESCE(r. phone_e164, g. phone),
address = COALESCE(r. addr_struct, g. address),
source_of_truth = r. source,
updated_at = r. updated_at
WHEN NOT MATCHED AND r. rn = 1 THEN
INSERT (ext_user_id, email, phone, address, source_of_truth, updated_at)
VALUES (r. ext_user_id, r. norm_email, r. phone_e164, r. addr_struct, r. source, r. updated_at);

8) ხარისხი და ტესტირება

ტესტის სქემა: სავალდებულო ველები, ტიპები, დომენები.
ტესტის ლოგიკა: გასაღების უნიკალურობა, დუბლიკატების არარსებობა, არა „დროში დაბრუნება“.
Creconciliation (Creconciliation): თანხები წყაროს მიხედვით vs საბოლოო ვიტრინა; განსხვავებები - თიკეტები.
პროფილირება: განაწილება, NULL- ის წილი, „გრძელი კუდები“.
შერწყმის მეტრიკა: precision/recall შედარება, „CONFLICT“ - ის წილი, კონფერენციის ბარიერის ჩანაწერების%.

9) დაკვირვება და SLO

SLO სიახლე: ფანჯრის ფანჯარა N წუთი/საათი; შეფერხებების და ზურგჩანთების მონიტორინგი.
ალერტები: დუბლიკატების ზრდა, კონფლიქტების ზრდა, შემცირების გასაღებების ვარდნა.
ხაზის ლოგოები: რა წყაროდან აიღეს ველი, როდის და ვინ არის ხელახლა ჩაწერილი.
რუნიბუკი: ინციდენტის სცენარები (დაგვიანებული ნაწილები, ქარიშხალი CDC, არასწორი FX).

10) უსაფრთხოება, კონფიდენციალურობა, შესაბამისობა

PII: ფსევდონიმი, იდენტიფიკატორის ჰაშირება, შენიღბვა BI- ში.
RLS/CLS: როლებისა და ხაზების წვდომა; ექსპორტი - დენებით და შენახვის ვადით.
მონაცემთა სიცოცხლის ხანგრძლივობა: შენახვის გრაფიკი; მოხსნის უფლება (DSAR) და „legal hold“.
ანტი-იდენტიფიკაცია: მგრძნობიარე ცხრილების ჯოინის შემცირების წესები.

11) მოდელების და მონაცემების ორგანიზება

ფენები: 'raw' (როგორც არის) - 'staging' (გაწმენდა/ნორმალიზაცია) - 'core' (მასტერკლასი, ფაქტი/გაზომვა) - 'marts' (ფანჯრები ანალიტიკისთვის/ML).
SCD: ტიპი 2 ატრიბუტებისთვის, ტიპი 1 - შეცდომების გამოსწორების მიზნით; აშკარა 'valid _ from/valid _ to'.
Feature Store: გარდაქმნების ფუნქციები იდენტურია ონლაინ/ოფლაინ; წერტილოვანი სისწორე.

12) განხორციელების ნიმუშები

ELT სემანტიკური ფენით: შერწყმის ლოგიკა აღწერილია დეკლარაციულად (წესები, პრიორიტეტები, გასაღებები).
Strim + mikrobatch: near-real-time ვიტრინისთვის - მიკრობატები 1-15 წუთი watermarks- ით.
Graph-linkage: ცალკეული გრაფიკული კერა რთული იდენტიფიკაციისთვის (მოწყობილობები, რუქები, მისამართები).
Step-up შესაბამისობა: ახალი ლინკაჟის წესები შედის shadow რეჟიმში, შეაგროვეთ სიზუსტის მეტრიკა.

13) ჩეკის სია შერწყმის კონტურის გამოსვლამდე

  • გაფორმებულია წყაროების კონტრაქტები; შეთანხმებულია სქემები და სფეროს ლექსიკონები
  • განსაზღვრულია საკომუნიკაციო გასაღებები/წესები; არსებობს დედუპლიკაციის სტრატეგია
  • მოცემულია survivorship წესები და წყაროების პრიორიტეტები; აუდიტის ჟურნალი ჩართულია
  • CDC/გვიანდელი მონაცემების იდემპოტენტურობა/დამუშავება ხორციელდება
  • ვალუტები/დროზონები/კალენდარი ნორმალიზებულია

ხარისხის და შერიგების ტესტები; სადამკვირვებლო დაშბორდები არსებობს

  • SLO დაფიქსირდა სიახლის და ხელმისაწვდომობის შესახებ; ალერტები და რუნიბუკები მზად არიან
  • PII/წვდომა/შენახვა აკმაყოფილებს შესაბამისობის მოთხოვნებს
  • დოკუმენტაცია: არსების პასპორტი, ხაზის სქემა, მოთხოვნის მაგალითები

14) „ოქროს ჩაწერის“ პასპორტი (შაბლონი)

არსი: 'USER _ GOLDEN'

გასაღები: 'user _ master _ id' (surrogate), mappings 'წყარო _ user _ id []'

ველები და წესები:
  • 'email': ნორმალიზაცია + პრიორიტეტი 'KYC> CRM> LOGS'
  • 'phone': ნორმალიზაცია E.164, სპილენძის გადამოწმება
  • `name`: Jaro-Winkler ≥ 0. 92, fallback - წყარო „KYC“
  • 'address': ინტეგრირებული ობიექტი; გაერთიანება + ახალი პრიორიტეტი
  • ისტორია: SCD2 ('valid _ from/valid _ to')
  • ხაზები: დონორი ველების ბმული სია
  • ხარისხი: coverage - 98%, დუბლიკატები - 0. 3%
  • SLO: სიახლე 1 საათი, წვდომა 99. 9%
  • მფლობელები: მონაცემთა პლატფორმა, KYC/AML
  • რისკები: სახელების კონფლიქტი, „ოჯახური“ ტელეფონები, დაბინძურებული მოწყობილობები

15) შედეგები და რეკომენდაციები

შერწყმა არ არის მხოლოდ „JOIN გასაღები“, არამედ წრე: წყაროების კონტრაქტები, იდენტიფიკაცია და დედაპლატი - პრიორიტეტები და „ოქროს ჩანაწერი“ CDC და დაგვიანებული ხარისხი და დაკვირვება, უსაფრთხოება და ცვლილების ისტორია.
შეადგინეთ წესები გამჭვირვალედ, შეინახეთ თითოეული გადაწყვეტილების აუდიტი, მხარი დაუჭირეთ SCD და exactly-once. ასე რომ, ათეულობით წყაროდან მიღებული მონაცემები გადაიქცევა საიმედო ფანჯრებად და პროდუქტის, ანალიტიკისა და ML- ის სტაბილურ მეტრებად.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.