GH GambleHub

Якҷоя кардани маълумот аз манбаъҳои гуногун

Якҷоя кардани маълумот аз манбаъҳои гуногун

Якҷоякунии маълумот ҷараёни омезиши ҷараёнҳои гетерогенӣ (пойгоҳи додаҳои маҳсулот, CRM, провайдерҳои пардохт, гузоришҳои рӯйдодҳо, феҳристҳои шахсони сеюм) ба субъектҳои ҳамаҷониба ва мағозаҳои пайваста мебошад. Ҳадаф ба даст овардани сабти тиллоӣ ва буридани пайваста барои таҳлил, ML ва ҳолатҳои амалиётӣ мебошад.

1) Сенарияҳо ва вазифаҳои маъмулӣ

Моҳиятан 360 °: мизоҷ/плеер, дастгоҳ, асбоби пардохт, тоҷир.
Муттаҳидсозии транзаксия: якчанд PSP/мошинҳои назоратӣ § як сабти ягона бо idempotency ҳатмӣ.
Нормализатсияи ҳодисаҳо: гузоришҳои веб/мобилӣ/backend → луғати ягонаи ҳодиса.
Ғанисозӣ: феҳристҳои беруна (гео, FX, AML/санксияҳо, манбаъҳои маркетинг).
Нишондиҳандаҳои ягона: ҳамоҳангсозии асъор/вақтҳо, схемаҳо ва рамзҳо.

2) Шартномаҳо ва нақшаҳои манбаъ

Пеш аз оғоз - шартномаи маълумот барои ҳар як манбаъ:
  • Схема: майдонҳо, намудҳо, нобудшавӣ, калидҳо (ҳо), доменҳои арзиш.
  • Семантика: ҳар як соҳа (луғат) чӣ маъно дорад.
  • SLA: тару тоза/басомад, ҳадди ниҳоӣ ва фармоишӣ.
  • Эволютсия: сиёсати тағир додани нақша (ба қафо/ба пеш), депрессия.
  • Сифат: беҳамтоии калидҳо, диапазонҳои қобили қабул, тамомияти истинод.

3) Шиносоӣ: калидҳо ва харитасозӣ (алоқаи сабт)

3. 1. ID-ҳои сахт

Калидҳои табиӣ: 'user _ id', 'transaction _ id', 'дастгоҳ _ id', 'iban'.
Калидҳои прокси: почтаи электронӣ/телефон (муқарраршуда: парванда, фосила, рамзҳои кишвар).
Суррогатҳо: 'суррогат _ ид' дар ҷадвалҳои ҳаб дар сурати набудани калиди универсалӣ.

3. 2. Қоидаҳои мувофиқати нарм

Муайянкунанда: мувофиқати дақиқи почтаи электронии муқарраршуда + DR; телефони "хона "/" мобилӣ "→ E.164.
Эҳтимолияти (номуайян): Jaro-Winkler/Levenshtein барои ном/суроға, TF-IDF/ҷобаҷогузорӣ барои сатрҳо, "бастан" (бастани) бо hashes coar/префиксҳо барои шитоб.
Равишҳои графикӣ: объектҳо ҳамчун гиреҳҳо, тасодуфҳо ҳамчун кунҷҳо; ҷузъҳои пайвасти кластерӣ.
Стратегияи қадам ба қадам: аз қоидаҳои қатъӣ то мулоим бо дастури "дар сарҳад".

3. 3. Қоидаҳои муттаҳидсозӣ (зинда мондан)

Афзалияти манбаъ "Феҳристи KYC> CRM> гузоришҳо" ҳангоми ихтилофи арзишҳо мебошад.
Тару тоза: Вақти навтари вақт пирӯз мешавад (барои эътибор танзим карда шудааст).
Пуррагӣ: NULL-ро бартарӣ диҳед; якҷоя кардани суроғаҳо/барчаспҳо бо омезиши маҷмӯаҳо.
Аудит: "Роҳи ҳалли" -ро нигоҳ доред - чӣ навишта шудааст ва чаро.

4) Ҷойгиркунӣ ва MDM

Қабати MDM (Master Data Management): ҷадвалҳои усто + istochnik → муносибатҳои магистрӣ.
Сабти тиллоӣ: сабти маҷмӯӣ бо майдони 'эътимод/манбаи ҳақиқат.
Таърих: намуди 2 SCD барои хусусиятҳои вобаста ба вақт (суроға, ҳолати KYC).
Шиносҳо: Ҷадвалҳои харитаҳоро бо санаҳои "якҷояшавӣ "/" рехтан "якҷоя кунед.

5) Тағйирёбии ҷараён: CDC, latecomers ва duplicates

CDC (Change Data Capture): события 'ворид/навсозӣ/нест кардан' + 'source _ lsn '/offset.
Ҳодисаҳои дер: нишонаҳо ва давраи имтиёзнок, нигоҳ доштани навсозиҳои дер барои ислоҳот.
Тартиби фармоишӣ: мураттабкунӣ аз рӯи калид ва вақт, ҷуброни навсозиҳо.
Нусхаҳо: калидҳои номуайян ('event _ id', 'idempotency _ key'), тарҳ дар тиреза.
Маҳз як маротиба: синглҳо/мағозаҳои транзаксионӣ, 'MERGE' бо мантиқи детерминистӣ.

6) Вақтсанҷ, асъор ва тақвим

Вақт: дар UTC + иловаро локализатсия нигоҳ доред; ба таври возеҳ мағозаи 'ingested _ at' event _ time '.
Асъорҳо: "асъори хом" -ро нигоҳ доред ва 'base _ ccy' -ро бо меъёри санаи муомилот муқаррар кунед.
Тақвимҳо: Ҷадвалҳои истироҳатӣ/корӣ аз рӯи минтақа барои муқоисаи одилона.

7) Псевдо-SQL барои якҷояшавӣ (боло/якҷоя)

7. 1. Амалиётҳо (маҷаллаи idempotent)

sql
MERGE INTO fact_transactions t
USING staging_transactions s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET amount = s. amount,
currency = s. currency,
status = s. status,
updated_at = s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id, user_ext_id, amount, currency, status, event_time, updated_at)
VALUES (s. txn_id, s. user_ext_id, s. amount, s. currency, s. status, s. event_time, s. updated_at);

7. 2. Истифодабаранда "сабти тиллоӣ" (афзалияти манбаъ + тару тоза)

sql
WITH ranked AS (
SELECT s. ext_user_id,
s. norm_email,
s. phone_e164,
s. addr_struct,
s. source,
s. updated_at,
ROW_NUMBER() OVER (
PARTITION BY s. ext_user_id
ORDER BY
CASE s. source
WHEN 'KYC' THEN 1 WHEN 'CRM' THEN 2 ELSE 3 END,
s. updated_at DESC
) AS rn
FROM staging_users s
)
MERGE INTO dim_user_golden g
USING ranked r
ON g. ext_user_id = r. ext_user_id
WHEN MATCHED AND r. rn = 1 THEN
UPDATE SET email = COALESCE(r. norm_email, g. email),
phone = COALESCE(r. phone_e164, g. phone),
address = COALESCE(r. addr_struct, g. address),
source_of_truth = r. source,
updated_at = r. updated_at
WHEN NOT MATCHED AND r. rn = 1 THEN
INSERT (ext_user_id, email, phone, address, source_of_truth, updated_at)
VALUES (r. ext_user_id, r. norm_email, r. phone_e164, r. addr_struct, r. source, r. updated_at);

8) Сифат ва озмоиш

Схемаи санҷишӣ: майдонҳо, намудҳо, доменҳо.
Санҷишҳои мантиқӣ: беҳамтоии калид, набудани нусхаҳо, ҳеҷ гоҳ "бо гузашти вақт".
Муқоиса: маблағҳо аз рӯи манбаъ ва намоиши ниҳоӣ; номувофиқатӣ → чиптаҳо.
Профил: тақсимот, фраксияи NULL, "думҳои дароз".
Якҷоя кардани ченакҳо: харитасозии дақиқ/хотиррасонӣ,% сабтҳо бо боварӣ ≥ ҳадди ниҳоӣ.

9) Мушоҳида ва SLO

Тару тозаи SLO: ақибмонии тиреза ≤ N дақиқа/соат; мониторинги таъхир ва ақибмонӣ.
Огоҳиҳо: афзоиши нусхаҳо, афзоиши муноқишаҳо, паст шудани калидҳои фарогирӣ.
Гузоришҳои насл: аз кадом манбаъ майдон гирифта шудааст, кай ва аз ҷониби кӣ навишта шудааст.
Runybooks: сенарияи ҳодисаҳо (партияҳои дер, тӯфонҳои CDC, FX нодуруст).

10) Амният, махфият, риояи

PII: бегона кардан, хэш кардани ID, ниқоб дар BI.
RLS/CLS: дастрасӣ ба нақшҳо ва сатрҳо; содирот - бо нишонаҳо ва мӯҳлати истифода.
Мӯҳлати маълумот: ҷадвалҳои нигоҳдорӣ; ҳуқуқи хориҷ кардан (DSAR) ва "нигоҳдории қонунӣ".
Шиносоии дубора: қоидаҳои кам кардани ҳамроҳшавии ҷадвалҳои ҳассос.

11) Ташкили модел ва маълумот

Қабатҳо: 'хом' (ба мисли) → 'марҳила кардан' (тоза кардан/нормализатсия) → 'аслӣ' (объектҳои усто, фактҳо/андозагирӣ) → 'marts' (намоишҳо барои таҳлил/ML).
SCD: намуди 2 барои атрибутҳо, намуди 1 барои ислоҳи хато; возеҳи 'valid _ аз/дуруст _ ба'.
Дӯкони хусусият: функсияҳои табдилдиҳӣ шабеҳи онлайн/офлайн мебошанд; дурустии нуқта-дар-вақт.

12) Намунаҳои татбиқ

ELT бо қабати семантикӣ: мантиқи якҷояшавӣ декларативӣ тавсиф карда мешавад (қоидаҳо, афзалиятҳо, калидҳо).
Ҷараён + микробатч: барои намоиши вақти воқеӣ - микробатҳо 1-15 дақиқа бо нишонаҳои обӣ.
График-пайванд: маркази алоҳидаи графикӣ барои мушаххаскунии мураккаб (дастгоҳҳо, харитаҳо, суроғаҳо).
Санҷиши қадам ба қадам: қоидаҳои нави пайвасткуниро дар ҳолати сояҳо дар бар гиред, ченакҳои дақиқро ҷамъ кунед.

13) Рӯйхати санҷиши пеш аз якҷояшавӣ

  • Шартномаҳои манбаъ ба имзо расиданд; схемаҳо ва луғатҳои саҳроӣ мувофиқанд
  • калидҳои пайванд/қоидаҳои муайяншуда; дорои стратегияи такрористеҳсолкунӣ мебошад
  • Қоидаҳои зиндамонӣ ва афзалиятҳои манбаъ муқаррар карда шудаанд; аудит-журнал фаъол аст
  • CDC/idempotency/коркарди деринаи маълумот амалӣ карда мешавад
  • Қурби асъор/вақтҳо/тақвим ба эътидол оварда шудааст
  • Санҷишҳо ва мусолиҳаҳои сифат барпо карда мешаванд; панелҳои мушоҳидашаванда мавҷуданд
  • Тару тоза ва дастрасии SLO собит шудааст; огоҳиҳо ва runibooks омодаанд
  • PII/дастрасӣ/анбор мувофиқат мекунад
  • Ҳуҷҷатгузорӣ: Шиносномаи субъективӣ, схемаи насл, дархостҳои намуна

14) Шиносномаи "сабти тиллоӣ" (қолаб)

Субъект: 'КОРВАНД _ ГОЛДЕНЖапос

Калид: 'user _ master _ id' (суррогат), харитасозӣ 'source _ user _ id []'

Майдонҳо ва қоидаҳо:
  • 'email': нормализатсия + афзалият 'KYC> CRM> LOGS- апос
  • 'телефон': E.164 муқаррарӣ, тақсимоти санҷиш
  • 'ном': Jaro-Winkler ≥ 0. 92, таназзул - манбаи KYC
  • 'address': объекти мураккаб; иттифоқ + афзалияти тару тоза
  • Таърих: SCD2 ('дуруст _ аз/дуруст _ ба')
  • Насаб: рӯйхати истинодҳои майдони донорҳо
  • Сифат: фарогирӣ ≥ 98%, дубликатия ≤ 0. 3%
  • SLO: тару тоза ≤ 1 соат, дастрасӣ ≥ 99. 9%
  • Соҳибон: Платформаи маълумот, KYC/AML
  • Хатарҳо: бархӯрдҳои ном, телефонҳои "оила", дастгоҳҳои муштарак

15) Хулоса ва тавсияҳо

Якҷояшавӣ на танҳо "Ҳамроҳ шудан аз рӯи калид", балки контур аст: шартномаҳои сарчашма → муайянсозӣ ва тарҳ → афзалиятҳо ва "сабти тиллоӣ" -и CDC → ва охири → сифат ва мушоҳидаҳо → бехатарӣ ва таърихи тағирот.
Қоидаҳоро шаффоф созед, аудити ҳар як қарорро нигоҳ доред, SCD-ро дастгирӣ кунед ва маҳз як маротиба. Ҳамин тавр, маълумот аз даҳҳо манбаъҳо ба мағозаҳои боэътимод ва ченакҳои устувори маҳсулот, таҳлил ва ML табдил меёбад.

Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Telegram
@Gamble_GC
Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.