GH GambleHub

Dürli çeşmelerden maglumatlary birleşdirmek

Dürli çeşmelerden maglumatlary birleşdirmek

Maglumatlaryň birleşmegi - dürli akymlary (önümleriň DB, CRM, töleg üpjün edijileri, wakalaryň ýazgylary, üçünji taraplaryň sanawlary) bütewi zatlara we tutanýerli penjirelere birleşdirmek prosesi. Maksat "altyn ýazgy" (Golden Record) we analitika, ML we operasiýa ýagdaýlary üçin ylalaşylan bölekleri almak.

1) Nusgawy ssenariýalar we maksatlar

360 ° düýp manysy boýunça: müşderi/oýunçy, enjam, töleg guraly, satyjy.
Geleşikleriň jemlenmegi: birnäçe PSP/kassalar → hökmany idempotentlik bilen ýeke-täk magazineurnal.
Wakalaryň kadalaşmagy: web/mobile/backend-logi → wakalaryň bitewi sözlügi.
Baýlaşdyrmak: daşarky gollanmalar (geo, FX, AML/sanksiýalar, marketing çeşmeleri).
Birmeňzeş metrikler: walýutalaryň/taýmzonlaryň, shemalaryň we kodlamalaryň utgaşdyrylmagy.

2) Çeşmeleriň şertnamalary we shemalary

Başlamazdan ozal - her bir çeşme üçin maglumatlar şertnamasy:
  • Shema: meýdanlar, görnüşler, nullababillik, açar (lar), gymmatlyk domenleri.
  • Semantika: her bir meýdan (sözlükler) nämäni aňladýar?
  • SLA: täzelik/ýygylyk, iň ýokary gijikdirme we out-of-order.
  • Ewolýusiýa: shema üýtgetmek syýasaty (backward/forward), deprecation.
  • Hil: açarlaryň özboluşlylygy, rugsat berilýän diapazonlar, salgylanma bitewiligi.

3) Şahsyýet: açarlar we deňeşdirme (record linkage)

3. 1. Gaty kesgitleýjiler

Tebigy açarlar: 'user _ id', 'transaction _ id', 'device _ id', 'iban'.
Proksi-açarlar: e-mail/telefon (kadalaşma bilen: registrler, boşluklar, ýurtlaryň kodlary).
Surrogatlar: "surrogate _ id" hub-tablisalarda, eger ähliumumy açar ýok bolsa.

3. 2. Ýumşak deňeşdirme düzgünleri

Kesgitlenen: kadalaşdyrylan e-mail + DR-iň takyk gabat gelmegi; "öý "/" mob "telefon → E.164.
Ähtimal (fazzi): At/salgy üçin Jaro-Winkler/Levenştein, setirler üçin TF-IDF/embeddingler, çaltlaşdyrmak üçin gödek heşler/prefiksler boýunça "blokirlemek" (blocking).
Grafiki çemeleşmeler: düwün ýaly düýbi, gapyrga ýaly gabat gelmek; baglanyşyk komponentini toplamak.
"Step-up" strategiýasy: berk düzgünlerden "serhetde" el bilen gygyrýan ýumşak düzgünlere çenli.

3. 3. Birleşmek düzgünleri (survivorship)

Bahalar gapma-garşylygy ýüze çykanda "KYC-registr> CRM> logy".
Täzelik: has täze wagt belligi ýeňýär (hakykylyga düzedilen).
Doldurylma: prefer non-NULL; adresleri/bellikleri köplükleri birleşdirip birleşdirmek.
Audit: "çözgüt yzy" - näme we näme üçin ýazylandygyny saklaň.

4) De-duplikasiýa we MDM

MDM-gatlak (Master Data Management): "Ussat zatlar" + aragatnaşyk "çeşme → User" tablisalary.
Golden Record: 'confidence '/hakykat çeşmesi bilen birleşdirilen ýazgy.
Taryh: Wagtyna bagly atributlar üçin SCD-tip 2 (adres, KYC ýagdaýy).
Şahsyýetler: merj (merge map) tablisalary "birleşdirilen "/" dökülen "seneleri bilen.

5) Üýtgetmek akymlary: CDC, giç we dublikat

CDC (Change Data Capture): события `insert/update/delete` + `source_lsn`/offset.
Gijä galan wakalar: suw bellikleri (watermarks) we garaşylýan penjireler (grace period), düzedişler üçin giç täzelenmeleri saklamak.
Out-of-order: täzelenmeleri öwezini dolýan açar we wagt boýunça sortlamak.
Dublikatlar: idempotent açarlary ('event _ id', 'idempotency _ key'), penjirede dadup.
Exactly-once: geleşik sings/stor, kesgitlenen logika bilen 'MERGE'.

6) Taýmzonlar, walýutalar we senenama

Wagt: UTC + lokallaşdyrylan bölekleri saklamak; aç-açan saklamak 'ingested _ at' we 'event _ time'.
Walýutalar: "çig walýutany" we amalyň senesindäki hümmeti bilen kadalaşdyrylan "base _ ccy" -ni saklamak.
Senenamalar: dogruçyl deňeşdirmeler üçin sebitler boýunça dynç alyş/iş günleriniň tablisalary.

7) Birleşmek üçin Pseudo-SQL (upsert/merge)

7. 1. Amallar (idempotent magazineurnaly)

sql
MERGE INTO fact_transactions t
USING staging_transactions s
ON t. txn_id = s. txn_id
WHEN MATCHED AND s. updated_at > t. updated_at THEN
UPDATE SET amount = s. amount,
currency = s. currency,
status = s. status,
updated_at = s. updated_at
WHEN NOT MATCHED THEN
INSERT (txn_id, user_ext_id, amount, currency, status, event_time, updated_at)
VALUES (s. txn_id, s. user_ext_id, s. amount, s. currency, s. status, s. event_time, s. updated_at);

7. 2. Ulanyjynyň "Altyn ýazgysy" (çeşmäniň ileri tutulmagy + täzelik)

sql
WITH ranked AS (
SELECT s. ext_user_id,
s. norm_email,
s. phone_e164,
s. addr_struct,
s. source,
s. updated_at,
ROW_NUMBER() OVER (
PARTITION BY s. ext_user_id
ORDER BY
CASE s. source
WHEN 'KYC' THEN 1 WHEN 'CRM' THEN 2 ELSE 3 END,
s. updated_at DESC
) AS rn
FROM staging_users s
)
MERGE INTO dim_user_golden g
USING ranked r
ON g. ext_user_id = r. ext_user_id
WHEN MATCHED AND r. rn = 1 THEN
UPDATE SET email = COALESCE(r. norm_email, g. email),
phone = COALESCE(r. phone_e164, g. phone),
address = COALESCE(r. addr_struct, g. address),
source_of_truth = r. source,
updated_at = r. updated_at
WHEN NOT MATCHED AND r. rn = 1 THEN
INSERT (ext_user_id, email, phone, address, source_of_truth, updated_at)
VALUES (r. ext_user_id, r. norm_email, r. phone_e164, r. addr_struct, r. source, r. updated_at);

8) Hil we synag

Shema-synaglar: hökmany meýdanlar, görnüşler, domenler.
Logika-synaglar: açaryň özboluşlylygy, dublikatlaryň ýoklugy, "yza gaýdyp gelmek" ýok.
Deňeşdirmeler (reconciliation): çeşme boýunça jemi vs jemleýji vitrin; tapawutlar → biletler.
Profillemek: paýlanmalar, NULL paýy, "uzyn guýruklar".
Birleşmegiň ölçegleri: precision/recall deňeşdirmeleri, "CONFLICT" paýy, bosagadaky confidence ýazgylarynyň% ≥.

9) Synlamak we SLO

SLO täzelik: lag vitrinleri ≤ N minut/sagat; gijikdirmeler we backlog.
Alertler: dublikatlaryň ösüşi, gapma-garşylyklaryň köpelmegi, açarlaryň düşmegi.
Logy lineage: Haýsy çeşmeden alan, haçan we kim tarapyndan täzeden ýazylan.
Runibuki: hadysalaryň ssenarileri (gijä galan partiýalar, CDC tupanlary, nädogry FX).

10) Howpsuzlyk, gizlinlik, gabat gelmek

PII: lakamlaşdyrmak, kesgitleýjileri kesmek, BI-de gizlemek.
RLS/CLS: rollar we setirler boýunça giriş; eksport - bellikler we möhleti bilen.
Maglumatlaryň ömri: saklamak grafikleri; aýyrmak hukugy (DSAR) we "legal hold".
Anti-birleşme (re-identification): duýgur tablisalaryň joynlaryny azaltmak düzgünleri.

11) Modelleri we maglumatlary guramak

Gatlaklar: 'raw' (bolşy ýaly) → 'staging' (arassalamak/kadalaşmak) → 'core' (ussatlyk, hakykat/ölçeg) → 'marts' (analitika üçin penjireler/ML).
SCD: atributlar üçin 2-nji görnüş, ýalňyşlyklary düzetmek üçin 1-nji görnüş; aýdyň 'valid _ from/valid _ to'.
Feature Store: üýtgetmek funksiýalary onlaýn/oflayn birmeňzeş; nokat-in-time dogrulygy.

12) Satuw patternleri

Semantik gatlakly ELT: birleşmegiň logikasy deklaratiw beýan edilýär (düzgünler, ileri tutulýan ugurlar, açarlar).
Akym + mikrobatç: near-real-time penjireleri üçin - watermarks bilen mikrobatçi 1-15 minut.
Graph-linkage: çylşyrymly kesgitlemek üçin aýratyn graf-hub (enjamlar, kartalar, salgylar).
Step-up tassyklama: täze linkage düzgünlerini shadow-re modeimde goşmak, takyklyk metriklerini ýygnamak.

13) Birleşmegiň kontury çykmazdan öň çek-sanawy

  • Çeşmeleriň şertnamalaryna gol çekildi; meýdan shemalary we sözlükleri ylalaşyldy
  • Linkage açarlary/düzgünleri kesgitlenildi; duplikasiýa strategiýasy bar
  • Survivorship düzgünleri we çeşmeleriň ileri tutulýan ugurlary kesgitlenildi; audit-log goşuldy
  • CDC/idempotentlik/giç maglumatlary gaýtadan işlemek amala aşyryldy
  • Walýutalar/wagt zolaklary/senenama kadalaşdy
  • Hil synaglary we deňeşdirmeler sazlandy; Gözegçilik tagtalary bar
  • SLO täzelik we elýeterlilik hasaba alyndy; alertler we runibuklar taýýar
  • PII/elýeterliligi/saklanylmagy laýyk gelýän talaplara laýyk gelýär
  • Resminamalar: düýp many pasporty, lineage shemasy, soraglaryň mysallary

14) "Altyn ýazgy" pasporty (şablon)

Düýp manysy: 'USER _ GOLDEN'

Açar: 'user _ master _ id' (surrogate), mappingler 'source _ user _ id []'

Meýdanlar we düzgünler:
  • 'email': kadalaşma + ileri tutulýan 'KYC> CRM> LOGS'
  • 'phone': E.164 kadalaşdyrmak, barlamak üçin bölünmek
  • `name`: Jaro-Winkler ≥ 0. 92, fallback - "KYC" çeşmesi
  • 'address': birleşdirilen obýekt; birleşmek + täzeligiň ileri tutulmagy
  • Taryh: SCD2 ('valid _ from/valid _ to')
  • Lineage: Donor meýdanlaryň baglanyşyk sanawy
  • Hili: coverage ≥ 98%, dublikatlar ≤ 0. 3%
  • SLO: täzelik ≤ 1 sagat, elýeterlilik ≥ 99. 9%
  • Eýeleri: Data Platform, KYC/AML
  • Töwekgelçilikler: atlaryň gapma-garşylyklary, "maşgala" telefonlary, shared-devices

15) Netijeler we teklipler

Birleşmek diňe bir "açar boýunça JOIN" däl, eýsem konturdyr: çeşmeleriň şertnamalary → şahsyýet we deadup → ileri tutulýan ugurlar we "altyn ýazgy" → CDC we giç → hil we gözegçilik → howpsuzlyk we üýtgeşmeleriň taryhy.
Düzgünleri aç-açan guruň, her çözgüdiň auditini saklaň, SCD we exactly-once-i saklaň. Şeýlelik bilen, onlarça çeşmeden alnan maglumatlar önüm, analitikler we ML üçin ygtybarly penjirelere we durnukly metriklere öwrülýär.

Contact

Biziň bilen habarlaşyň

Islendik sorag ýa-da goldaw boýunça bize ýazyp bilersiňiz.Biz hemişe kömek etmäge taýýar.

Telegram
@Gamble_GC
Integrasiýany başlamak

Email — hökmany. Telegram ýa-da WhatsApp — islege görä.

Adyňyz obýýektiw däl / islege görä
Email obýýektiw däl / islege görä
Tema obýýektiw däl / islege görä
Habar obýýektiw däl / islege görä
Telegram obýýektiw däl / islege görä
@
Eger Telegram görkezen bolsaňyz — Email-den daşary şol ýerden hem jogap bereris.
WhatsApp obýýektiw däl / islege görä
Format: ýurduň kody we belgi (meselem, +993XXXXXXXX).

Düwmäni basmak bilen siz maglumatlaryňyzyň işlenmegine razylyk berýärsiňiz.