Пайдоиши маълумот
Насаб
1) Насл чист ва чаро он лозим аст
Data Lineage сабти расмии "маълумоте, ки аз куҷо пайдо шудааст, чӣ гуна тағир ёфтааст, дар куҷо ва аз ҷониби кӣ истифода шудааст. "Натиҷа як ҷадвали равонашудаи вобастагӣ бо атрибутҳо (вақт, версияҳо, соҳибон, дигаргуниҳо, сиёсати дастрасӣ, сифат) мебошад, ки системаи маълумотро фаҳмо ва шунаванда месозад.
Арзиши бизнес:- Шаффофияти ченакҳо (молия, маҳсулот, хатар): "чаро рақами X = 1,234 аст? ».
- Таҳлили зуд ба тағирот (схема/кор): "чӣ мешавад, агар"....
- Мувофиқат ва аудит (GDPR/ISO/SOC): роҳи саҳроии исботшаванда.
- Суръат бахшидан ба киштӣ ва кам кардани меҳнат (дониши худхоҳона).
- Беҳтар кардани сифат: санҷишҳои мақсаднок, ки хавф баландтар аст.
2) Минтақаҳои фарогирӣ ва сатҳи тафсилот
Сатҳи ҷараён (қубур/кор): Кадом корҳо/оркестрҳо маҷмӯаи маълумотро пешкаш карданд.
Сатҳи маълумотҳо (ҷадвал/намоиш/мавзӯъ/файл): воридот → баромад, версияҳо/лаҳзаҳо.
Сутун/сатҳи хусусият - чӣ гуна ҳар як соҳа ҳисоб карда мешавад, аз кадом манбаъҳо.
Қабати истеъмол: Ҳисоботҳои BI, API, моделҳои ML, панелҳо ва огоҳиҳо.
Барои субъектҳои муҳим (пул, танзим) тафсилоти сатҳи сутун талаб карда мешавад.
3) Модели маълумотҳои Lineage - субъектҳои асосӣ
Маълумот: '{урн, намуд, схема, соҳибон, pii_class, нигоҳдорӣ, барчаспҳо}'
Вазифа/Вазифа: '{урн, code_ref, версия, вақти корӣ, ҷадвал, соҳибон}'
Иҷро/Иҷро: '{run _ id, job_urn, оғоз/интиҳо, ҳолат, воридот [], баромадҳо [], code_sha, инфра}'
Майдон: '{dataset _ urn, ном, намуд, ҳосил}' (ҳосил - ифода/AST/оператор).
Сиёсат: '{dataset _ urn/field, access_rules, ниқоб, consent_scope}'
Санҷиши сифат: '{check _ id, миқёс, қоида, вазнинӣ, натиҷа}'
4) Манбаъҳои насл: василаи фаъол ва ғайрифаъол
Фаъолона (ба рӯйдод асосёфта): оркестрҳо/муҳаррикҳои асбобҳо (муҳаррикҳои Spark/DBT/SQL/Kafka) барои баровардани чорабиниҳо "кор оғоз/анҷом, воридот/баромад, сутун-харитасозӣ".
Тарафдор: дақиқӣ, аҳамият, кам кардани таҳлили пас аз таҳлил.
Пассив (хулоса): DAG parsim, SQL/DDL/дархостҳо, феҳристҳо/гузоришҳои нигоҳдорӣ; вобастагиро ба таври ретроактивӣ созед.
Тарафдор: фарогирии босуръати мерос; муқобил: дақиқии поёнӣ дар сатҳи сутун.
Одатан гибрид истифода мешавад: чорабиниҳои фаъол дар ҷойҳои имконпазир ва таҳлили ғайрифаъол ҳамчун "шабакаи суғурта".
5) Меъмории ҳалли (истинод)
Истеҳсолкунандагон (оркестрҳо/муҳаррикҳо) → Lineage event bus → Normalizer → Нигаҳдории графикӣ → Индекс/ҷустуҷӯ → UI/API/огоҳиҳо → Содирот/каталог.
Ҳодисаҳо: муттаҳидшуда (кор/иҷро/маҷмӯа/сутун-насл), бо URN ва версияҳои семантикӣ.
Нигоҳдории графикӣ: графикаи сатҳи сутун (масалан, дар асоси пойгоҳи графикӣ ё релятсия + индекси баръакс).
UI: визуализатсияи интерактивии роҳҳои кӯтоҳтарин, таъсир/решавӣ, "сигналҳои сифат" дар кунҷҳо ва гиреҳҳо.
Интегратсияҳо: каталоги маълумот, системаи сифат (DQ), назорати дастрасӣ (ABAC), аудит (танҳо гузоришҳои замимавӣ).
6) Идентификаторҳо ва версия
URN/ID Global барои ҳар як маҷмӯа/ҷойҳои корӣ/майдонҳо: устувор, хондан аз ҷониби инсон, аз ҷумла платформа/ном/ном/версия.
Нусхаи схема ва рамз (рамзи SHA, ҳазми тасвир).
Насли вақт-сафар: таҷдиди таҳқиқот.
7) Насли сатҳи сутун: чӣ гуна бояд боэътимод ба даст оварда шавад
Таҳлили SQL бо сохтмони AST ва ба эътидол овардани тахаллусҳо/CTE/борон.
Эзоҳҳо дар рамзи трансформатсия (санҷишҳои DBT, шарҳҳои ибтидоӣ, UDF-метамаълумот).
Ҳодисаҳо аз муҳаррикҳо: муайян кардани "ҳадаф. col = f (src). а, src. б) "
Қоидаҳои семантикӣ: Опсҳои UDF/маҷмӯӣ ҳамчун "зиёновар" (бо гум шудани дараҷа) ё "ҳассос-нигоҳдорӣ" (интиқоли барчаспҳои PII) қайд карда мешаванд.
8) Пайвастани насл ба дахолатнопазирӣ ва амният
Махфият аз рӯи тарроҳӣ: тамғакоғазҳои саҳроии 'pii _ class', 'rosent _ scope', 'нигоҳ доштан'. Ҳангоми пешбурди сутунҳо тамғакоғазҳо мувофиқи қоидаҳо интиқол дода мешаванд (масалан, 'почтаи электронӣ → hash_email' боқимондаҳои PII).
Токенизатсияи PII: насл далели токенизатсия/детокенизатсия ва гиреҳҳои хидматрасонии токенро нигоҳ медорад; ҳама гуна detokenization як чорабинии аудит аст.
Рамзгузорӣ: барои майдонҳои AEAD/FPE, насл "ҳолати крипто" ва минтақаи калидиро (иҷорагир/миқёс) бидуни ифшои калидҳо мегирад.
Аудит ва WORM - рӯйдодҳои наслӣ ва тағиротҳои сиёсат дар сабти тағирнопазир нигоҳ дошта мешаванд (танҳо бо занҷирҳои ҳаш илова карда мешаванд).
9) Сифати маълумот ва SLO-ҳои ба насл асосёфта
Санҷишҳо дар кунҷҳо: тару тоза, пуррагӣ, беҳамтоӣ/калидҳо, дуршавии тақсимот.
SLO/SLI: "95% ҷойҳои кории таъом додани ченакҳои гузориши ниҳоӣ ≤ 06:00 UTC".
Сабаби решавӣ: график + вақти иҷро таърифи фаврии "гиреҳи аввал шикаста" -ро медиҳад.
10) Таҳлили таъсир ва идоракунии тағирот
Дар ҳолати ба нақша гирифташуда дар схема/мантиқ: аз ҷониби сутуни поёноб (поёноб) - рӯйхати ҳисоботҳо/моделҳои зарардида/мизоҷони API.
Сиёсати вайронкунӣ: огоҳонии ҳатмии соҳибони артефактҳои поёноб, давраи имтиёзнок, версияҳои мувозӣ ('v1 '/' v2') ва парчами санаи ғуруби офтоб.
PR/чиптаҳои худкор бо рӯйхати истеъмолкунандагон ва рӯйхати муҳоҷират.
11) Ҳамгироӣ бо оркестрҳо ва муҳаррикҳо
Оркестрҳо: Чорабиниҳои 'Оғоз/Иҷро кардан' бо воридот/натиҷаҳо пеш аз/баъд аз кор бароварда мешаванд.
SQL/ELT: пайвасткунакҳо ба муҳаррикҳо (анбор, кӯл) барои ба даст овардани нақшаи воқеии иҷро ва харитасозии сутун.
Коркарди ҷараён: насли паёмҳо (мавзӯъ → мавзӯъ, калид/сарлавҳа), схемаҳои Avro/Protobuf, таҳаввулоти схемаҳо тавассути сабти ном.
ML: хусусиятҳои насл/маҷмӯаҳо, версияҳои моделӣ, артефактҳои омӯзишӣ, манбаъҳои хусусият.
12) Моделсозии қоидаҳои паҳнкунии тамғакоғазҳо (шартномаҳои маълумот)
Шартномаи маҷмӯи маълумот: схема + семантикаи саҳроӣ (калидҳо, PII, муттаҳидшавӣ, литсензияҳо/асосҳои ҳуқуқӣ, нигоҳдорӣ).
Қоидаҳои тарғиб:- 'SELECT a, b FROM T' → ҳаракат кардани тамғакоғазҳо 'a, b'.
- 'hash (email)' → label 'PII-ҳосилшуда (тахаллусшуда)' бо детокенизатсия манъ карда шудааст.
- 'SUM (маблағ)' → аз даст додани фардият; ҳамроҳ шудан дар майдони натиҷа иҷозат дода намешавад.
- Шартномаҳо дар CI тасдиқ карда мешаванд (дар сурати риоя накардани блокатор) ва қонунвайронкуниҳо ҳодисаҳо дар аудит мебошанд.
13) Иҷро ва миқёс
Тазриқи афзояндаи рӯйдодҳои насл; deduplication by '(run_id, job_urn)'.
Захираи сутун: ҷудо кардани шохиси гарм (30-90 рӯз давом мекунад) ва бойгонӣ; лаҳзаҳо.
Роҳҳои Caching барои дархостҳои зуд-зуд (роҳҳои кӯтоҳ ба ченакҳои "тиллоӣ").
Sharding by neimspaces/иҷорагирон; муҳофизат аз "гиреҳҳои ҳаюло" (маҳдудияти мухлисон).
14) Визуализатсия ва UX
Модулҳо:- Роҳ ба метрика: "аз он ченак ҷамъ карда мешавад".
- Таъсир аз манбаъ: "кӣ ба тағирот таъсир мерасонад".
- Насли саҳроӣ: "чӣ гуна майдон ҳисоб карда мешавад".
- Такрори: ҳолати кор, сифат, барчаспҳои PII, нигоҳдорӣ, соҳибон.
- Амалҳо: шартнома кушоед, чипта барои муҳоҷират эҷод кунед, барои тағир додани огоҳиҳо обуна шавед.
15) Амнияти дастрасӣ ба график
ABAC: Намоиши гиреҳ/канор барои иҷорагирон/нақшҳо маҳдуд аст.
Редаксия: пинҳон кардани номҳои саҳроии ҳассос (ё бегона кардани онҳо) дар UI барои нақшҳои омӯзонидашуда.
MTLS/OIDC барои рӯйдодҳои насли API бо шахсияти хидматҳо имзо карда мешаванд.
WORM ва назорати хондан: хондани сегментҳои муҳими графикӣ низ сабт шудааст.
16) Амалиёт: SLO, мониторинг, огоҳиҳо
Графикаи SLO: таъхири ҳодиса <5 дақиқа; фарогирии мукаммал> 98% қубурҳои интиқодӣ; 100% "ченакҳои тиллоӣ" насли сатҳи сутун доранд.
Огоҳиҳо: танаффуси занҷир, бидуни анҷом додани чорабиниҳо, нақшаҳои номувофиқ, маҷмӯаи ятимон, афзоиш/давраҳо.
Гузоришҳо: ҳар ҳафта "ҳолати фарогирии насл", беҳтарин 10 гиреҳи хатар.
17) Махфият ва риояи (бастаҳо)
GDPR/Pb-D: пойгоҳҳои коркард ва нигоҳдорӣ ҳамчун барчаспҳо; насл суръати тези DSAR ва "ҳуқуқи нест кардан" -ро тавассути несткунии криптографии сегментҳои мувофиқ таъмин мекунад.
Идоракунии махфӣ: манбаъҳои дастрасӣ ба ашёи хом ҳеҷ гоҳ ба сифати қарзҳои кушода ба насл намеафтанд; танҳо истинод/нақш/сиёсат нигоҳ дошта мешавад.
Гузоришҳои аудит/тағирнашуда - ҳама рӯйдодҳои насл имзо карда мешаванд ва ба анбори танҳо замима гузошта мешаванд (ба мақолаи мувофиқ нигаред).
18) Рӯйхати санҷишҳо
Пеш аз оғоз:- Созишномаҳои URN барои маҷмӯаи маълумотҳо/ҷойҳои корӣ/майдонҳо муайян карда шудаанд.
- Партофтани рӯйдодҳои наслӣ аз оркестрҳо ва муҳаррикҳо.
- SQL/DDL таҳлилгар ва схемаи normalizer кор мекунад.
- Шартномаҳои маълумот ва қоидаҳои паҳнкунии PII/нигоҳдорӣ тасдиқ карда мешаванд.
- Феҳристи рӯйдодҳои WORM ва нусхаҳои эҳтиётии графикӣ.
- BI/ML ҳамчун истеъмолкунандагони насл пайваст карда мешаванд (ҳисоботҳо, моделҳо, хусусиятҳо).
- Фарогирии хатҳо барои доменҳои муҳим ≥ 98%, сатҳи сутун барои "пул" = 100%.
- Огоҳӣ дар бораи танаффус, маҷмӯаи ятимон, гардиши гардиш.
- Санҷиши семоҳаи барчаспҳо ва шартномаҳои PII.
- Ҳуҷҷати ҷараёни тағирот (шикастан) ва тақсимот ба истеъмолкунандагон.
19) Дорухатҳои мини
Чорабинии иҷрошуда (псевдо-JSON):json
{
"event": "RunCompleted",
"run": {
"id": "run_2025-10-31T14:20:00Z_42",
"job": "urn:job:etl:finance:close_books_v3",
"status": "SUCCESS",
"code_sha": "b3f9…",
"started_at": "2025-10-31T14:05:00Z",
"ended_at": "2025-10-31T14:19:52Z"
},
"inputs": [
"urn:dataset:lake:bank_txn_v2",
"urn:dataset:warehouse:fx_rates_d+1"
],
"outputs": [
"urn:dataset:warehouse:pnl_daily_v3"
],
"column_lineage": [
{
"output": "pnl_daily_v3. pnl_usd",
"expr": "SUM(txn. amount_local fx. rate)",
"inputs": ["bank_txn_v2. amount_local", "fx_rates_d+1. rate"],
"lossy": true
}
]
}
Қоидаи паҳнкунии PII (идея):
if input. field. pii in {email, phone, id} and transform in {hash, tokenize}:
output. field. pii = "pseudonymized"
elif transform in {aggregate, anonymize_k}:
output. field. pii = "anonymous"
else:
output. field. pii = input. field. pii
Кварисҳои таъсир "чӣ мешикананд":
affected = downstream(urn:"urn:dataset:warehouse:users_v4", depth=4)
filter affected where kind in {"dashboard","model","api"} and owner not in {"team-exp"}
20) Хатогиҳои зуд-зуд ва чӣ гуна аз онҳо канорагирӣ кардан
Lineage "дар расм" бидуни модели расмӣ. Ҳодисаҳо/схемаҳо/URN лозиманд, вагарна график миқёс надорад.
Дар он ҷо "пул" вуҷуд надорад. "Ҳисобкуниҳоро бидуни сатҳи сутун шарҳ додан мумкин нест.
Ҳодисаҳои нопурра (бе схемаҳои code_sha/versii). Репродуктивӣ имконнопазир аст.
Махфиятро нодида гиред. Барчаспҳои PII бояд зиндагӣ кунанд ва бо саҳроҳо бурда шаванд.
Як пойгоҳи додаҳои графикии калон бидуни шарҳ. Аз рӯи фосилаҳо тақсим кунед, лаҳзаҳоро нигоҳ доред.
Имони нобино ба parsers. Дар ҳолатҳои баҳснок - рӯйдодҳои фаъол аз муҳаррикҳо.
21) Рунбуки 'и
Ҳодиса: Метрик "ҷаҳида".
1. Кушодани "Роҳ ба метрика" → гиреҳҳои охирини 'Run' -ро дар роҳ санҷед.
2. Версияҳои код/схемаро санҷед, ҳолати DQ-ро дар кунҷҳо санҷед.
3. Агар пайванди шикаста пайдо шавад, барои соҳиби чипта эҷод кунед, имкон диҳед, ки нашрияи метрикӣ муваққатан нигоҳ дошта шавад.
4. Пас аз ислоҳ - RCA-ро қайд кунед ва бо гиреҳҳои график шарик шавед.
Тағир додани схемаи манбаъ.
1. Таъсири поёнобро дархост кунед.
2. Ба соҳибон огоҳиномаҳо фиристед, PR-ҳои муҳоҷиратро эҷод кунед.
3. Баланд бардоштани параллели 'v _ next', ҳарду версияро то санаи ғуруби офтоб нигоҳ доред.
4. Бастани 'v _', шартномаҳои навсозӣ ва графикаи насл.
- "Махфият аз рӯи тарроҳӣ (GDPR)"
- "Токенизатсияи маълумотҳои PII"
- "Идоракунии махфӣ"
- "Гузоришҳои аудитӣ ва тағйирнопазир"
- "Ҳангоми истироҳат/дар рамзгузории транзит"
- "Идоракунии калидӣ ва гардиш"