PII տվյալների տոկենիզացիա
PII տվյալների տոկենիզացիա
1) Ինչո՞ ւ է տոկենիզացիան և թե ինչ ենք թունավորում։
Նպատակը 'բացառել «հում» անձնական տվյալները վիրահատական բովանդակության և վերլուծության մեջ, նվազեցնել արտահոսքի ռիսկը և պարզեցնել պահանջների համապատասխանությունը։
PII օրինակներ ՝ FIO, հեռախոսը, email, հասցեն, անձնագիր/ID, INN, IP-2019, cookie-ID, ստացիոնար ցուցիչներ, ծննդյան ամսաթիվը և այլն։
Գաղափարն այն է, որ մենք օգտագործում ենք հոսանք 'ապահով փոխարինող, որը
չի բացահայտում բնօրինակը։
կարող է լինել շրջադարձային (պաշտպանված մանկաբուժության ծառայության միջոցով) կամ անդառնալի։
կարող է լինել դետերմինացված (join/որոնման համար) կամ ոչ առևտրային (մասնավորեցման համար)։
2) Սպառնալիքների և վերահսկողության նպատակների մոդել
Ռիսկերը ՝ BD/logs/beaps, insaider ընթերցումներ, կրկնվող արժեքների հարաբերակցություն, կրկնվող դետոկենիզացիա, բառարանի/ձևաչափի հարձակումներ (email/հեռախոսը), գաղտնիքները։
Նպատակները
1. Վստահության գոտիները բաժանելը 'ծրագիրը աշխատում է հոսանքների հետ, ելքերը միայն թունավոր ծառայության մեջ են։
2. Երաշխավորել հոսանքների կրիպտոգրաֆիկ դիմադրությունը և կառավարվող դետոքսենիզացիան։
3. Նվազեցնել blast radius-ը KFC/HSM, ռոտացիայի և «ծպտյալ-ստերիլիզացման» միջոցով։
4. Ապահովել օգտակար որոնման/ջոյնների/վերլուծաբանների համար վերահսկվող ռիսկի ժամանակ։
3) Տոկենի տիոգիա
Առաջարկվող պրոֆիլները
PII որոնման/ջոյնների համար 'շրջադարձային դետերմինացված, կապված տարածության հետ (tenault/scope), KFC-ի պաշտպանության հետ։
PII-ը դիմադրելու համար (UI) 'կյանքի տևողությամբ անխափան, որպեսզի նվազեցնի վերաօգտագործման ռիսկերը։
«Մոխրագույն գոտում» վերլուծաբանների համար 'անդառնալի (հիմնական NMAS/hash աղով) կամ DP ագրեգացիաներ։
4) Տոկենիզացիայի ճարտարապետությունը
4. 1 Բաղադրիչներ
Tokenization System (TS): API «tokenize/detokenize/search», բարձր վստահության գոտի։
Token Vance (TV) 'պաշտպանված mapa' token inginal (+ մետատվյալներ) "։
KFC/HSM 'արմատային կոդերի պահպանումը (KEK), ծածկագրի/ստորագրության վիրահատությունը։
Policy Engine: Ո՞ վ, որտեղ և ինչու կարող է ապշեցուցել։ scope/TTL/rate-limits; mTLS/mTLS+mTLS.
Audit & Immutability: Բոլոր վիրահատությունների/դետոկենիզացիայի անփոփոխ ամսագրեր։
4. 2 Հիերարխիա
Root/KEK-ում KFC/HSM-ում (կազմակերպության/տարածաշրջանի/վարձակալողի)։
DEK-PII տվյալների տիրույթի վրա (email/phone/www.ress) և/կամ www.aset։
Ռոտացիան 'rewrap DEK առանց ամբողջ գայլի փոխպատվաստման; «բանալին փոխզիջման պլանը»։
4. 3 Հոսքեր
1. Tokenize: TS (mTSA + A&A) հաճախորդը հաստատեց հոսանքի հաշվարկման նորմալացումը TV-ում նշված թոկենի պատասխանը։
2. Detokenize: Հաճախորդը TS-ի պայմանագրերով իրավունք ունի ստուգել քաղաքականության/հիմքը։
3. Search/Match: դետերմինացված թունավորումը թույլ է տալիս փնտրել հոսանքը։ email/հեռախոսի համար մենք նորմալացնում ենք ձևաչափը մինչև թունավորումը։
5) Տոկենի կառուցվածքները (կրիպտո դիզայն)
5. 1 Շրջադարձային (խորհուրդ վիրահատական մրցույթի համար)
AES-SIV/AEAD envelope: `cipher = AEAD_Encrypt(DEK, PII, AAD=scope|tenant|field)`; Toxen = «wwww.fix 'nonce' cipher 'me»։
FFC (FF1/FF3-1) ֆորմատների համար (օրինակ, 10-նշանակալի հեռախոսը առանց երկրի կոդի)։ Օգտագործեք զգուշությամբ և ճիշտ օրինակով (այբուբեն/երկարություն)։
5. 2 Անդառնալի (վերլուծություն/անանուն եզրին)
Keyed HMAC/хэш: `token = HMAC(PII_normalized, key=K_scope)`; աղ/pepper - առանձին; վարձողի կամ ամսաթվի վրա։
Կոնֆլիկտների ռիսկը նվազագույնի հասցնել ֆունկցիայի ընտրությունը (SHA-256/512) և։
5. 3 Դեթերմինիզմ և գործողությունների տարածք
Join-ի համար օգտագործեք դետերմինացված սխեմա AAD =>> tenium 'purpose 'field _ www.ru տարբեր նպատակներ համապատասխանում են տարբեր արժեքներ։
Տարբեր ծառայություններում անտի-հարաբերակցության համար տարբեր բանալիներ/ոլորտներ են։
5. 4 Նվազեցնում ենք հարձակումները բառարանում
Նորմալացում (canonization eail/հեռախոսի), pepper KHL-ում, տիրույթի չափի սահմանափակումը (սխալ չթողնել «չի հայտնաբերվել ձայնագրություն» որպես said ալիքի), rate-limit և SARTSNA/2019 հասարակական կետերի համար։
6) API դիզայնը և սխեմաները
6. 1 REST/gRPC (տարբերակը)
`POST /v1/tokenize { field, value, scope, tenant_id, purpose } -> { token, meta }`
`POST /v1/detokenize { token, purpose } -> { value }` (mTLS + OIDC + ABAC; «Նվազեցում» 2019)
"POST/v1/match + field, value =>> token + (որոնման համար դետերմինացված ճանապարհ)
6. 2 Պահեստավորման սխեմա (TV)
Таблица `tokens(field, scope, tenant_id, token, created_at, version, wrapped_key_id, hash_index)`
Ինդեքսներ ՝ «token», «(tenom _ id, field, hash _ index)» դե դուպլիզացիայի/որոնման համար։
Hash index (HMAC նորմալացված PII) թույլ է տալիս փնտրել առանց մանրամասների։
6. 3 Նորմալ փոխակրիչներ
email: lowercasing, trim, canonical ental al-part (առանց բոլոր ածխաջրերի համար ագրեսիվ «ուտելու» կետերի)։
phone: E.164 (երկրի կոդով), կոդավորող նիշերի հեռացում։
www.ress/name: Թարգմանություն ըստ կանոնների, trim, collapse spaces։
7) Բազմաբնույթ և մեկուսացում
Բանալիները և namespaces-ը վարձողի վրա 'KEK/DEK per ten.ru։
Դետոկենիզացիայի քաղաքականությունները '+ նպատակը + պատճառը + event-աուդիտ է։
Վարձողի տվյալների գաղտնագրական հեռացումը KEK-ի վերանայումն է և DEK-ի ոչնչացումը կամքը դառնում է անօգուտ (նրա ձայնագրությունների համար)։
8) Մոսկվան
8. 1 Տվյալների և քեշի հիմքերը
Պահեք միայն վիրահատական խողովակաշարերում։
Հազվագյուտ միջադեպերի համար անհրաժեշտ է «ամռան» դետոքսենիզացիա '112/գործակալի միջոցով։
Cashen-ը միայն հիշողության մեջ է կարճ TTL-ով, առանց սկավառակի ձայնագրման։
8. 2 Վերլուծություն/BI/ML
MSH/լճում 'հոսանքներ կամ հեշեր։ Join-ն կատարվում է համապատասխան scope-ի դետերմինացված հոսանքներով։
ML-ի համար ռուսական կեղծանունացում և ագրեգատներ են։ խուսափել պարսիկների վերականգնումից։
8. 3 Աջակցության ծառայություն և հակաֆրոդ
UI-ը դիմակով («+ 380») և էպիզոդիկ դետոքսենիզացիան հիմնավորված պատճառով (reason code) + second factor։
9) Ռոտացիան, տարբերակները և կյանքի ցիկլը
Կիսեք կոդերի տարբերակը և տարբերակը (v1/v2)։
Rewrap: Մենք փոխում ենք KEK-ը առանց հուզելու տվյալները։
Մրցույթի պլանը 'փոխզիջումը հաստատվում է ակնթարթային ակնարկով, մանրամասների արգելքով, մինչև «read-only», rewrap։
TTL թոկեններ 'քաղաքականության վրա' մշտական (ազդանշաններ) կամ կարճ (միանգամյա հղումներ/ժամանակավոր լուծումներ)։
10) Արտադրողականությունը և արտադրողականությունը
Ապարատային արագացումները (AES-NI/ARMv8), փամփուշտները կապված են KFC-ի, փակված DEK-ի։
TS-ի հորիզոնական մեծացումը; read/write ճանապարհների բաժանումը։
Idempotency-key-ի համար tokenize-ի խոհարարների համար ցանցային ֆլամպերի ժամանակ։
DR/HA 'բազմազանությունը, կամքի ասինխրոն կրկնօրինակը, վերականգնողական թեստերը։
SLO: p99 լատենտ 'tokenize' 4250-100 մզ; "detokenize '3550 մզ; հասանելիությունը 3699 է։ 9%.
11) Դիտարկումը, աուդիտը, համադրումը
Մետրիկները ՝ QPS-ը, A&A սխալները, դետոքսենիզացիայի մասը (դերերով/նպատակներով), hit-rate քեշը, KHL վիրահատությունների ժամանակը։
Աուդիտ (անփոփոխ) 'յուրաքանչյուր դետոկենիզացիա' «who/what/why/where», hash հարցման, արդյունքի հետ։
Պահեստավորման քաղաքականությունը և WORM-ը ամսագրի համար (տե՛ ս «Աուդիտ և անփոփոխ ամսագրեր»)։
Համապատասխանությունը 'GDPR (նվազագույնի, ծպտյալ լվացքի միջոցով հեռացման իրավունք), PCI DSS (PAN-FOX/կեղծանունացման համար), RF/SOC հաշվետվությունները։
12) Փորձարկում և անվտանգություն
Crypto-unite-թեստերը 'դետերմինացված հոսանքների ցանկը, AAD ստուգումը և ձախողումը, երբ այն անհամապատասխանվում է։
Բացասական թեստերը 'բառարանի հարձակումները, ռեպրեսը ձևաչափով, rate-limit, CSRF (վեբ-մրցույթի համար), SSRF-ը բեկենդների վրա։
Chaos: անհասանելի KFC/վոլտ, հնացած բանալին, մասնակի կրկնօրինակումը։
Պարբերական Red-team-ը փորձում է կրկնօրինակել առանց հիմքերի և կողային պարամետրերի։
13) Մինի բաղադրատոմսեր
Դետերմինացված շրջադարձային հոսանքը (AEAD SIV, կեղծ)
pii_norm = normalize(value)
aad = scope tenant field dek = kms. unwrap(kek_id, wrapped_dek_for_field)
token = aead_siv_encrypt (dek, pii_norm, aad) # deterministically store_vault (token, pii_norm, meta)
return token
Անդառնալի ցնցումը վերլուծության համար (HMAC)
pii_norm = normalize(value)
pepper = kms. get_secret("pepper/"+tenant+"/"+field)
token = HMAC_SHA256 (pepper, pii_norm) # deterministically within scope return base64url (token)
Դետոկենիզացիայի քաղաքականությունը (գաղափարը)
allow if role in {SupportL2, Risk, DPO} and purpose in {KYC, Chargeback, DSAR}
and mTLS and OIDC_claims match tenant and reason_code provided and ticket_id linked rate_limit per actor <= N/min
Վարձողի կրիպտո հեռացումը
kms. disable_key(kek_tenant)
access to unwrap is blocked → detoxification is not possible schedule_destroy (kek_tenant, hold_days=7)
14) Հաճախակի սխալներ և ինչպես խուսափել դրանցից
Թոկենները լոգարաններում։ Քողարկեք և ինքներդ ցնցեք (հատկապես շրջադարձային) սրանք զգայուն տվյալներ են։
Միակ բանալին «ամեն ինչի վրա»։ Բաժանեք վարձակալներին/108 մ/նպատակներին։ Օգտագործեք AAD-ը։
Նորմալացումը «ինչպես է ընկել»։ Չհամաձայնեցված կանոնիզացիան կոտրում է որոնումը/ջոինները։
Դետոկենիզացիան առանց պատճառների/սահմանափակումների։ Միշտ reason code, աուդիտ և rate-limit։
FOX-ը որպես պանացեա։ Կիրառեք միայն ձևաչափի իրական անհրաժեշտության և ճիշտ ֆոսֆորի/բաների հետ։
Երկար գոյատևող քեշներ։ Քեշը միայն TTL-ի հիշողության մեջ է։
Rewrap գործընթացի բացակայությունը։ KEK-ի լուծումը առանց անցյալի պարտադիր է։
15) Չեկ թերթերը
Մինչ վաճառքը
- Ընտրվել են թոկեններ per դաշտը/նպատակը (շրջադարձային/դետերմինիզմ/տարածք)։
- Տրամադրված է մրցույթի հիերարխիան (KEK/DEK), KFC քաղաքականությունը, հիմնական վիրահատությունների աուդիտը։
- Իրականացվեց մուտքերի նորմալացումը, բանաձևերի փոխակրիչը։
- Ներառված է Rate-limit, reason-codes, անփոփոխ աուդիտ։
- Բառային հարձակումների թեստերը/ձևաչափը/հիմնական հասանելիությունը անցել են։
- DR/գայլի կրկնօրինակը և վարկաբեկման պլանը։
Վիրահատություն
- Ամսական հաշվետվություն մանրէների վերաբերյալ (ով/ինչու/քանի)։
- KEK/pepper, rewrap DEK։
- Red-team վերը նշված դետոկենիզացիայի/ալիքների վրա։
- Նորմալիզացիայի իրականացումը նոր ձևերի/տարածաշրջանների հայտնվելուն պես։
16) FAQ
Թոքենիզացիա = անանուն։
Օ 'Ոչ։ Տոկենիզացիան կեղծանունացում է։ Բնօրինակը վերականգնվում է (կամ համեմատելի), եթե կա բանաձև/կամք։ GDPR-ից դուրս գալու համար անհրաժեշտ է հուսալի անանուն։
Ինչպե՞ ս փնտրել email/հեռախոսը առանց մանրամասների։
Օ 'Դետեմինացված ցնցումը կանոնիզացիայի հետ։ Հասցեների/FIO-ի համար 'ծանր ինդեքսներ/որոնման բանալիներ և աղյուսակի աղյուսակներ։
Ե՞ րբ է անհրաժեշտ FOX-ը։
Օ 'Երբ արտաքին պայմանագիրը/սխեման պահանջում են ձևաչափ (երկարությունը/այբուբենը)։ Մնացած դեպքերում, սովորական AEAD-հոսանքները ավելի հեշտ և անվտանգ են։
Արդյո՞ ք մեկը հնարավոր է բոլոր նպատակների համար։
Օ 'Ավելի լավ տարբեր ոլորտներ (scope/purpose), նույն PII-ը տարբեր հոսանքներ է տալիս տարբեր խնդիրների համար, որոնք նվազում են հարաբերակցության ռիսկը։
Ի՞ նչ անել «հեռացման իրավունքը»։
O'Crepto-հեռացում: Մենք ասում ենք KEK/DEK համապատասխան հավաքածուի համար և/կամ հեռացնում ենք ձայնագրությունը կամքի մեջ + մենք ոչնչացնում ենք դաշտի/կուսակցության բանալիները։ վերլուծության մեջ 'TTL/aggreging/aggragization/anchication։
Կապված նյութեր
«Գաղտնիքների կառավարում»
«At Rest» կոդավորումը
«In Transit»
«Privacy by Design (GDPR)»
«Աուդիտ և անփոփոխ ամսագրեր»
«Բաների կառավարումը և նավարկումը»