PII маалыматтарды токендештирүү
PII маалыматтарды токендештирүү
1) Эмне үчүн токенизациялоо жана так эмне токенизациялоо керек
Максаты: операциялык контурдагы жана аналитикадагы "чийки" жеке маалыматтарга кайрылууну жокко чыгаруу, агып кетүү коркунучун азайтуу жана талаптарга ылайык келүүсүн жөнөкөйлөтүү.
PII-мисалдар: аты-жөнү, телефону, электрондук почтасы, дареги, паспорту/ID, ИНН, IP даректери, cookie-ID, төлөм идентификаторлору, туулган күнү ж.б.
- баштапкы маанисин ачыкка чыгарбайт;
- кайтарылгыс (корголгон детокенизация кызматы аркылуу) же кайтарылгыс болушу мүмкүн;
- аныктоо (join/издөө үчүн) же жетишсиз (максималдуу купуялык үчүн) болушу мүмкүн.
2) коркунуч модели жана контролдоо максаттары
Тобокелдиктер: БД/логдордун/backaps агып чыгышы, инсайдердик окуулар, кайталануучу маанилердин корреляциясы, уруксатсыз детокенизация, сөздүк/формат боюнча чабуулдар (электрондук почта/телефон), сырларды кайра колдонуу.
Максаттары:1. Ишеним зоналарын бөлүшүү: тиркеме токендер менен иштейт, булактар - токен сервисинде гана.
2. Токендердин жана башкарылуучу детокенизациянын криптографиялык туруктуулугун кепилдөө.
3. KMS/HSM, айлануу жана "крипто-стерилдөө" аркылуу blast radius азайтуу.
4. Көзөмөлгө алынган тобокелдикте/джойндорду/аналитиканы издөө үчүн ылайыктуулукту камсыз кылуу.
3) Токендер типологиясы
Сунушталган профилдер:- PII издөө/джойндор үчүн: кайра аныкталуучу, аймакка байланган (tenant/scope), KMS боюнча бекиткич менен.
- PII үчүн камуфляж (UI): кайра колдонуу коркунучун азайтуу үчүн өмүр бою кайтарылуучу жетишсиз.
- "Боз зонадагы" аналитиктер үчүн: кайтарылгыс (негизги НМАС/туз менен хэш) же DP-агрегациялар.
4) Токендештирүү архитектурасы
4. 1 компоненттери
Tokenization Service (TS): API "tokenize/detokenize/search", жогорку ишеним зонасы.
Token Vault (TV): корголгон mapa 'token → түп (+ метадеректер)'.
KMS/HSM: Негизги ачкычтарды сактоо (KEK), ороп/кол коюу операциялары.
Саясат Engine: ким, кайда жана эмне үчүн детокенизациялай алат; scope/TTL/rate-limits; mTLS/mTLS+mTLS.
Audit & Immutability: бардык токенизациялоо/детокенизациялоо операцияларынын өзгөрүлбөс журналдары.
4. 2 Ачкычтар иерархиясы
KMS/HSM Root/KEK (уюм/аймак/ижарачы).
DEK-PII маалымат домени (email/phone/address) жана/же dataset.
Rotation: rewrap DEK бүт толкун кайра чечмелөө жок; "ачкычтын компромисстик" планы.
4. 3 агымдары
1. Tokenize: кардар → TS (mTLS + A&A) → нормалдаштыруу → эсептөө → TV жазуу → жооп токен.
2. Detokenize: укуктар менен кардар → TS → саясатты/негиздерин текшерүү → булак берүү (же баш тартуу).
3. Search/Match: Детерминацияланган токендештирүү токенди издөөгө мүмкүндүк берет; электрондук почта/телефон үчүн - токенизациялоо алдында форматты нормалдаштырабыз.
5) Токен дизайн (крипто дизайн)
5. 1 Кайтарылуучу (операциялык контур үчүн сунушталат)
AES-SIV/AEAD envelope: `cipher = AEAD_Encrypt(DEK, PII, AAD=scope|tenant|field)`; = 'prefix' nonce 'cipher' tag '.
Форматтар үчүн FPE (FF1/FF3-1) (мисалы, өлкө коду жок 10 орундуу телефон). этияттык жана туура домен менен колдонуу (алфавит/узундугу).
5. 2 Кайтарылгыс (аналитика/атын атагысы келбеген)
Keyed HMAC/хэш: `token = HMAC(PII_normalized, key=K_scope)`; туз/pepper - өзүнчө; ижарачыга же датасетке.
Коллизия тобокелдиги функцияны тандоо (SHA-256/512) жана домен менен минималдаштыруу.
5. 3 Детерминизм жана иш-аракет чөйрөсү
join үчүн AAD = '{tenant' purpose 'field}' → менен детерминацияланган схеманы колдонуңуз.
Ар кандай кызматтарда анти-корреляция үчүн - ар кандай ачкычтар/аймактар.
5. 4 Сөздүк кол минималдаштыруу
Normalization (электрондук почта/телефон канонизациясы), KMS pepper, домендик өлчөмдөрдү чектөө (каталарды бербөө үчүн, "жазуу табылган жок"), rate-limit жана SARTSNA/коомдук чекиттер үчүн прокси.
6) API дизайн жана схемалар
6. 1 REST/gRPC (параметр)
`POST /v1/tokenize { field, value, scope, tenant_id, purpose } -> { token, meta }`
`POST /v1/detokenize { token, purpose } -> { value }` (mTLS + OIDC + ABAC; "минималдаштыруу")
'POST/v1/match {field, value} -> {token}' (издөө үчүн детерминацияланган жол)
6. 2 сактоо схемасы (TV)
Таблица `tokens(field, scope, tenant_id, token, created_at, version, wrapped_key_id, hash_index)`
Индекстер: 'token' боюнча, '(tenant_id, field, hash_index)' де-дупликация/издөө үчүн.
Hash индекси (нормалдаштырылган PII тартып HMAC) detocenization жок издөөгө мүмкүндүк берет.
6. 3 Нормалдаштыруу конвейерлери
email: lowercasing, trim, canonical local-part (бардык домендер үчүн агрессивдүү "жеп" чекиттери жок).
phone: E.164 (өлкө коду менен), формат белгилерди алып салуу.
address/name: transliteration, trim, collapse spaces.
7) Көп ижара жана изоляция
KEK/DEK per tenant.
Детокенизация саясаты: ролу + максаты + себеби + окуя-аудит.
Криптографиялык ижарачынын маалыматтарын алып салуу - KEK карап чыгуу жана DEK → volt жок кылуу пайдасыз болуп калат (анын жазуулары үчүн).
8) Интеграция
8. 1 Маалымат базалары жана кэштер
Токендерди гана операциялык таблицаларда сактаңыз.
сейрек учурларда прокси/агент аркылуу детокенизациялоо керек.
Токендердин кэштери - кыска TTL менен эс тутумда гана, дискте жазуусу жок.
8. 2 Аналитика/BI/ML
DWH/көлдө - токендер же хэштер. Join тиешелүү scope аныкталган белгилер боюнча жүзөгө ашырылат.
ML үчүн - псевдонимдештирүү жана агрегаттар; адамдарды калыбына келтирүүдөн качыңыз.
8. 3 Колдоо жана антифрод
UI маска менен ('+ 380') жана негиздүү себептерден улам эпизоддук детокенизация (reason code) + second factor.
9) Айлануу, версиялары жана жашоо цикли
Токендин идентификаторун жана шифрлөө версиясын бөлүшүү (v1/v2).
Rewrap: КЕК маалыматтарды тийбестен өзгөртүү.
Инциденттердин планы: ачкычтарды компромисске келтирүү → дароо чакыртып алуу, детокенизациялоого тыюу салуу, "read-only" чейин артка кайтаруу, кайра иштетүү.
TTL токендери: саясат боюнча - туруктуу (идентификаторлор) же кыска (бир жолку шилтемелер/убактылуу интеграциялар).
10) аткаруу жана ишенимдүүлүк
Аппараттык тездетүү (AES-NI/ARMv8), KMS байланыш пулдары, DEK оролгон кэш.
Горизонталдык TS масштабдоо; бөлүү read/write жолдору.
Idempotency-key үчүн кайталоо токенизди тармактык флаптарда.
DR/HA: көп зоналуу, асинхрондук реплика, үзгүлтүксүз калыбына келтирүү тесттер.
SLO: p99 жашыруун 'tokenize' ≤ 50-100 мс; 'detokenize' ≤ 50 мс; жеткиликтүүлүгү ≥ 99. 9%.
11) Байкоо, аудит, комплаенс
Метрика: QPS ыкмалары боюнча, каталар A&A, детокенизациялоонун үлүшү (ролдору/максаттары боюнча), hit-rate кэш, KMS операцияларынын убактысы.
Аудит (өзгөрүлбөйт): ар бир детокенизация менен 'who/what/why/where', хэш суроо, натыйжа.
Журнал үчүн сактоо жана WORM саясаты ("Аудит жана өзгөрүлбөгөн журналдарды" караңыз).
шайкештик: GDPR (минималдаштыруу, крипто-өчүрүү аркылуу алып салуу укугу), PCI DSS (PAN үчүн - FPE/псевдоним), ISO/SOC отчеттуулук.
12) тестирлөө жана коопсуздук
Крипто-бирдик тесттер: аныкталбаган токендердин туруктуулугу, AAD текшерүү жана дал келбеген учурда баш тартуу.
Терс тесттер: сөздүк кол салуулар, формат боюнча тескери, rate-limit, CSRF (веб-панелдер үчүн), бекенддер боюнча SSRF.
Chaos: KMS/volt, эскирген ачкыч, жарым-жартылай репликация жок.
Мезгил-мезгили менен Red-команда негизсиз жана каптал каналдар аркылуу детокенизациялоо аракети.
13) Mini Recipes
Детерминацияланган кайтарылуучу токен (AEAD SIV, псевдокод):
pii_norm = normalize(value)
aad = scope tenant field dek = kms. unwrap(kek_id, wrapped_dek_for_field)
token = aead_siv_encrypt (dek, pii_norm, aad) # deterministically store_vault (token, pii_norm, meta)
return token
Аналитика үчүн кайтарылгыс токен (HMAC):
pii_norm = normalize(value)
pepper = kms. get_secret("pepper/"+tenant+"/"+field)
token = HMAC_SHA256 (pepper, pii_norm) # deterministically within scope return base64url (token)
Детокенизация саясаты (идея):
allow if role in {SupportL2, Risk, DPO} and purpose in {KYC, Chargeback, DSAR}
and mTLS and OIDC_claims match tenant and reason_code provided and ticket_id linked rate_limit per actor <= N/min
Ижарачыны крипто алып салуу:
kms. disable_key(kek_tenant)
access to unwrap is blocked → detoxification is not possible schedule_destroy (kek_tenant, hold_days=7)
14) Көп каталар жана аларды алдын алуу үчүн кантип
Логдордогу токендер. Маскировка жана токендер (өзгөчө кайтарылуучу) - бул сезимтал маалыматтар.
Бир ачкыч "бардык". Ижарачылар/талаалар/максаттар боюнча бөлүшүү; AAD колдонуу.
нормалдаштыруу "кантип". Координацияланбаган канонизация издөө/джойнду бузат.
Детокенизация эч кандай себеп/чектөөлөр. Ар дайым reason code, аудит жана rate-limit.
FPE панацея катары. гана формат жана туура домен/ачкычтар менен реалдуу зарыл болгон учурда колдонуу.
Дисктеги узак мөөнөттүү кэштер. Кэш гана TTL менен эс.
rewrap жараяны жок. Токтоосуз КЕКти ротациялоо милдеттүү.
15) Чек баракчалары
Азык-түлүктүн алдында
- Токендердин профилдери тандалып алынган per талаа/максат (кайтарымдуулук/детерминизм/аймак).
- Ачкычтардын иерархиясы (KEK/DEK), KMS саясаты, негизги операциялардын аудити.
- Кириштерди нормалдаштыруу, форматтарды валидациялоочу конвейер ишке ашырылган.
- rate-limit, reason-codes, өзгөрүлбөс аудит кирет.
- Сөздүк кол салуулар/формат/ролу негизделген кирүү тесттер өттү.
- DR/Wolt Replica жана ачкычтарды компромисс планы.
Иштетүү
- Detocenization боюнча айлык отчет (ким/эмне үчүн/канча).
- Мезгил-мезгили менен айлануу KEK/pepper, DEK rewrap.
- Уруксатсыз детокенизациялоо/каптал каналдарына Red-team.
- Жаңы форматтар/региондор пайда болгондо нормалдаштырууну кайра карап чыгуу.
16) FAQ
S: Tokenization = атын атагысы келбеген?
О: Жок. Токенизация - псевдонимизация. Булак ачкычтар/волт болгондо калыбына келтирилет (же салыштырылат). GDPR чөйрөсүнөн чыгуу үчүн ишенимдүү анонимдештирүү талап кылынат.
S: Детокенизациясыз электрондук почта/телефон аркылуу кантип издөө керек?
О: Канонизация менен детеминирленген токенизация. Даректер/аты-жөнү үчүн - хэш-индекстер/издөө ачкычтары жана көмөкчү таблицалар.
S: FPE качан керек?
О: Тышкы келишим/схема формат талап кылганда (узундугу/алфавит). Башка учурларда - кадимки AEAD токендери жөнөкөй жана коопсуз.
С: Бардык максаттар үчүн бир токен болушу мүмкүнбү?
A: Жакшыраак ар кандай аймактар (scope/purpose): бир эле PII ар кандай милдеттери үчүн ар кандай белгилерди берет → корреляция тобокелдигин азайтат.
S: Кантип "алып салуу укугу"?
A: крипто-алып салуу: тиешелүү топтому үчүн KEK/DEK чакыртып алуу жана/же Volt жазууну жок + талаа/партия ачкычтарын жок; аналитикада - TTL/агрегаттоо/анонимдөө.
- "Сыр менеджменти"
- "Ат Rest шифрлөө"
- "In Transit шифрлөө"
- «Privacy by Design (GDPR)»
- "Аудит жана өзгөрүлбөгөн журналдар"
- "Ачкычтарды башкаруу жана ротация"