GH GambleHub

PII Veri Tokenizasyonu

PII verilerinin tokenizasyonu

1) Neden tokenizasyon ve tam olarak neyi tokenize ediyoruz

Amaç: Operasyonel devrede ve analitikte "ham" kişisel verilere erişimi dışlamak, sızıntı riskini azaltmak ve gereksinimlere uyumu basitleştirmek.
PII örnekleri: tam ad, telefon numarası, e-posta, adres, pasaport/kimlik, TIN, IP adresleri, çerez kimliği, ödeme tanımlayıcıları, doğum tarihi vb.

Fikir: orijinal değer yerine, bir belirteç kullanıyoruz - güvenli bir ikame:
  • Orijinal değeri açıklamaz;
  • Geri dönüşümlü (güvenli bir detokenasyon servisi aracılığıyla) veya geri dönüşümsüz olabilir;
  • Deterministik (katılma/arama için) veya deterministik olmayan (maksimum gizlilik için) olabilir.

2) Tehdit modeli ve kontrol hedefleri

Riskler: Veritabanı/log/yedekleme sızıntıları, içeriden okumalar, değerleri tekrarlayarak korelasyon, yetkisiz detokenizasyon, sözlük/format saldırıları (e-posta/telefon), sırların yeniden kullanımı.

Hedefler:

1. Ayrı güven bölgeleri: uygulama belirteçlerle, kaynaklarla çalışır - yalnızca belirteç hizmetinde.

2. Belirteçlerin kriptografik gücünü ve yönetilen detokenasyonu garanti edin.

3. KMS/HSM, rotasyon ve kripto sterilizasyonu ile patlama yarıçapını azaltın.

4. Kontrollü risk altında arama/joyns/analitik için uygunluğunu sağlamak.

3) Belirteçlerin tipolojisi

ÖzellikSeçeneklerNe için
Geri döndürülebilirliktersinir/tersinmezMüşteri hizmetleri vs analitik
Determinizmdeterministik/nondeterministikBirleştirme/veri tekilleştirme vs anti-korelasyon
FormatFPE (biçim korumalı )/keyfiMaske uyumu (telefon/BIN) vs rastgele dizeler
Alankiracı başına/veri kümesi başına/globalİzolasyon ve çarpışma yönetimi
Ömür boyuKalıcı/kısa ömürlüDayanıklı bağlantılar vs tek kullanımlık belirteçler
Önerilen profiller:
  • Arama/joynes için PII: geri dönüşümlü deterministik, bölgeye bağlı (kiracı/kapsam), KMS üzerine sabitlenmiş.
  • Operasyonel maskeleme için PII (UI): Yeniden kullanım risklerini azaltmak için ömür boyu geri dönüşümlü nondeterministik.
  • Gri bölge analizi için: geri dönüşümsüz (anahtar NMAC/tuz hash) veya DP toplamları.

4) Tokenization mimarisi

4. 1 Bileşenler

Tokenization Service (TS): "tokenize/detokenize/search" API, yüksek güven bölgesi.
Token Vault (TV): korumalı harita 'token> original (+ metadata)'.
KMS/HSM: kök anahtar depolama (KEK), sarma/imzalama işlemleri.
Politika Motoru: kim, nerede ve neden detokenize olabilir; kapsam/TTL/oran-limitleri; mTLS/mTLS + mTLS.
Denetim ve Bağışıklık: Tüm tokenizasyon/detokenizasyon işlemlerinin değişmez günlükleri.

4. 2 Anahtar hiyerarşisi

KMS/HSM'de Kök/KEK (kuruluş/bölge/kiracı başına).
Veri alanı (e-posta/telefon/adres) ve/veya veri kümesi başına DEK-PII.
Rotasyon: Tüm voltu yeniden şifrelemeden DEK'i yeniden sarmak; "Anahtar uzlaşma" planı.

4. 3 Akışlar

1. Tokenize: TS> istemci (mTLS + A&A) - normalleştirme - belirteç hesaplama - TV'ye yazma - belirteç yanıtı.
2. Detokenize - TS - Client - Policy/Reason Check - Source Check (or Reject).
3. Arama/Eşleştirme: deterministik tokenization, token ile arama yapmanızı sağlar; E-posta/telefon için - tokenizasyondan önce formatı normalleştirin.

5) Token tasarımları (kripto tasarımı)

5. 1 Tersinir (çalışma devresi için önerilir)

AES-SIV/AEAD zarfı: 'şifre = AEAD_Encrypt (DEK, PII, AAD = scope' tenant 'field)'; token = 'prefix' nonce 'cipher' tag '.
Formatlar için FPE (FF1/FF3-1) (örn. Ülke kodu olmayan 10 haneli telefon). Dikkatli ve doğru etki alanı (alfabe/uzunluk) ile uygulayın.

5. 2 Geri dönüşümsüz (analitik/yüz anonimleştirme)

Anahtarlı HMAC/хэш: 'Token = HMAC (PII_normalized, key = K _ scope)'; tuz/karabiber - ayrı; kiracı veya veri kümesi başına.
Bir fonksiyon (SHA-256/512) ve bir etki alanı seçerek çarpışma riskini en aza indirin.

5. 3 Determinizm ve Kapsam

Katılmak için, AAD = '{tenant' purpose 'field}'ile deterministik bir şema kullanın - aynı değerdeki farklı belirteçler farklı hedeflere karşılık gelir.
Farklı hizmetlerde anti-korelasyon için - farklı anahtarlar/alanlar.

5. 4 Sözlük saldırılarını en aza indirin

Normalleştirme (e-posta/telefonun kanonlaştırılması), KMS'de biber, alan büyüklüğü sınırlaması (yan kanal olarak "kayıt bulunamadı" hataları vermeyin), oran sınırı ve genel noktalar için SARTSNA/proxy.

6) API tasarımı ve şemaları

6. 1 REST/gRPC (isteğe bağlı)

'POST/v1/tokenize {field, value, scope, tenant_id, purpose} -> {token, meta}'

'POST/v1/detokenize {token, purpose} -> {value}' (mTLS + OIDC + ABAC; "minimize" verilmesi)

'POST/v1/match {field, value} -> {token}' (deterministik arama yolu)

6. 2 Depolama diyagramı (TV)

Таблица belirteçleri (alan, kapsam, tenant_id, belirteç, created_at, sürüm, wrapped_key_id, hash_index)

Dizinler: Çoğaltma/arama için 'belirteç', '(tenant_id, alan, hash_index)'ile.
Hash indeksi (normalleştirilmiş PII'den HMAC) detokenizasyon olmadan arama yapmanızı sağlar.

6. 3 Normalleştirme boru hatları

E-posta: küçük harf, kesim, kanonik yerel bölüm (tüm alanlar için noktaların agresif "yemesi" olmadan).
telefon: E.164 (ülke koduyla), biçimlendirme karakterlerini kaldırma.
adres/ad: kurallara göre transliterasyon, trim, daraltma uzayları.

7) Çok kiracılık ve izolasyon

Kiracı başına anahtarlar ve ad alanları: Kiracı başına KEK/DEK.
Detokenizasyon politikaları: rol + hedef + neden + olay denetimi.
Kiracı verilerinin kripto silinmesi - KEK iptali ve DEK imhası - voltlar işe yaramaz hale gelir (kayıtları için).

8) Entegrasyonlar

8. 1 Veritabanları ve önbellekler

Yalnızca belirteçleri işletim tablolarında saklayın.
Nadir durumlarda, bir proxy/ajan aracılığıyla anında detokenizasyon gerektirir.
Token önbellekleri - sadece kısa bir TTL ile bellekte, diske yazmadan.

8. 2 Analitik/BI/ML

DWH/gölde, belirteçler veya hashler. Katılma, ilgili kapsamın deterministik belirteçleri üzerinde gerçekleştirilir.
ML için, takma ad ve agregalar tercih edilir; İnsanları restore etmekten kaçının.

8. 3 Destek hizmetleri ve dolandırıcılıkla mücadele

Maske ile UI ('+ 380') ve makul bir nedenden dolayı epizodik detokenizasyon (sebep kodu) + ikinci faktör.

9) Rotasyon, versiyonlar ve yaşam döngüsü

Belirteç kimliğini ve şifreleme sürümünü ayırın (v1/v2).
Rewrap: KEK'i verilere dokunmadan değiştirin.
Olay planı: anahtar uzlaşma - anında geri çağırma, detokenizasyonun yasaklanması, "salt okunur'a geri dönme, yeniden sarma başlatma.
TTL belirteçleri: politikaya göre - kalıcı (tanımlayıcılar) veya kısa (bir kerelik bağlantılar/geçici entegrasyonlar).

10) Performans ve güvenilirlik

Donanım hızlandırmaları (AES-NI/ARMv8), KMS'ye bağlantı havuzları, sarılmış DEK'lerin önbelleği.
Yatay ölçeklendirme TS; Okuma/yazma yollarını bölün.
Ağ bayrakları için tokenize tekrarları için idempotency-key.
DR/HA: çok alanlı, asenkron volt kopyası, düzenli kurtarma testleri.
SLO: p99 gecikme 'tokenize' ≤ 50-100 ms; 'detokenize' ≤ 50 ms; kullanılabilirlik ≥ 99. 9%.

11) Gözlemlenebilirlik, denetim, uyumluluk

Metrikler: Yöntemlere göre QPS, A&A hataları, detokenasyonların paylaşımı (rollere/hedeflere göre), önbellek isabet oranı, KMS işlem süresi.
Denetim (değişmez):'kim/ne/neden/nerede'ile her detokenasyon, sorgu hash, sonuç.
Günlüğe ilişkin saklama ve WORM ilkeleri (bkz. Denetim ve Değişmez Günlükler).
Uyumluluk: GDPR (minimization, right to delete via crypto erasure), PCI DSS (for PAN - FPE/pseudonymization), ISO/SOC raporlama.

12) Test ve güvenlik

Kripto birim testleri: deterministik belirteçlerin kararlılığı, AAD'nin doğrulanması ve eşleşmezse başarısızlık.
Negatif testler: sözlük saldırıları, format ters, hız sınırı, CSRF (web panelleri için), arka uçlar için SSRF.
Kaos: KMS/Volt kullanılamıyor, eski anahtar, kısmi çoğaltma.
Periyodik Kırmızı takım sebepsiz ve yan kanallar aracılığıyla detokenize olmaya çalışır.

13) Mini tarifler

Deterministik tersinir belirteç (AEAD SIV, pseudocode):

pii_norm = normalize(value)
aad   = scope          tenant          field dek   = kms. unwrap(kek_id, wrapped_dek_for_field)
token = aead_siv_encrypt (dek, pii_norm, aad) # deterministically store_vault (token, pii_norm, meta)
return token
Geri döndürülemez Analytics Token (HMAC):

pii_norm = normalize(value)
pepper  = kms. get_secret("pepper/"+tenant+"/"+field)
token = HMAC_SHA256 (pepper, pii_norm) # deterministically within scope return base64url (token)
Detokenizasyon politikası (fikir):

allow if role in {SupportL2, Risk, DPO} and purpose in {KYC, Chargeback, DSAR}
and mTLS and OIDC_claims match tenant and reason_code provided and ticket_id linked rate_limit per actor <= N/min
Kiracı kripto kaldırma:

kms. disable_key(kek_tenant)
access to unwrap is blocked → detoxification is not possible schedule_destroy (kek_tenant, hold_days=7)

14) Sık yapılan hatalar ve bunlardan nasıl kaçınılacağı

Günlüklerde belirteçler. Belirteçlerin kendilerini (özellikle geri dönüşümlü olanları) maskeleyin - bunlar hassas verilerdir.
Her şey için tek anahtar. "Kiracı/alan/hedefe göre böl; AAD kullan.
Normalleştirme "rastgele. Koordinasyonsuz kanonizasyon arama/sevinç yıkar.
Sebep/sınırlama olmadan detokenizasyon. Her zaman sebep kodu, denetim ve oran sınırı.
Her derde deva olarak FPE. Yalnızca format gerçekten gerekli olduğunda ve doğru etki alanı/anahtarlarla kullanın.
Diskte uzun ömürlü önbellekler. Önbellek sadece TTL ile bellekte.
Rewrap işlemi yok. KEK'in kesinti olmadan döndürülmesi zorunludur.

15) Kontrol listeleri

Satmadan önce

  • Alan/hedef başına seçilen belirteç profilleri (tersinirlik/determinizm/kapsam).
  • Anahtar hiyerarşisi (KEK/DEK), KMS politikaları, anahtar işlem denetimi yapılandırılmıştır.
  • Giriş normalleştirme, format doğrulama boru hattı uygulandı.
  • Rate-limit, reason-codes, immutable audit etkin.
  • Sözlük saldırıları için testler/biçim/rol tabanlı erişim geçti.
  • DR/replica volt ve anahtar uzlaşma planı.

Operasyon

  • Aylık detokenasyon raporu (kim/neden/ne kadar).
  • KEK/biber periyodik rotasyon, DEK rewrap.
  • Yetkisiz detokenasyon/yan kanallar için kırmızı takım.
  • Yeni formatlar/bölgeler ortaya çıktıkça normalleştirmeyi gözden geçirin.

16) SSS

S: Tokenization = anonimleştirme?
Oh hayır. Tokenization - takma isim. Anahtarlar/volt varsa kaynak geri yüklenir (veya karşılaştırılabilir). GDPR alanından çıkmak için güvenilir anonimleştirme gerekir.

S: Detokenizasyon olmadan e-posta/telefonla nasıl arama yapılır?
C: Kanonlaşma ile detemine tokenizasyon. Adresler/tam adlar için - karma dizinler/arama anahtarları ve yardımcı tablolar.

S: FPE ne zaman gereklidir?
C: Harici bir sözleşme/şema format (uzunluk/alfabe) gerektirdiğinde. Diğer durumlarda, normal AEAD belirteçleri daha basit ve daha güvenlidir.

S: Tüm amaçlar için bir jetona sahip olmak mümkün mü?
C: Daha iyi farklı kapsamlar (kapsam/amaç): Aynı PII, farklı görevler için farklı belirteçler verir - korelasyon riskini azaltır.

S: "Kaldırma hakkını" nasıl kullanıyorsunuz?
C: Kripto silme: Karşılık gelen set için KEK/DEK'i iptal edin ve/veya volttaki girişi silin + alanı/parti anahtarlarını yok edin; Analitikte - TTL/toplama/depersonalizasyon.

İlgili malzemeler:
  • "Gizli yönetim"
  • "Dinlenme Şifreleme"
  • "Transit Şifrelemede"
  • "Tasarıma Göre Gizlilik (GDPR)"
  • "Denetim ve değişmez günlükler"
  • "Anahtar Yönetimi ve Rotasyon"
Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Telegram
@Gamble_GC
Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.