GH GambleHub

पीआईआई डेटा टोकेनाइजेशन

पीआईआई डेटा का टोकेनाइजेशन

1) टोकन क्यों और क्या वास्तव में हम टोकनाइज़करते हैं

लक्ष्य: परिचालन सर्किट और एनालिटिक्स में "कच्चे" व्यक्तिगत डेटा तक पहुंच को बाहर करना, लीक के जोखिम को कम करना और आवश्यकताओं के अनुपालन को सरल बनाना।

पीआईआई उदाहरण: पूरा नाम, फोन नंबर, ईमेल, पता, पासपोर्ट/आईडी, टीआईएन, आईपी पता, कुकी-आईडी, भुगतान पहचानकर्ता, जन्म तिथि आदि।

विचार: मूल मान के बजाय, हम एक टोकन का उपयोग करते हैं - एक सुरक्षित विकल्प कि:
  • मूल मूल्य का खुलासा नहीं करता है;
  • प्रतिवर्ती (एक सुरक्षित डिटोकेनेशन सेवा के माध्यम से) या अपरिवर्तनीय हो सकता है;
  • नियतात्मक (शामिल/खोज के लिए) या गैर-नियतात्मक (अधिकतम गोपनीयता के लिए) हो सकता है।

2) धमकी मॉडल और नियंत्रण उद्देश्य

जोखिम: डेटाबेस/लॉग/बैकअप लीक, इनसाइडर रीडिंग, मानों को दोहराकर सहसंबंध, अनधिकृत डिटोकेनाइजेशन, शब्दकोश/प्रारूप हमले (ईमेल/फोन), रहस्यों का पुन: उपयोग।

उद्देश्य:

1. अलग विश्वास क्षेत्र: आवेदन टोकन के साथ काम करता है, स्रोत - केवल टोकन सेवा में।

2. टोकन की क्रिप्टोग्राफिक ताकत और प्रबंधित डिटोकेनेशन की गारंटी।

3. केएमएस/एचएसएम, रोटेशन और क्रिप्टो नसबंदी के साथ विस्फोट त्रिज्या को कम करें।

4. नियंत्रित जोखिम पर खोज/आनंद/एनालिटिक्स के लिए उपयुक्तता सुनिश्चि

3) टोकन की टाइपोलॉजी

संपत्तिविकल्पक्या के लिए
प्रतिवर्तनीयताप्रतिवर्ती/अपरिवर्तनीयग्राहक देखभाल बनाम एनालिटिक्स
निर्धारणवादनियतात्मक/nondeterministicशामिल हों/deduplication बनाम एंटी-सहसंबंध
प्रारूपएफपीई (प्रारूप-संरक्षण )/मनमानामुखौटा पालन (फोन/बिन) बनाम यादृच्छिक तार
क्षेत्रप्रति-किरायेदार/प्रति-डेटासेट/वैश्विकअलगाव और टकराव प्रबंधन
जीवनकालस्थायी/अल्पकालिकटिकाऊ लिंक बनाम डिस्पोजेबल टोकन
अनुशंसित प्रोफाइल:
  • खोज/हर्षित के लिए पीआईआई: प्रतिवर्ती नियतात्मक, क्षेत्र-बाध्य (किरायेदार/दायरा), केएमएस पर लटका हुआ।
  • ऑपरेशनल मास्किंग (यूआई) के लिए पीआईआई: पुन: उपयोग जोखिमों को कम करने के लिए जीवनकाल के साथ प्रतिवर्ती nondeterministic।
  • ग्रे ज़ोन एनालिटिक्स के लिए: अपरिवर्तनीय (कुंजी एनएमएसी/नमक हैश) या डीपी एकत्रीकरण।

4) टोकेनाइजेशन आर्किटेक्चर

4. 1 घटक

टोकेनाइजेशन सर्विस (टीएस): "टोकेनाइज ़/डिटोकेनाइज ़/सर्च" एपीआई, हाई ट्रस्ट ज़ोन।

टोकन वॉल्ट (टीवी): संरक्षित मानचित्र 'टोकन → मूल (+ मेटाडेटा)'।

केएमएस/एचएसएम: रूट कुंजी भंडारण (केईके), रैपिंग/हस्ताक्षर संचालन।

नीति इंजन: कौन, कहां और क्यों detokenize कर सकता है; गुंजाइश/टीटीएल/दर-सीमा; mTLS/mTLS + mTLS।

लेखा परीक्षा और प्रतिरक्षा: सभी टोकन/डिटोकेनाइजेशन संचालन के अपरिवर्तनीय लॉग।

4. 2 प्रमुख पदानुक्रम

केएमएस/एचएसएम (प्रति संगठन/क्षेत्र/किरायेदार) में रूट/केईके।

DEK-PII प्रति डेटा डोमेन (ईमेल/फोन/पता) और/या डेटासेट।

रोटेशन: पूरे वोल्ट को फिर से एन्क्रिप्ट किए बिना डीईके को फिर से लपेटें; "प्रमुख समझौता" योजना।

4. 3 प्रवाह

1. टोकनाइज़: TS क्लाइंट (mTLS + A&A) सामान्यीकरण टोकन गणना - टीवी टोकन प्रतिक्रिया पर लिखना।

2. Detokenize - TS → क्लाइंट → नीति/कारण → Source जाँच (या अस्वीकार)।

3. खोज/मिलान: नियतात्मक टोकन आपको टोकन द्वारा खोजने की अनुमति देता है; ईमेल/फोन के लिए - टोकन से पहले प्रारूप सामान्य।

5) टोकन डिजाइन (क्रिप्टो डिजाइन)

5. 1 प्रतिवर्ती (परिचालन सर्किट के लिए अनुशंसित)

एईएस-एसआईवी/एईडी लिफाफा: 'सिफर = AEAD_Encrypt (डीईके, पीआईआई, एएडी = स्कोप' किरायेदार 'फील्ड)'; टोकन = 'उपसर्ग' नॉन 'सिफर' टैग '।

प्रारूपों के लिए FPE (FF1/FF3-1) (उदा। देश कोड के बिना 10 अंकों का टेलीफोन)। सावधानी और सही डोमेन (वर्णमाला/लंबाई) के साथ लागू करें।

5. 2 अपरिवर्तनीय (एनालिटिक्स/फेस अनाम)

कुंजीकृत HMAC/хэш: 'टोकन = HMAC (PII_normalized, कुंजी = K _ scope)'; नमक/काली मिर्च - अलग; प्रति किरायेदार या डेटासेट।

फ़ंक्शन (SHA-256/512) और डोमेन चुनकर टकराव के जोखिम को कम करें।

5. 3 निर्धारणवाद और दायरा

इसमें शामिल होने के लिए, AAD = '{किरायेदार' उद्देश्य 'फ़ील्ड}' के साथ एक नियतात्मक स्कीमा का उपयोग करें - समान मूल्य के विभिन्न टोकन विभिन्न लक्ष्यों के अनुरूप हैं।

विभिन्न सेवाओं में सहसंबंध के लिए - विभिन्न कुंजी/क्षेत्र।

5. 4 न्यूनतम शब्दकोश हमले

सामान्यीकरण (ईमेल/फोन का विमोचन), केएमएस में काली मिर्च, डोमेन आकार की सीमा (साइड चैनल के रूप में "कोई रिकॉर्ड नहीं मिला" त्रुटियां न दें), सार्वजनिक बिंदुओं के लिए दर-सीमा और SARTSNA/प्रॉक्सी।

6) एपीआई डिजाइन और स्कीमैटिक्स

6. 1 REST/gRPC (विकल्प)

'POST/v1/टोकनाइज {फील्ड, वैल्यू, स्कोप, tenant_id, उद्देश्य} -> {टोकन, मेटा}'

'POST/v1/detokenize {टोकन, उद्देश्य} -> {value}' (mTLS + OIDC + ABAC; "न्यूनतम" जारी करना)

'POST/v1/match {field, value} -> {token}' (नियतात्मक खोज पथ)

6. 2 भंडारण आरेख (टीवी)

Таблица 'टोकन (क्षेत्र, दायरा, tenant_id, टोकन, created_at, संस्करण, wrapped_key_id, hash_index)'

इंडेक्स: डी-डुप्लिकेशन/सर्च के लिए 'टोकन', '(tenant_id, फील्ड, hash_index)' द्वारा।

हैश इंडेक्स (सामान्यीकृत पीआईआई से एचएमएसी) आपको बिना डिटोकेनाइज़ेशन के खोज करने की अनुमति देता है।

6. 3 सामान्यीकरण पाइपलाइनें

ईमेल: लोअरकेसिंग, ट्रिम, विहित स्थानीय-भाग (सभी डोमेन के लिए अंकों के आक्रामक "खाने" के बिना)।

फोन: E.164 (देश कोड के साथ), स्वरूपण अक्षरों को हटाना।

पता/नाम: नियमों द्वारा लिप्यंतरण, ट्रिम, पतन रिक्त स्थान।

7) बहु-किरायेदारी और अलगाव

प्रति किरायेदार कुंजी और नाम: KEK/DEK प्रति किरायेदार।

Detokenization नीतियां: भूमिका + लक्ष्य + कारण + घटना ऑडिट।

किरायेदार डेटा का क्रिप्टो विलोपन - केईके निरसन और डीईके विनाश - वोल्ट बेकार हो जाता है (इसके रिकॉर्ड के लिए)।

8) एकीकरण

8. 1 डेटाबेस और कैश

ऑपरेटिंग टेबल में केवल टोकन स्टोर करें।

दुर्लभ मामलों में प्रॉक्सी/एजेंट के माध्यम से ऑन-द-फ्लाई डिटोकेनाइजेशन की आवश्यकता होती है।

टोकन कैश - केवल एक छोटे टीटीएल के साथ स्मृति में, डिस्क पर लिखे बिना।

8. 2 एनालिटिक्स/बीआई/एमएल

DWH/झील में, टोकन या हैश। ज्वाइन इसी दायरे के नियतात्मक टोकन पर किया जाता है।

एमएल के लिए, छद्म नाम और समुच्चय पसंद किए जाते हैं; व्यक्तियों को बहाल करने से बचें।

8. 3 समर्थन सेवाएं और धोखाधड़ी विरोधी

मास्क ('+ 380') और एक उचित कारण (कारण कोड) + दूसरे कारक के लिए एपिसोडिक डिटोकेनाइजेशन के साथ यूआई।

9) रोटेशन, संस्करण और जीवनचक्र

टोकन आईडी और एन्क्रिप्शन संस्करण (v1/v2) को अलग करें।

पुनः व्याप्त करें: डेटा को छूए बिना केईके बदलें।

हादसा योजना: महत्वपूर्ण समझौता - तत्काल रिकॉल, डिटोकेनाइजेशन का निषेध, "रीड-ओनली" पर रोलबैक, फिर से लॉन्च करना।

टीटीएल टोकन: नीति द्वारा - स्थायी (पहचानकर्ता) या लघु (एक बार लिंक/अस्थायी एकीकरण)।

10) प्रदर्शन और विश्वसनीयता

हार्डवेयर त्वरण (AES-NI/ARMv8), KMS से कनेक्शन के पूल, लिपटे DEKs का कैश।

क्षैतिज स्केलिंग टीएस; पढ़ ने/लिखने के रास्ते विभाजित करें

संजाल फ्लैग्स के लिए टोकनाइज़करने के लिए idempotency-key.

डीआर/एचए: बहु-क्षेत्र, अतुल्यकालिक वोल्ट प्रतिकृति, नियमित वसूली परीक्षण।

SLO: p99 विलंबता 'टोकन' ≤ 50-100 एमएस; 'डेटोकेनाइज़' ≤ 50 एमएस; उपलब्धता ≥ 99। 9%.

11) अवलोकन, लेखा परीक्षा, अनुपालन

मेट्रिक्स: क्यूपीएस विधियों, ए एंड ए त्रुटियों, डिटोकेनेशन (भूमिकाओं/लक्ष्यों द्वारा), कैश हिट-रेट, केएमएस ऑपरेशन समय का हिस्सा।

ऑडिट (अपरिवर्तनीय): प्रत्येक डिटोकेनेशन 'कौन/क्या/क्यों/कहां', क्वेरी हैश, परिणाम के साथ।

लॉग के लिए प्रतिधारण और WORM नीतियां (ऑडिटिंग और अपरिवर्तनीय लॉग देखें)।

अनुपालन: जीडीपीआर (क्रिप्टो इरेज़र के माध्यम से हटाने का अधिकार), पीसीआई डीएसएस (पैन - एफपीई/छद्म नाम के लिए), आईएसओ/एसओसी रिपोर्टिंग।

12) परीक्षण और सुरक्षा

क्रिप्टो यूनिट परीक्षण: नियतात्मक टोकन की स्थिरता, एएडी का सत्यापन और विफलता अगर यह मेल नहीं खाती है।

नकारात्मक परीक्षण: शब्दकोश हमले, प्रारूप रिवर्स, दर-सीमा, सीएसआरएफ (वेब पैनल के लिए), एसएसआरएफ बैकेंड के लिए।

अराजकता: केएमएस/वोल्ट अनुपलब्ध, विरासत कुंजी, आंशिक प्रतिकृति।

आवधिक रेड-टीम बिना कारण और साइड चैनलों के माध्यम से डिटोकेनाइज़करने का प्रयास करती है।

13) मिनी व्यंजनों

नियतात्मक प्रतिवर्ती टोकन (AEAD SIV, स्यूडोकोड):

pii_norm = normalize(value)
aad   = scope          tenant          field dek   = kms. unwrap(kek_id, wrapped_dek_for_field)
token = aead_siv_encrypt (dek, pii_norm, aad) # deterministically store_vault (token, pii_norm, meta)
return token
अपरिवर्तनीय एनालिटिक्स टोकन (HMAC):

pii_norm = normalize(value)
pepper  = kms. get_secret("pepper/"+tenant+"/"+field)
token = HMAC_SHA256 (pepper, pii_norm) # deterministically within scope return base64url (token)
डेटोकेनाइजेशन नीति (विचार):

allow if role in {SupportL2, Risk, DPO} and purpose in {KYC, Chargeback, DSAR}
and mTLS and OIDC_claims match tenant and reason_code provided and ticket_id linked rate_limit per actor <= N/min
किरायेदार क्रिप्टो हटाना:

kms. disable_key(kek_tenant)
access to unwrap is blocked → detoxification is not possible schedule_destroy (kek_tenant, hold_days=7)

14) बार-बार गलतियाँ और उनसे कैसे बचें

लॉग में टोकन। टोकन स्वयं (विशेष रूप से प्रतिवर्ती) मास्क - ये संवेदनशील डेटा हैं।

सब कुछ के लिए एकल कुंजी "। "किरायेदार/क्षेत्र/लक्ष्य द्वारा विभाजि AAD का उपयोग करें।

सामान्यीकरण "यादृच्छिक पर। "अनियंत्रित कैनोनाइजेशन खोज/हर्षित को तोड़ ता है।

कारण/सीमा के बिना detokenization। हमेशा कारण कोड, ऑडिट और दर-सीमा।

रामबाण के रूप में एफपीई। केवल तभी उपयोग करें जब प्रारूप वास्तव में आवश्यक हो और सही डोमेन/कुंजी के साथ।

डिस्क पर लंबे समय तक कैश रहता है। केवल टीटीएल के साथ स्मृति में कैश।

कोई पुनर्व्यापी प्रक्रिया नहीं। डाउनटाइम के बिना केईके का रोटेशन अनिवार्य है।

15) चेकलिस्ट

बेचने से पहले

  • प्रति क्षेत्र/लक्ष्य (प्रतिवर्तनीयता/नियतावाद/गुंजाइश) चयनित टोकन प्रोफाइल।
  • कुंजी पदानुक्रम (KEK/DEK), KMS नीतियां, प्रमुख संचालन ऑडिटिंग विन्यस्त हैं।
  • इनपुट सामान्यीकरण, प्रारूप सत्यापन पाइपलाइन लागू।
  • दर-सीमा, कारण-कोड, अपरिवर्तनीय ऑडिट सक्षम।
  • शब्दकोश हमलों/प्रारूप/भूमिका-आधारित पहुंच के लिए परीक्षण पारित।
  • DR/प्रतिकृति वोल्ट और प्रमुख समझौता योजना।

ऑपरेशन

  • मासिक डिटोकेनेशन रिपोर्ट (कौन/क्यों/कितना)।
  • केईके/काली मिर्च का आवधिक घुमाव, डीईके को फिर से लपेटें।
  • अनधिकृत डिटोकेनेशन/साइड चैनलों के लिए रेड-टीम।
  • नए प्रारूपों/क्षेत्रों के रूप में सामान्यीकरण को संशोधित करें।

16) एफएक्यू

प्रश्नः टोकनाइजेशन = गुमनामी?

अरे नहीं। टोकेनाइजेशन - छद्म नाम। यदि कुंजी/वोल्ट हैं तो स्रोत बहाल किया जाएगा (या तुलनीय)। GDPR के क्षेत्र से बाहर निकलने के लिए विश्वसनीय गुमनामी की आवश्यकता होती है।

प्रश्न: डिटोकेनाइजेशन के बिना ईमेल/फोन द्वारा कैसे खोजा जाए?

A: कैनोनाइजेशन के साथ डिटेमिनेटेड टोकन। पते/पूरा नाम - हैश इंडेक्स/खोज कुंजी और सहायक तालिकाओं के लिए।

प्रश्न: एफपीई की कब जरूरत है?

A: जब किसी बाहरी संविदा/स्कीमा को प्रारूप (लंबाई/वर्णमाला) की आवश्यकता होती है। अन्य मामलों में, नियमित AEAD टोकन सरल और सुरक्षित हैं।

प्रश्न: क्या सभी उद्देश्यों के लिए एक टोकन होना संभव है?

A: बेहतर अलग-अलग स्कोप (गुंजाइश/उद्देश्य): एक ही PII विभिन्न कार्यों के लिए अलग-अलग टोकन देता है - सहसंबंध के जोखिम को कम करता है।

प्रश्न: आप "हटाने के अधिकार" का प्रयोग कैसे करते हैं?

A: क्रिप्टो विलोपन: संबंधित सेट के लिए KEK/DEK को रद्द करें और/या वोल्ट + में प्रविष्टि को क्षेत्र/पार्टी कुंजियों को नष्ट करें; एनालिटिक्स में - टीटीएल/एकत्रीकरण/प्रतिरूपण।

संबंधित सामग्री:
  • "गुप्त प्रबंधन"
  • "बाकी एन्क्रिप्शन में"
  • "ट्रांजिट एन्क्रिप्शन में"
  • "डिजाइन द्वारा गोपनीयता (GDPR)"
  • "ऑडिट और अपरिवर्तनीय लॉग"
  • "प्रमुख प्रबंधन और घूर्णन"
Contact

हमसे संपर्क करें

किसी भी प्रश्न या सहायता के लिए हमसे संपर्क करें।हम हमेशा मदद के लिए तैयार हैं!

Telegram
@Gamble_GC
इंटीग्रेशन शुरू करें

Email — अनिवार्य है। Telegram या WhatsApp — वैकल्पिक हैं।

आपका नाम वैकल्पिक
Email वैकल्पिक
विषय वैकल्पिक
संदेश वैकल्पिक
Telegram वैकल्पिक
@
अगर आप Telegram डालते हैं — तो हम Email के साथ-साथ वहीं भी जवाब देंगे।
WhatsApp वैकल्पिक
फॉर्मैट: देश कोड और नंबर (उदा. +91XXXXXXXXXX)।

बटन दबाकर आप अपने डेटा की प्रोसेसिंग के लिए सहमति देते हैं।