ترميز بيانات PII
ترميز بيانات مؤشر الاستثمار الدولي
1) لماذا الترميز وما الذي نرمزه بالضبط
الهدف: استبعاد الوصول إلى البيانات الشخصية «الأولية» في الدائرة التشغيلية والتحليلات، وتقليل مخاطر التسرب وتبسيط الامتثال للمتطلبات.
أمثلة PII: الاسم الكامل، رقم الهاتف، البريد الإلكتروني، العنوان، جواز السفر/الهوية، TIN، عناوين IP، ملفات تعريف الارتباط، معرفات الدفع، تاريخ الميلاد، إلخ.
- لا يكشف عن القيمة الأصلية ؛
- يمكن عكسها (عن طريق خدمة آمنة لإزالة السموم) أو لا رجعة فيها ؛
- يمكن أن تكون حتمية (للانضمام/البحث) أو غير حتمية (لأقصى قدر من الخصوصية).
2) نموذج التهديد وأهداف السيطرة
المخاطر: تسريبات قاعدة البيانات/السجل/النسخ الاحتياطي، والقراءات الداخلية، والارتباط عن طريق تكرار القيم، وإلغاء التصريح غير المصرح به، وهجمات القاموس/التنسيق (البريد الإلكتروني/الهاتف)، وإعادة استخدام الأسرار.
الأهداف:1. مناطق ثقة منفصلة: يعمل التطبيق مع الرموز والمصادر - فقط في الخدمة الرمزية.
2. ضمان قوة التشفير للرموز والتخلص المدار.
3. خفض نصف قطر الانفجار باستخدام KMS/HSM والدوران وتعقيم التشفير.
4. ضمان ملاءمة البحث/الأفراح/التحليلات المعرضة للمخاطر الخاضعة للرقابة.
3) تصنيف الرموز
الموجزات الموصى بها:- PII للبحث/الفرح: قطعي قابل للعكس، متجه إلى المنطقة (المستأجر/النطاق)، ممسك بنظام KMS.
- PII للتخفي التشغيلي (UI): لا يمكن عكسه مع مدى الحياة لتقليل مخاطر إعادة الاستخدام.
- لتحليلات المنطقة الرمادية: لا رجعة فيها (تجميعات NMAC/الملح الرئيسية) أو DP.
4) بنية التوكينيز
4. 1 مكونات
خدمة الترميز (TS): واجهة برمجة التطبيقات «tomenize/detokenize/search»، منطقة ثقة عالية.
Token Vault (TV): الخريطة المحمية «رمز → الأصلي (+ البيانات الوصفية)».
KMS/HSM: تخزين مفتاح الجذر (KEK)، عمليات التغليف/التوقيع.
محرك السياسات: من وأين ولماذا يمكنه التخلص من السموم ؛ النطاق/TTL/حدود الأسعار ؛ mTLS/mTLS + mTLS.
التدقيق والحصانة: سجلات غير قابلة للتغيير لجميع عمليات الترميز/إزالة التوكينات.
4. 2 التسلسل الهرمي الرئيسي
Root/KEK in KMS/HSM (لكل منظمة/منطقة/مستأجر).
DEK-PII لكل مجال بيانات (بريد إلكتروني/هاتف/عنوان) و/أو مجموعة بيانات.
الدوران: إعادة غلاف DEK دون إعادة تشفير الفولت بالكامل ؛ خطة «الحل الوسط الرئيسي».
4. 3 التدفقات
1. الرمز: عميل TS → (mTLS + A&A) → التطبيع → الحساب الرمزي → الكتابة إلى استجابة رمزية → التلفزيون.
2. Detokenize - TS → Client → Policy/Reason Check → Source Check (or Revect).
3. البحث/المطابقة: الترميز الحتمي يسمح لك بالبحث عن طريق الرمز ؛ للبريد الإلكتروني/الهاتف - تطبيع التنسيق قبل الترميز.
5) التصميمات الرمزية (تصميم التشفير)
5. 1 قابلة للعكس (موصى بها للدائرة التشغيلية)
غلاف AES-SIV/AEAD: 'cipher = AEAD_Encrypt (DEK، PII، AAD = نطاق' المستأجر 'field' ؛ token = 'prefix' nonce 'cipher' tag '.
FPE (FF1/FF3-1) للأشكال (مثل هاتف مكون من 10 أرقام بدون رمز قطري). ضع بحذر وصواب المجال (الأبجدية/الطول).
5. 2 لا رجعة فيه (تحليلات/إخفاء هوية الوجه)
Keided HMAC/хэш: 'token = HMAC (PII_normalized, key = K _ scope)'; ملح/فلفل - منفصل ؛ لكل مستأجر أو مجموعة بيانات.
تقليل خطر الاصطدامات باختيار وظيفة (SHA-256/512) ونطاق.
5. 3 الحتمية والنطاق
للانضمام، استخدم مخططًا حتميًا مع AAD = '{مستأجر' حقل الغرض '' → تتوافق الرموز المختلفة لنفس القيمة مع أهداف مختلفة.
لمناهضة الارتباط في مختلف الخدمات - مفاتيح/مناطق مختلفة.
5. 4 تقليل هجمات القاموس
التطبيع (تقديس البريد الإلكتروني/الهاتف)، الفلفل في KMS، تحديد حجم المجال (لا تعطي أخطاء «لا يوجد سجل» كقناة جانبية)، حد السعر و SARTSNA/الوكيل للنقاط العامة.
6) تصميم وتخطيطات واجهة برمجة التطبيقات
6. 1 REST/gRPC (خيار)
'POST/v1/tokenize {field, value, scope, tenant_id, guide} -> {token, meta}'
'POST/v1/detokenize {token, purpose} -> {value}' (mTLS + OIDC + ABAC ؛ «تقليل» الإصدار)
'POST/v1/match {field، value} -> {token}' (مسار بحث حتمي)
6. مخطط تخزين 2 (تلفزيون)
رموز Таблица (مجال، نطاق، tenant_id، رمز، created_at، نسخة، wrapped_key_id، hash_index) "
الفهارس: بواسطة «رمز»، بواسطة «(tenant_id، حقل، hash_index)» لإزالة الازدواجية/البحث.
يسمح لك مؤشر Hash (HMAC من PII الطبيعي) بالبحث دون إزالة التأكيدات.
6. 3 خطوط أنابيب التطبيع
البريد الإلكتروني: صغر الحجم، تقليم، الجزء المحلي القانوني (بدون «أكل» عدواني للنقاط لجميع المجالات).
الهاتف: E.164 (برمز البلد)، إزالة أحرف التنسيق.
العنوان/الاسم: الترجمة حسب القواعد، القطع، مساحات الانهيار.
7) تعدد الإيجارات والعزلة
المفاتيح ومساحات الأسماء لكل مستأجر: KEK/DEK لكل مستأجر.
سياسات إزالة التأكيدات: الدور + الهدف + السبب + تدقيق الحدث.
حذف التشفير لبيانات المستأجر - إلغاء KEK وتدمير DEK → يصبح الفولت عديم الفائدة (لسجلاته).
8) التكامل
8. 1 قواعد البيانات والمخابئ
قم بتخزين الرموز فقط في طاولات التشغيل.
تتطلب الحالات النادرة إزالة الدماغ أثناء الطيران من خلال وكيل/وكيل.
مخابئ الرموز - فقط في الذاكرة باستخدام TTL قصير، دون الكتابة للقرص.
8. 2 تحليلات/BI/ML
في DWH/البحيرة، الرموز المميزة أو التجزئة. يتم تنفيذ الانضمام على الرموز الحتمية للنطاق المقابل.
بالنسبة لـ ML، يتم تفضيل تسمية مستعارة ومجموعات ؛ تجنب استعادة الأشخاص.
8. خدمات الدعم 3 ومكافحة الغش
UI مع قناع ('+ 380') والتخلص العرضي لسبب معقول (رمز السبب) + العامل الثاني.
9) التناوب والنسخ ودورة الحياة
فصل رمز الهوية و تشفير نسخة (v1/v2).
إعادة الغلاف: قم بتغيير KEK دون لمس البيانات.
خطة الحادث: حل وسط رئيسي → الاستدعاء الفوري، وحظر التخلص من الدماغ، والتراجع عن «القراءة فقط»، وإعادة الغلاف.
رموز TTL: حسب السياسة - (معرفات) دائمة أو قصيرة (روابط لمرة واحدة/عمليات دمج مؤقتة).
10) الأداء والموثوقية
تسارع الأجهزة (AES-NI/ARMv8)، ومجمعات الاتصالات إلى KMS، ومخبأ DEKs الملفوفة.
القياس الأفقي للخدمات التقنية ؛ تقسيم مسارات القراءة/الكتابة.
مفتاح الخصوصية لرمز التكرارات لأعلام الشبكة.
DR/HA: نسخة طبق الأصل متعددة المناطق وغير متزامنة وفولت، واختبارات استعادة منتظمة.
SLO: p99 latency 'tomenize' ≤ 50-100 mm ؛ 'detokenize' ≤ 50 ms ؛ ≥ 99. 9%.
11) قابلية الملاحظة ومراجعة الحسابات والامتثال
المقاييس: QPS بالطرق، وأخطاء A&A، وحصة التخلص من التخلص (حسب الأدوار/الأهداف)، ومعدل ضرب المخبأ، ووقت تشغيل KMS.
التدقيق (غير قابل للتغيير): كل تفكيك مع «من/ماذا/لماذا/أين»، هاش الاستفسار، النتيجة.
سياسات الاحتفاظ بالسجل وسياسات الإدارة الدودية للحيوانات (انظر سجلات مراجعة الحسابات والسجلات غير القابلة للتغيير).
الامتثال: اللائحة العامة لحماية البيانات (التقليل إلى أدنى حد، الحق في الحذف عن طريق محو التشفير)، PCI DSS (بالنسبة إلى PAN - FPE/speudonisation)، تقارير ISO/SOC.
12) الاختبار والسلامة
اختبارات وحدة التشفير: استقرار الرموز الحتمية، والتحقق من AAD والفشل إذا لم يتطابق.
الاختبارات السلبية: هجمات القاموس، الشكل العكسي، حد المعدل، CSRF (للوحات الويب)، SSRF للنقاط الخلفية.
الفوضى: KMS/Volt غير متوفر، مفتاح قديم، تكرار جزئي.
يحاول الفريق الأحمر الدوري التخلص من السموم دون سبب وعبر القنوات الجانبية.
13) وصفات صغيرة
رمز قطعي قابل للعكس (AEAD SIV، pseudocode):
pii_norm = normalize(value)
aad = scope tenant field dek = kms. unwrap(kek_id, wrapped_dek_for_field)
token = aead_siv_encrypt (dek, pii_norm, aad) # deterministically store_vault (token, pii_norm, meta)
return token
رمز تحليلات لا رجعة فيه (HMAC):
pii_norm = normalize(value)
pepper = kms. get_secret("pepper/"+tenant+"/"+field)
token = HMAC_SHA256 (pepper, pii_norm) # deterministically within scope return base64url (token)
سياسة إزالة التأكينات (فكرة):
allow if role in {SupportL2, Risk, DPO} and purpose in {KYC, Chargeback, DSAR}
and mTLS and OIDC_claims match tenant and reason_code provided and ticket_id linked rate_limit per actor <= N/min
إزالة التشفير المستأجر:
kms. disable_key(kek_tenant)
access to unwrap is blocked → detoxification is not possible schedule_destroy (kek_tenant, hold_days=7)
14) الأخطاء المتكررة وكيفية تجنبها
الرموز في جذوع الأشجار. قم بإخفاء الرموز نفسها (خاصة تلك القابلة للعكس) - هذه بيانات حساسة.
مفتاح واحد "لكل شيء. "تقسيم المستأجر/الميدان/الهدف ؛ استخدام AAD.
التطبيع "بشكل عشوائي. "التقديس غير المنسق يكسر البحث/الفرح.
إزالة الدماغ بدون سبب/حد. دائما رمز السبب والتدقيق وحد السعر.
FPE كعلاج سحري. استخدم فقط عندما يكون التنسيق مطلوبًا حقًا ومع المجال/المفاتيح الصحيحة.
مخابئ طويلة العمر على القرص. مخبأ فقط في الذاكرة مع TTL.
لا توجد عملية إعادة غلاف. تناوب KEK دون توقف إلزامي.
15) القوائم المرجعية
قبل البيع
- نبذات رمزية مختارة لكل مجال/هدف (قابلية الانعكاس/الحتمية/النطاق).
- تم تشكيل التسلسل الهرمي الرئيسي (KEK/DEK) وسياسات KMS ومراجعة العمليات الرئيسية.
- تطبيع المدخلات، تنفيذ خط أنابيب التحقق من الشكل.
- الحد الأقصى للمعدل، ورموز الأسباب، والتدقيق غير القابل للتغيير الممكّن.
- اجتازت اختبارات هجمات القاموس/الشكل/الوصول القائم على الأدوار.
- DR/replica volt وخطة التسوية الرئيسية.
عملية
- تقرير التخلص الشهري (من/لماذا/كم).
- التناوب الدوري لـ KEK/pepper، إعادة غلاف DEK.
- الفريق الأحمر للتخلص من السموم/القنوات الجانبية غير المصرح بها.
- تنقيح التطبيع مع ظهور أشكال/مناطق جديدة.
16) الأسئلة الشائعة
س: الترميز = إخفاء الهوية ؟
لا لا الترميز - الاسم المستعار. سيتم استعادة المصدر (أو قابل للمقارنة) إذا كانت هناك مفاتيح/فولت. للخروج من مجال اللائحة العامة لحماية البيانات يتطلب إخفاء الهوية بشكل موثوق.
س: كيف تبحث عبر البريد الإلكتروني/الهاتف دون إزالة الدقة ؟
ج: تفكيك الرموز مع التقديس. للعناوين/الأسماء الكاملة - فهارس التجزئة/مفاتيح البحث والجداول المساعدة.
س: متى تكون هناك حاجة إلى FPE ؟
ج: عندما يتطلب عقد/مخطط خارجي الشكل (الطول/الأبجدية). في حالات أخرى، تكون الرموز العادية AEAD أبسط وأكثر أمانًا.
س: هل من الممكن أن يكون لديك رمز واحد لجميع الأغراض ؟
ج: نطاقات مختلفة أفضل (النطاق/الغرض): تعطي نفس PII رموزًا مختلفة لمهام مختلفة → تقلل من خطر الارتباط.
س: كيف تمارس «الحق في الإزالة» ؟
ج: حذف التشفير: إلغاء KEK/DEK للمجموعة المقابلة و/أو حذف المدخل في الفولت + تدمير مفاتيح الحقل/الطرف ؛ في التحليلات - TTL/التجميع/نزع الشخصية.
المواد ذات الصلة:- «الإدارة السرية»
- «في الراحة التشفير»
- «In Transit Encryption»
- «Privacy by Design (GDPR)»
- «سجلات التدقيق والسجلات الثابتة»
- «الإدارة والتناوب الرئيسيان»