ناشناس و Aliasing

1) شرایط و تفاوت های کلیدی

ناشناس سازی: کاهش غیر قابل برگشت یک مجموعه به یک فرم که در آن موضوع را نمی توان به طور مستقیم یا غیر مستقیم با تلاش معقول شناسایی کرد. پس از شناسایی صحیح، داده ها متوقف می شوند که اطلاعات شخصی باشند.
Aliasing: جایگزینی شناسه های مستقیم (نام، تلفن، ایمیل، شماره حساب) با نام مستعار (نشانه ها). ارتباطات به طور جداگانه ذخیره می شود و توسط رمزنگاری و روش های دسترسی محافظت می شود. از نظر قانونی، این هنوز اطلاعات شخصی است.
شبه شناسه ها: ترکیبی از ویژگی های بی ضرر (تاریخ تولد، شاخص، جنسیت، شهر، دستگاه)، که در ترکیب می تواند به طور منحصر به فرد یک فرد را نشان دهد.
شناسایی مجدد: برقراری ارتباط با موضوع با چسباندن به منابع خارجی یا تجزیه و تحلیل ترکیبات نادر از ویژگی های.

2) اهداف و الزامات معماری

1. حریم خصوصی به طور پیش فرض: به حداقل رساندن جمع آوری، ذخیره سازی تنها زمینه های لازم، TTL دقیق.
2. جداسازی خطوط: شناسه های تولید از خطوط تحلیلی و ML جدا می شوند. دسترسی به جداول لینک - با توجه به اصل نیاز به دانستن.

3. ممیزی و ردیابی: چه کسی، چه زمانی و چرا دسترسی به شناسایی مجدد را به دست آورد

4. سیاست های استفاده مجدد: داده های داده شده به شرکا/محققان خارجی باید دارای ضمانت های رسمی حفظ حریم خصوصی و مجوز برنامه باشند.
5. ارزیابی ریسک: معیارهای کمی (k-anonymity، matchup probability، ε برای حریم خصوصی دیفرانسیل) به عنوان SLO های مهندسی.

3) تکنیک های شناسایی

3. 1 Aliasing (برگشت پذیر)

Tokenization: ذخیره سازی مسابقات در «رجیستری توکن».

فرم ها: قطعی (یک ورودی → یک نشانه)، تصادفی (ورودی → نشانه های مختلف با نمک و زمینه).
در صورت لزوم: شناسه های پرداخت، حساب ها، پیوندهای طولانی مدت بین رویدادها.
FPE (رمزگذاری حفظ قالب) - رمزگذاری حفظ قالب (به عنوان مثال، PAN 16 رقمی → متن رمز 16 رقمی). مناسب برای طرح های قانونی و اعتبار سنجی.
HMAC/Deterministic Encryption: یک نام مستعار پایدار برای joynes می دهد، اما نیاز به مدیریت کلید ها و دامنه های برنامه (اتصال زمینه) دارد.
هشینگ: فقط با نمک قوی و در صورت عدم نیاز به برگشت پذیری قابل قبول است. برای دامنه های نادر (تلفن، ایمیل)، هش خالص در برابر نیروی بی رحم آسیب پذیر است.

3. 2 ناشناس (غیر قابل برگشت)

k-anonymity: هر «شبه پرتره» ثبت شده ≥ k بار رخ می دهد. با تعمیم (age → age _ band) و سرکوب ترکیبات نادر به دست می آید.
l-تنوع: در هر k-گروه، ویژگی حساس ≥ l مقادیر مختلف برای جلوگیری از افشای در خوشه همگن است.
t-closeness ویژگی حساس را در k-group «close» به global (محدودیت نشت اطلاعات) توزیع می کند.
حریم خصوصی دیفرانسیل (DP): اضافه کردن نویز کنترل شده ریاضی به aggregates یا مدل های آموزشی با حریم خصوصی (ε -DP). تضمین رسمی در برابر دانش خارجی خودسرانه از مهاجم می دهد.
پوشش/جایگشت/مخلوط کردن: مناسب برای محیط های نسخه ی نمایشی/پشتیبانی.
داده های مصنوعی: تولید کیت های توسعه/تحقیق «مشابه» بدون اتصال به افراد واقعی (GAN/VAEs/synthesizers tabular) با آزمایش نشت.

4) الگوهای معماری

4. 1 دروازه حریم خصوصی در ورودی

موضوع: مشتری → API دروازه → دروازه حریم خصوصی → اتوبوس رویداد/ذخیره سازی.

توابع:

عادی سازی مدارها ؛
زمینه های حساس را برجسته کنید (PII/PHI/Finance)
اعمال قوانین: نشانه گذاری/FPE/ماسک ؛
ثبت خط مشی (policy_id، نسخه کلیدی، دلیل پردازش).

4. 2 خرک توکن

خدمات/پایگاه داده جداگانه با HSM/KMS.
RBAC/ABAC بیش از API ؛ همه عملیات قابل بررسی هستند.
جداسازی «دامنه ها» (email/payment/user_id) به طوری که یک نشانه را نمی توان با متن اشتباه گرفت.
چرخش کلید و نسخه توکن ('token _ v1'، 'token _ v2') با مهاجرت شفاف.

4. 3 تجزیه و تحلیل حلقه دوگانه

حلقه A (عملیاتی): PII حداقل برای کسب و کار ذخیره می شود.
کانتور B (تحلیلی): تنها مجموعه داده/aggregates ناشناس ؛ دسترسی به دفترچه های امن ؛ صادرات به خارج - از طریق دروازه DP.

4. نوار نقاله 4 میلی لیتری با حریم خصوصی

مراحل: جمع آوری → تمیز کردن → pseudonymization → ناشناس سازی/تجمع DP → آموزش.
برای مدل های شخصی، ویژگی های فروشگاه در نشانه ها و محدود کردن «روشنایی» ویژگی (کلاه برای cardinality، پیرایش دم، DP regularization).

5) پروتکل ها و جریان ها (مثال)

پروتکل حذف ایمیل:

1. API «ایمیل» را دریافت می کند.

2. Privacy Gateway вызывает Token Vault: 'tokenize (' email ', value, context =' signup: v1 ').

3. فروشگاه های برنامه «email _ token» به جای ایمیل.

4. برای اطلاعیه - یک سرویس جداگانه است که حق «detokenize» توسط مورد به مورد، با یک حسابرسی است.

گزارش پروتکل ناشناس سازی:

1. تحلیلگر یک درخواست به نمایشگاه (فقط نشانه ها/زمینه های غیر حساس) را تشکیل می دهد.

2. موتور اعمال k-anonymization در شبه شناسه ('کشور، age_band، device_class').

3. برای شاخص های با خطر افشا، نویز DP اضافه شده است.

4. صادرات 'anonymization _ profile _ id' مشخص شده و با بودجه ε می شود.

6) معیارهای ریسک و اعتبارسنجی

k-anonymity: حداقل اندازه کلاس معادل (هدف: k≥5/10/20 بسته به دامنه).
l-diversity/t-closure: نشت مقادیر حساس در k کلاس را کنترل می کند.
امتیاز منحصر به فرد: سهم پرتره های منحصر به فرد در میان دارایی ها با تعمیم کاهش می یابد.
ارتباط پذیری/خطر استنتاج: احتمال اینکه رکورد با یک مجموعه خارجی مقایسه شود (تخمین زده شده توسط شبیه سازی حمله).
DP ε -budget: شروع یک «بودجه حفظ حریم خصوصی» در مورد موضوع/مجموعه داده و پیگیری مصرف آن است.
شبیه سازی حمله: «دستورات قرمز» به طور منظم برای شناسایی مجدد در کاهش آزمون.

7) کلید، رمزنگاری و مدار عملیاتی

KMS/HSM: تولید کلید و ذخیره سازی برای FPE/رمزنگاری قطعی/HMAC.
نسخه بندی: «key _ id»، «created _ at»، «وضعیت = فعال» بازنشستگی «بازنشسته». ذخیره «بچه» در داده ها برای برگشت پذیری.
چرخش: برنامه ریزی شده (سه ماهه) و اجباری (حادثه). پشتیبانی از «رمزگذاری دوگانه» برای مدت زمان مهاجرت.
سیاست های دسترسی: ممنوعیت detokenization توده ؛ محدودیت های RPS/volume اجباری «هدفمند».
حسابرسی: ورود اصلاح نشده (WORM/append-only) با امضا.

8) ادغام در میکروسرویس ها و پروتکل ها

زمینه های Protobuf/JSON-Schema-Tag با "pii: مستقیم" شبه حساس "،" policy _ id ".
رویدادها: دو مجموعه از موضوعات - «خام» (کانتور داخلی) و «غیر شخصی» (برای تجزیه و تحلیل/شرکا).
دروازه شریک: خدمات خروج با پروفایل های ناشناس (مجموعه قانون + معیارهای خطر + نسخه).
سیاهههای مربوط/آثار: حذف PII ؛ استفاده از نشانه ها/هش ها و استفاده از FPE/HMAC در همبستگی.

9) ضد الگوهای

PII های منبع را در نزدیکی نشانه ها/کلید ها ذخیره کنید.
اعتماد به یک «دسترسی فوق العاده» بدون ریشه کن کردن و ورود به سیستم چند منظوره.
مجموعه داده های «غیر شخصی» را بدون معیارهای ریسک و بدون ضمانت رسمی ارائه دهید.
فقط به هش کردن ایمیل/تلفن بدون salt/context اعتماد کنید.
ناشناس «یک بار و برای همیشه» بدون تجدید نظر در هنگام تغییر منابع خارجی (نشت خطر لینک را افزایش می دهد).
در نظر بگیرید که K-گمنامی به اندازه کافی برای متون/سری زمان/جغرافیایی آهنگ است - وجود دارد شما نیاز به DP/برداشت و مصنوعی.

10) موارد کاربردی (از جمله صنعت فینتک/بازی)

ویژگی های ضد ریزش و رفتاری: نشانه های قطعی برای چسباندن جلسات و دستگاه ها، و زمینه های حساس به یک مدار جداگانه می روند.
گزارش بر اساس منطقه: k-anonymization شبه شناسه (گروه های سنی، منطقه خوشه، نوع روش پرداخت)، DP-سر و صدا به معیارهای درآمد.
تست A/B و بازاریابی: نشانه های کاربر، مخاطبان نرم از طریق قطع DP و حداقل سیاهههای مربوط به ممیزی.
به اشتراک گذاری داده ها با ارائه دهندگان: تنها از طریق یک دروازه خروجی با پروفایل های ناشناس و محدودیت های قانونی در بازسازی های افزایشی.

11) دستور العمل های کوچک (شبه کد)

توکن قطعی (ایمیل) با نمک دامنه


function email_token(email, domain_key, context):
norm = normalize (email )//lower, trim, punycode salt = HMAC (domain_key, context )//context bound to use-case return BASE32 (HMAC (salt, norm) )//stable, non-brute force token

FPE برای PAN (تقریبا)


cipher = FPE_AES_FF1(kid="pay_v2")
enc_pan = cipher. encrypt(pan, tweak=merchant_id)
store(enc_pan, kid="pay_v2")

k-anonymization با سرکوب سبدهای نادر


groups = groupBy(dataset, [age_band, region3, device_class])
filtered = filter(groups, count >= k)
suppressed = replaceRare(groups, with="")

معیارهای جمع آوری DP


function dp_sum(values, epsilon, sensitivity=1):
noise = Laplace(0, sensitivity/epsilon)
return sum(values) + noise

12) تست و مشاهده

آزمونهای واحد سیاستها: تکرارپذیری توکنها، چرخش صحیح «کودک»، ناتوانی در جداسازی بدون حقوق.
CI حریم خصوصی: برای هر PR - تجزیه و تحلیل استاتیک از طرح ها و کد برای نشت PII (برچسب/ورود/چک صادرات).
معیارها: نسبت ستونها با برچسبهای PII، تعداد سمزدایی توسط اهداف، k-min توسط مجموعهها، ε - مصرف.
هشدارها: افزایش تلاش های detokenization، ظاهر سبد «نازک» (k زیر آستانه)، صادرات بدون مشخصات ناشناس.

13) مدار فرآیند قانونی (سطح بالا)

DPIA/TRA: ارزیابی تأثیر حریم خصوصی برای جریانهای جدید.
نگهداری داده ها: TTL و سیاست حذف جایگزین ها و ثبت ها.
درخواست های موضوع: توانایی صدور یک کپی از داده ها بدون افشای کلید/منطق نشانه گذاری داخلی.
قرارداد با شرکا: ممنوعیت شناسایی مجدد، محدودیت در joynes با مجموعه های خارجی، معیارهای حریم خصوصی اجباری.

14) چک لیست معمار

1. PII/شبه شناسه تعریف شده و مشخص شده در نمودار ؟

2. دروازه حریم خصوصی ورودی سیاست های تعیین شده و نسخه های سیاهههای مربوط را اعمال می کند ؟

3. ثبت نشانه جدا شده (KMS/HSM، RBAC، حسابرسی، محدودیت ها) ؟

4. خطوط تقسیم می شوند: عملیاتی، تحلیلی، ML، خروج ؟

5. آیا معیارهای خطر (k، l، t، ε) و SLO آستانه پیکربندی شده اند ؟

6. آیا یک برنامه چرخش کلیدی و مهاجرت توکن برگشت پذیر دارید ؟

7. صادرات به خارج از طریق مشخصات ناشناس و سر و صدای DP می رود ؟

8. آیا سیاههها/ردپاها حاوی PII نیستند ؟

9. به طور منظم «قرمز تیم» شبیه سازی شناسایی مجدد ؟

10. مستند در مورد حادثه نشت کلید/سازش ؟

15) معماری مرتبط و پروتکل الگوهای بخش

نشانه گذاری و مدیریت کلید

در حالت استراحت/در رمزگذاری حمل و نقل

مسیریابی جغرافیایی و محلی سازی

قابلیت مشاهده: سیاهههای مربوط، معیارها، ردیابی (بدون PII)

SLO/SLA برای حفظ حریم خصوصی و انطباق

نتیجه گیری

ناشناس سازی و pseudonymization یک عملیات واحد در یک ستون نیست، بلکه توانایی معماری سیستمیک است: سیاست ها، خدمات، کلید ها، ممیزی ها، معیارهای ریسک و فرهنگ های توسعه. با ترکیب pseudonymising قوی برای فرآیندهای کسب و کار و تضمین حریم خصوصی رسمی (DP، k-/l-/t-معیار) برای تجزیه و تحلیل و تبادل، شما به نوبه خود حفظ حریم خصوصی از یک «ترمز نوآوری» به یک مزیت رقابتی و یک لایه اجباری از کیفیت برای پلت فرم خود را.

ناشناس و Aliasing

FPE برای PAN (تقریبا)

k-anonymization با سرکوب سبدهای نادر

معیارهای جمع آوری DP

نتیجه گیری

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم