合成数据的彷真和生成
1)定义和目标
合成数据-人工生成的集合,保留原始数据的统计和/或因果属性,而无需披露特定记录。
模拟-使用形式规则(随机,离散事件,代理-basd,causal)对过程/环境进行建模,以获取数据和情景。
- 隐私和合规性:PII/PHI/PCI风险较小。
- 覆盖罕见事件,"尾巴"分布,压力测试。
- R&D加速:Dev/QA/ML的沙箱,无需访问数据。
- 在无法收集实际道路/道路数据的地方进行实验和模型培训。
2)何时使用,何时不使用
适合:冷启动,数据短缺,高隐私风险,昂贵的A/B,政策/价格/负载模拟,管道测试。
小心/不适合:监管报告,强制性审计,罕见的域工件,其中本地模式是关键且易于扭曲的。
3)生成方法的分类法
3.1统计和经典:盗版,排列,经验分布,copula方法(Gaussian/Vine/Archimedean)以保持相关性。
3.2生成模型(ML):- 表数据的GAN/CTGAN/TVAE;
- 连续空间的VAE/常规气流;
- 图像/音频/时间序列的Diffusion模型;
- 文本/对话的LLM方法(带有guardrails和过滤器)。
- 3.3倾斜模拟器:结构倾斜模型(SCM),因果关系图,干扰(X)。
- 3.4离散事件/顺序/蒙特卡洛:过程建模(物流、呼叫中心、交易所、M/M/1队列、M/G/k)。
- 3.5经纪人:具有行为规则(市场、游戏、用户路径)的代理人群。
4)数据类型和具体情况
表:类别/数字/日期;边际分布,依赖性,稀有价值很重要。
时间序列:趋势/季节性/噪声,滞后相关性,事件和模式;regim生成(HMM/HSMM),分段扩散模型。
图和网络:学位分配,集群/社区,动机;Erdesh-Renyi模型,Barbashi-Albert模型,图形GAN/VAE。
文本/日志数据:用户查询的合成方法,字幕;需要对毒性/泄漏进行法律鉴定和控制。
图像/音频:域条件(分辨率、噪音)、类平衡。
5)隐私与保护
风险指标:记录链接/重新识别概率,membership inference持续性,attribute inference protection。
差分隐私(DP):DP-SGD,PATE,ε预算后处理;隐私报告(ε、δ、敏感性)。
PII修订版:学前令牌/伪装;LLM生成中的流程表/过滤器。
政治家和期刊:谁,什么,如何训练合成模型的数据;请求的时间。
6)合成品的质量和实用性
度量标准:- 统计接近:KS/ χ ²/WD,PSI,类别/稀有值的覆盖范围。
- 多线性性和依赖性:相关性/MI,copula距离。
- 公用事业测试:合成模型培训→实况测试(合成火车,实况测试,TSTR),反之亦然(TRTS)。
- 下游稳定性:业务指标/功能重要性的可持续性。
- 公平与偏差:伴侣度量,之前/之后的生物比较。
校准:生成超参数子结构,然后通过公用/特权阈值。
7)域限制和规则
刚性业务不变量:总和≥ 0,资产负债表保存,ID唯一性,参考完整性。
地理/时间:有效日历模式,时区,假期。
因果关系:在干预中保留do关系。
Constraint-aware生成:后过滤器,反射采样,可区分的约束。
8)如果有的话,情景和压力测试
蒙特卡洛(Monte Carlo):KPI结果在输入变化中的分布。
Causal干预:价格/限额/规则变化和uplift/风险评估。
负载模拟:流量配置文件、爆发、输送机容错。
罕见的事件:frod,DDoS,"黑天鹅"(尾巴横跨)。
9)集成到pipline和MLOps中
转化:dataset,sids,config生成,模型权重;SemVer语义。
Lyneedge:合成与源的联系(没有PII的抽象级别)。
测试和合同:合成的DQ规则,CI中的隐私检查。
编目:关于方法、超参数、ε预算、公用事业评估的元数据。
自动化:DAG用于发电机培训,批量释放,漂移监测。
10)实现堆栈和模式(解决方案类)
表/关系:copulas/CTGAN/TVAE/flows;启用FK的发电机。
时间序列:状态空间/ARIMA/VAR,扩散/GAN时间,定期交换。
图:具有结构不变量的生成器,GNN-VAE/GAN。
文本/LLM:带有规则和词典的序列,非个人材料的RAG框架,排毒/编辑。
模拟器:离散事件框架,代理库,同构脚本引擎。
(选择支持私密性、constraint-aware生成和报告的工具。)
11)验证和验收
Stat套件:对比分布和依存关系(之前/之后)。
TSTR/TRTS:目标任务上的实用程序阈值。
Privacy suite:MIA/AIA测试,epsilon报告,k-surrogate匿名。
业务不变量:自动验证(总和,资产负债表,图连通性)。
用户接受: 域名所有者的专业知识,视觉名利支票.
12)法律和伦理方面
与律师保持一致:使用目的,跨境转移,重建。
许可和IP:培训材料衍生的合成技术和模型策略。
道德与公平:不增加歧视;记录风险/偏差。
通信:在系统/报告中明确标记合成材料。
13)反模式
"生成所有LLM 'om",而无需检查隐私和不变量。
忽略尾巴:合成品平滑稀有→销量下降。
没有实用程序验证:美丽的分配,但对任务毫无用处。
PII泄漏:对原始数据进行培训,并且缺乏DP/过滤器。
非虚构的苹果酒/版本:不可生产,有争议的结果。
缺乏因果关系:模拟是"美丽的",但错误地回答了"如果有的话"。
14)实施路线图
1.发现:目标(utility/privacy),目标任务,风险,不变量,所有者。
2.MVP:一个域(例如付款/会话),基本生成器+privacy过滤器,stat suite+TSTR。
3.尺度:支持FK/图/时间序列,constraint-aware,DP ε预算,目录/行。
4.Hardening: Causal/Agent Simulation,压力测试,pipeline的溷沌场景。
5.优化:成本优势生成,主动尾巴改进,自动选择超参数。
15)发行前的支票清单
- 清除了PII/秘密,描述了使用的法律制度。
- 记录的坐标/版本,元数据和线性。
- 经过stat suite(分布/依赖性)和业务不变式。
- TSTR/TRTS在关键任务上通过实用程序阈值。
- 执行了隐私测试(MIA/AIA),显示并记录了ε预算(如果DP)。
- 已设置了漂移监视和周期性再火车发电机。
- 合成材料在BI/API中明确标记,禁止未经授权的出口。
16)脚本模板
表格销售:增值税/货币/日历的copula+后过滤器→折扣压力测试。
流量/会话:代理行为模型+扩散时间序列→队列/负载测试。
Frod Cases:超规尾巴+图形键生成→计分调试。
支持服务:带有身份证明的自动售货机的LLM合成→路由器培训。
物流:根据SLA/成本对 KPI →仓库/快递员的离散事件模拟。
结果:模拟和合成数据是工程学科,而不是"为了生成而生成"。将隐私性(DP/修订版)、实用性(TSTR/TRTS)、因果关系和域约束与可复制的MLOps回路连接起来。然后,合成将成为研究,测试和决策的安全加速器。