合成数据的彷真和生成

1）定义和目标

合成数据-人工生成的集合，保留原始数据的统计和/或因果属性，而无需披露特定记录。
模拟-使用形式规则（随机，离散事件，代理-basd，causal）对过程/环境进行建模，以获取数据和情景。

为什么：

隐私和合规性：PII/PHI/PCI风险较小。
覆盖罕见事件，"尾巴"分布，压力测试。
R&D加速：Dev/QA/ML的沙箱,无需访问数据。
在无法收集实际道路/道路数据的地方进行实验和模型培训。

2）何时使用，何时不使用

适合：冷启动，数据短缺，高隐私风险，昂贵的A/B，政策/价格/负载模拟，管道测试。
小心/不适合：监管报告，强制性审计，罕见的域工件，其中本地模式是关键且易于扭曲的。

3）生成方法的分类法

3.1统计和经典：盗版，排列，经验分布，copula方法（Gaussian/Vine/Archimedean）以保持相关性。

3.2生成模型（ML）：

表数据的GAN/CTGAN/TVAE；
连续空间的VAE/常规气流；
图像/音频/时间序列的Diffusion模型；
文本/对话的LLM方法（带有guardrails和过滤器）。
3.3倾斜模拟器：结构倾斜模型（SCM）,因果关系图,干扰（X）。
3.4离散事件/顺序/蒙特卡洛：过程建模（物流、呼叫中心、交易所、M/M/1队列、M/G/k）。
3.5经纪人：具有行为规则（市场、游戏、用户路径）的代理人群。

4）数据类型和具体情况

表：类别/数字/日期；边际分布，依赖性，稀有价值很重要。
时间序列：趋势/季节性/噪声，滞后相关性，事件和模式；regim生成（HMM/HSMM），分段扩散模型。
图和网络：学位分配，集群/社区，动机；Erdesh-Renyi模型，Barbashi-Albert模型，图形GAN/VAE。
文本/日志数据：用户查询的合成方法，字幕；需要对毒性/泄漏进行法律鉴定和控制。
图像/音频：域条件（分辨率、噪音）、类平衡。

5）隐私与保护

风险指标：记录链接/重新识别概率,membership inference持续性,attribute inference protection。
差分隐私（DP）：DP-SGD，PATE，ε预算后处理；隐私报告（ε、δ、敏感性）。
PII修订版：学前令牌/伪装；LLM生成中的流程表/过滤器。
政治家和期刊：谁，什么，如何训练合成模型的数据；请求的时间。

6）合成品的质量和实用性

度量标准：

统计接近：KS/ χ ²/WD，PSI，类别/稀有值的覆盖范围。
多线性性和依赖性：相关性/MI，copula距离。
公用事业测试：合成模型培训→实况测试（合成火车，实况测试，TSTR），反之亦然（TRTS）。
下游稳定性：业务指标/功能重要性的可持续性。
公平与偏差：伴侣度量，之前/之后的生物比较。

校准：生成超参数子结构,然后通过公用/特权阈值。

7）域限制和规则

刚性业务不变量：总和≥ 0，资产负债表保存，ID唯一性，参考完整性。
地理/时间：有效日历模式，时区，假期。
因果关系：在干预中保留do关系。
Constraint-aware生成：后过滤器，反射采样，可区分的约束。

8）如果有的话，情景和压力测试

蒙特卡洛（Monte Carlo）：KPI结果在输入变化中的分布。
Causal干预：价格/限额/规则变化和uplift/风险评估。
负载模拟：流量配置文件、爆发、输送机容错。
罕见的事件：frod，DDoS，"黑天鹅"（尾巴横跨）。

9）集成到pipline和MLOps中

转化：dataset，sids，config生成，模型权重；SemVer语义。
Lyneedge：合成与源的联系（没有PII的抽象级别）。
测试和合同：合成的DQ规则，CI中的隐私检查。
编目：关于方法、超参数、ε预算、公用事业评估的元数据。
自动化：DAG用于发电机培训，批量释放，漂移监测。

10）实现堆栈和模式（解决方案类）

表/关系：copulas/CTGAN/TVAE/flows；启用FK的发电机。
时间序列：状态空间/ARIMA/VAR，扩散/GAN时间，定期交换。
图：具有结构不变量的生成器，GNN-VAE/GAN。
文本/LLM：带有规则和词典的序列，非个人材料的RAG框架，排毒/编辑。
模拟器：离散事件框架，代理库，同构脚本引擎。

（选择支持私密性、constraint-aware生成和报告的工具。）

11）验证和验收

Stat套件：对比分布和依存关系（之前/之后）。
TSTR/TRTS：目标任务上的实用程序阈值。
Privacy suite：MIA/AIA测试，epsilon报告，k-surrogate匿名。
业务不变量：自动验证（总和，资产负债表，图连通性）。

用户接受： 域名所有者的专业知识,视觉名利支票.

12）法律和伦理方面

与律师保持一致：使用目的，跨境转移，重建。
许可和IP：培训材料衍生的合成技术和模型策略。
道德与公平：不增加歧视；记录风险/偏差。
通信：在系统/报告中明确标记合成材料。

13）反模式

"生成所有LLM 'om"，而无需检查隐私和不变量。
忽略尾巴：合成品平滑稀有→销量下降。
没有实用程序验证：美丽的分配，但对任务毫无用处。
PII泄漏：对原始数据进行培训，并且缺乏DP/过滤器。
非虚构的苹果酒/版本：不可生产，有争议的结果。
缺乏因果关系：模拟是"美丽的"，但错误地回答了"如果有的话"。

14）实施路线图

1.发现：目标（utility/privacy），目标任务，风险，不变量，所有者。
2.MVP：一个域（例如付款/会话），基本生成器+privacy过滤器，stat suite+TSTR。
3.尺度：支持FK/图/时间序列，constraint-aware，DP ε预算，目录/行。
4.Hardening： Causal/Agent Simulation,压力测试,pipeline的溷沌场景。
5.优化：成本优势生成,主动尾巴改进,自动选择超参数。

15）发行前的支票清单

清除了PII/秘密，描述了使用的法律制度。
记录的坐标/版本，元数据和线性。
经过stat suite（分布/依赖性）和业务不变式。
TSTR/TRTS在关键任务上通过实用程序阈值。
执行了隐私测试（MIA/AIA），显示并记录了ε预算（如果DP）。
已设置了漂移监视和周期性再火车发电机。
合成材料在BI/API中明确标记，禁止未经授权的出口。

16）脚本模板

表格销售：增值税/货币/日历的copula+后过滤器→折扣压力测试。
流量/会话：代理行为模型+扩散时间序列→队列/负载测试。
Frod Cases：超规尾巴+图形键生成→计分调试。
支持服务：带有身份证明的自动售货机的LLM合成→路由器培训。
物流：根据SLA/成本对 KPI →仓库/快递员的离散事件模拟。

结果：模拟和合成数据是工程学科，而不是"为了生成而生成"。将隐私性（DP/修订版）、实用性（TSTR/TRTS）、因果关系和域约束与可复制的MLOps回路连接起来。然后，合成将成为研究，测试和决策的安全加速器。

合成数据的彷真和生成

（选择支持私密性、constraint-aware生成和报告的工具。）

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目