溷合云:on-prem+cloud
1)为什么混合动力车以及何时有理由
驱动程序:监管要求(数据驻留/PII)、现有的预付投资、对"专有"系统的延迟、成本控制、访问托管云服务。
权衡:网络和安全性复杂,能力重复,数据和config同步,运营风险。
Motto:在关键的地方便携式;云本地,在有利可图的地方。
2)混合动力车模型
前端扩展:云作为数据中心扩展(新的微服务/分析,前端)。
具有本地锚点的云端第一:云端核心,前端核心是会计系统/支付网关/PII存储。
云爆破:弹性负载峰到云(batch, promo-piks),基本体积在局部。
DR to Cloud:云中的热备份(RTO/RPO可管理)。
Edge+Core:靠近用户的PoP/edge节点,云中的根数据/ML。
3)网络和连通性
3.1频道
站点到站点VPN (IPsec/SSL)-快速启动,高于潜伏期,jitter。
直线(DC/ER/IC,MPLS)-可预测的SLA,低于延迟,价格更高。
双链接+BGP-容错和路由控制。
3.2寻址和路线
单个无交叉RFC1918方案;未来几年的CIDR计划。
NAT-domes仅在边界上;没有NAT的东西方。
Segment/VRF用于隔离环境(dev/stage/prod), tenants,提供程序。
3.3时间和DNS策略
单个NTP(时钟=加密/签名的命运)。
Split-horizon DNS:内部区域(svc.cluster.本地,corp.local),外部-公共。
基于健康的GSLB用于入站流量。
4)身份和访问
SSO联合会:OIDC/SAML,prem IdP ↔云IdP;SCIM-provigining。
Least privilege原则上的角色;使用MFA的断面玻璃帐户。
机器身份:用于mTLS的SPIFFE/SPIRE或mesh-PKI。
RBAC"端到端":Git/CI/CD → 集群/mesh → 经纪人/DB →博客。
5)平台: Kubernetes+GitOps
5.1单一执行层
具有相同版本/CRD的前端和云群集。
GitOps(Argo CD/Flux):单个图表/覆盖物,漂移控制,促销流。
5.2服务-mesh
Istio/Linkerd: mTLS默认,locality-aware平衡,failover跨群集。
L7策略(JWT,标头,rate限制,retry/circuit/timeout)-在清单代码中。
5.3示例(K8s topology&mesh)
yaml anti-affinity and distribution by zones on-prem cluster spec:
topologySpreadConstraints:
- maxSkew: 1 topologyKey: topology. kubernetes. io/zone whenUnsatisfiable: DoNotSchedule labelSelector: { matchLabels: { app: api } }
Istio DestinationRule: local cluster priority, then trafficPolicy cloud:
outlierDetection: { consecutive5xx: 5, interval: 5s, baseEjectionTime: 30s }
6)数据和存储
6.1个基地
前置主机,云读取副本(分析/目录)。
Cloud master+prem cache(局部集成的低潜伏度)。
分布式SQL/NoSQL(Cockroach/Cassandra)具有本地法定人数。
在轮廓之间进行CDC/日志复制(Debezium);处理者的等效性。
6.2对象/文件/块
具有复制/转换功能的S3兼容插孔(prem MinIO+cloud S3/GCS);WORM用于审核。
Backaps: 3-2-1(3份副本,2个介质,1个离场),定期验证恢复。
6.3个缓存和队列
按站点群集的Redis/KeyDB;全局缓存-仅通过事件/TTL。
Kafka/Pulsar: MirrorMaker 2/replicator;关键是消费者的惯性/惯性。
7)安全性和合规性(零信托)
mTLS无处不在(mesh),TLS 1。外围2+;禁止非加密渠道。
秘密:HashiCorp Vault/ESO;短寿命令牌;自动旋转。
KMS/HSM:按管辖权/特南特细分;按计划进行加密旋转。
分割:NetworkPolicies, micro-segmentation (NSX/Calico), ZTNA用于管理访问。
日志:不可变(Object Lock)、端到端"trace_id"、PII/PAN掩码。
8)可观察性,SLO和事件管理
OpenTelemetry SDK无处不在;在前端和云端收集器。
Tail-sampling: 100% ошибок и p99, labels `site=onprem|cloud`, `region`, `tenant`.
SLO和错误预算(路线/tenant/提供商/站点);按燃烧率计算。
直通行车:RED/USE,依存地图,金丝雀比较(迁移之前/之后)。
9) CI/CD和configi
统一的文物注册表(在预览上通过公文包)。
促销流:dev →舞台(上游)→金丝雀(云)→舞台;反之亦然-取决于目标。
检查:合同测试(OpenAPI/gRPC/CDC),静态分析,IaC临界值,映像扫描,SLO门。
10) DR/BCP(连续性计划)
RTO/RPO服务。示例:- 目录/着陆点:RTO 5-15分钟,RPO ≤ 5分钟;
- 付款/钱包:RTO ≤ 5分钟,RPO ≈ 0-1分钟(场内法定人数/同步)。
- Runbook:切换GSLB/weights,在集群中提升站立状态,功能横幅"轻量级模式"。
- GameDays:季度-关闭站点/频道,检查真实的RTO/RPO。
11)成本和FinOps
在前期和云之间的Egress是主要的"隐藏"流量。将徒步旅行保持在最低限度(SWR, edge)。
标语:"服务","env","site","tenant","cost_center"。
80/20规则:携带/保持20%的"关键核心"可携带,其余的则更便宜。
Downsampling度量标准,"热/冷"博客的反思,预算预示着采样。
12)工作负载放置模式
13)Configs示例
13.1 IPsec S2S(想法)
onprem ↔ cloud: IKEv2, AES-GCM, PFS group 14, rekey ≤ 1h, DPD 15s, SLA monitoring jitter/packet-loss
13.2 Terraform(标签/标签片段)
hcl resource "kubernetes_namespace" "payments" {
metadata {
name = "payments"
labels = {
"site" = var. site # onprem cloud
"tenant" = var. tenant
"cost_center" = var. cc
}
}
}
13.3 Vault+ESO(从前端到云群集的秘密)
yaml apiVersion: external-secrets. io/v1beta1 kind: ExternalSecret spec:
refreshInterval: 1h secretStoreRef: { kind: ClusterSecretStore, name: vault-store }
target: { name: psp-hmac, creationPolicy: Owner }
data:
- secretKey: hmac remoteRef: { key: kv/data/payments, property: HMAC_SECRET }
14)反模式
相交的CIDR → NAT混乱;首先是目标计划,然后是渠道。
具有强一致性的"共享"全局缓存→潜伏性和分裂性。
无止境的恢复→双重注销/订单。
内部没有mTLS/Zero Trust的"裸体"VPN是妥协时的后期运动。
缺乏DR演习:计划在现实中行不通。
K8s/CRD/语句版本之间的差异 →无法进行单个图表。
没有"trace_id"和伪装的免费格式的徽标是不可能的。
15) iGaming/财务细节
数据驻留:PII/支付事件-在预期/区域环节中;进入云-聚合/匿名。
PSP/KYC:多供应商;从云层到本地网关的智能路由,从后备回去;通过具有重复数据消除的经纪人webhooks。
"金钱之路":单独的SLO高于一般的;HMAC/mTLS,"Retry-After","Idempotency-Key"是强制性的。
审核:WORM存储(Object Lock)、不可变事务日志、用于关键事件的双向记录(on-prem+cloud)。
司法管辖区:KMS/Vault按键细分/品牌;周边的地质块。
16)准备就绪支票清单
- 地址计划,DNS,NTP-统一;通道S2S+备用直线(BGP)。
- 统一身份(SSO/OIDC/SAML), MFA, least privilege;SPIFFE/SPIRE用于服务。
- K8s所有站点GitOps 的运营商/CRD相同;service mesh с mTLS и locality-aware LB.
- 数据:CDC,一致性测试,RPO/RTO策略,3-2-1备份和定期恢复杂交。
- 安全性:Vault/ESO,轮换,NetworkPolicies,ZTNA;日志不变。
- 可观察性:OTel,tail-sampling,SLO/站点/区域/tenant预算;金丝雀鸭嘴鸟。
- CI/CD:合同测试,linting IaC,映像扫描;SLO发布门。
- DR-runbooks, GameDays,测量实际RTO/RPO;cutover/roll-back按钮。
- FinOps:egress限制,标签和报告,重新定义指标/标志/跟踪策略。
- iGaming特性:数据驻留,multi-PSP, WORM审核,单独支付的SLO。
17) TL;DR
混合动力=在两个世界上的通用执行平台(K8s+GitOps+mesh+OTel+Vault):前端和云端。规划网络和身份,使数据通过CDC/等效性进行传输,划定零信任的安全性,测量SLO/错误预算可靠性,并定期培训DR.对于iGaming来保持数据和支付在司法管辖区,使用多个PSP智能路由和不变审计。