系统状态页面
1)为什么需要状态页面
状态页面是有关可用性和退化的真实信息的单一公共和内部来源。他们是:- 减少对札幌的压力和沟通溷乱;
- 保持用户和合作伙伴的信任;
- 协助履行监管职责;
- 为事后分析创建可证明的足迹。
2)观众及其需求
玩家:简单的指示"工作/有问题",ETA/ETR,易懂的文字没有行话。
VIP/附属机构/合作伙伴:对存款/利率/报告、时间窗口、建议(暂停活动)的影响。
内部命令:按组件/区域分列的详细细目,与KRI/SLO的联系。
监管机构和银行/收购者:事件的事实,对玩家/交易的影响,对官方通知的引用。
3)显示范围(元件模型)
产品组件:身份验证,存款,投注,结论,简介,奖金,现场游戏,流媒体。
基础架构:API网关,DB,缓存,消息代理,CDN/WAF,支付提供商,KYC/AML。
区域/集群:GEO(EU/MEA/LATAM/APAC),云区域,数据中心。
状态:OK/退化/部分不可用/不可用/计划工作。
4)状态平台体系结构
4.1公共vs私人
公共:静态展示(SPA/SSG)+缓存,CDN,仅读取API。
私有(内部):扩展度量,KRI,指向洗手间。
4.2数据源
监视和SLO:度量(Prometheus/OTel),合成检查,外部提供商ping。
事件管理:事件卡,时间线,决策状态。
PSP/KYC/游戏提供商的 Webhooks:可用性/错误信号。
通过安全控制台(带审计日志)手动Comms Lead升级。
4.3更新流
指标/KRI →检测规则→事件创建/更新→ Comms Lead发布卡/升级→复制到公共页面和频道(电子邮件/电报/Twitter/内部聊天)。
5)事件更新和行为的SLO
P1:第一个升降机≤ 10枚地雷,然后每15-30枚地雷达到稳定。
P2:第一次升级≤ 20分钟,每次升级45至60分钟。
P3/P4:第一次升级≤ 60至1440分钟,按里程碑划分。
规则:如果没有新规则-我们仍然发布"无更改",我们指定下一次升级的时间。
6)计划工作
带有窗口、影响区域、延期风险、回滚步骤的公告模板。
强制本地化,本地时区+UTC。
在窗口期间在相邻通道中启用"通信锁定"(freeze)。
7)页面上的块模板
事件卡:- 标题,级别(P1-P4),受影响的组件/区域。
- 更新磁带(时间,作者/机器人,简短事实,下次更新)。
- 当前影响(百分比/度量)、工作范围(如果有)。
- ETA/ETR(当出现时),札幌联系人,合作伙伴/监管机构的链接。
计划工作卡:窗口,风险,之前/之后的检查清单,取消标准。
历史记录:按日期/组件划分的可搜索存档(≥ 12个月),导出为PDF/CSV。
8)本地化和可用性
语言:EN+关键市场(例如TR/ES/PT-BR/PL/RO)。
时间:用户位置+UTC。
A11y:对比指标,Alt文本,语义标记。
移动版本是强制性的。
9)安全和合规性
只有最低要求的技术细节;不透露内部IP/拓扑。
在PII/付款主题下,所有更改均通过Comms Lead/Legal进行。
SSO/MFA,JIT权利,审核日志的发布控制台(谁/什么/何时/为什么)。
WORM/immutable历史存储;防篡改和大规模处置。
10)与操作和数据集成
战争室:双向通信,从事件卡中自动收集事实。
SLO/SLI:页面上可以显示汇总的aptime图形(30/90天)。
PSP/KYC:具有最后响应时间的外部提供商状态徽章(on/off/degraded)。
业务KPI:在最后一个小时内可选地获得成功存款/投注份额(不披露敏感量)。
11)反垃圾邮件和噪音保护
事件重复数据消除;分组相关事件。
在发布自动升级(例如2-3分钟)以过滤"flapping"之前进行冷却。
回顾性修复策略(仅在标记和引用diff的情况下进行编辑)。
12)状态-通信质量指标
MTTA-Coms:在首次公开升级之前。
Cadence adherence:遵守更新频率。
一致性:通道之间的配方匹配(0个差异-目标)。
覆盖:状态页面中反映的事件百分比。
Repeat contacts:减少对札幌的重复转诊。
View→Deflect:随着传入的股票的下降,页面浏览量增加。
13)实施路线图(6-8周)
奈德。1–2:
组件/区域目录,P1-P4级别图;页面设计;SSG/SPA和CDN的选择;角色(IC/Comms Lead)。
奈德。3–4:
与事件监测和卡片相结合;出版控制台(SSO/MFA,audit);消息模板和本地化。
奈德。5–6:
对外部提供商的综合检查,PSP/KYC状态徽章;历史和出口;计划工作政策。
奈德。7–8:
带计时器的教学(tabletop);启动KPI;回顾性编辑规则;公共海德"如何阅读状态"。
14)工件和模板
组件矩阵:组件→区域→所有者→ SLO →升级通道。
第一个更新模式:发生什么,谁受到影响,我们做什么,下一个更新。
关闭模板:恢复时间、原因、预防措施、补偿(如果有)。
编辑策略:谁可以发布/编辑修补程序标记,SLA本地化。
Runbook"计划工作":之前/之后的支票清单,"go/no-go"标准,通信包。
15)特殊情景
安全/数据事件:仅在与Legal/Compliance达成协议后才发布;可能是监管机构/银行的独立私人流动。
地理特定的问题:页面自动定义用户的GEO并输出优先级块。
多特南特:每个品牌/运营商的单个过滤器/子域;共享基础架构-单独的磁带。
16)反模式
P1时沉默>30分钟。
频道和状态页面上的不同数字/措辞。
技术性太强,无法翻译成用户语言。
删除事件故事而不是回顾性标记。
没有审核日志和权利控制的手动出版物。
17)结果
状态页面不仅仅是一个带有绿色和红色点的站点。它是一个托管通信平台,与监视,事件过程和外部依赖关系紧密集成。通过正确的体系结构和发布纪律,状态页面可以减少不确定性,保护声誉并节省札幌资源-尤其是在iGaming业务的高峰时段。