GH GambleHub

プロバイダとのSLA/OLA

1)用語と境界

SLI-測定可能なインジケータ(可用性、p99レイテンシ、正常に処理されたWebhook、 RPO/RTO)。
SLO-測定ウィンドウごとのターゲットSLI値(例:99。9%/30日)。
SLA-法的拘束力のある文書(SLO+手続き+払い戻し)。
OLA: SLAの遵守を確実にする社内の目標とプロセス。
UC(下支え契約)-第三者(チャネル、データセンター、CDNなど)との「基板」。

境界:プロバイダの責任領域(クラウド/WAF/CDN/ペイメントゲートウェイ/KYCプロバイダ)をエリア(コード、構成、クライアント設定)から明確に分離します。

2)臨界マトリックスとモデル選択

ビジネスインパクトによるセグメントプロバイダ:
Class(クラス例:必要なレベルストラテジー
A(ミッションクリティカル)決済、認証、データコア99.9–99.99重複、ホットフェイク、厳格な信用メカニズム
B(クリティカル)ログ、アラート、CDN99.5–99.9キャッシュ、オフラインモード、クレジット/ペナルティ
C(重要)BI、レポート99.0–99.5「最善の試み」、拡張RTO/RPO
D(補助)メールマーケティング98–99非同期で柔軟なウィンドウ

マトリックスは、SLAの深さ、チェックの範囲、およびOLA/UCの要件を決定します。

3)測定窓と測定窓

可用性-公差に応じてサービスがクエリを実行する時間の割合。
遅延:主操作のためのp95/p99;「slow success」カウント。
データの信頼性:RPO(最大許容データ損失)とRTO(リカバリ時間)。
帯域幅/制限:保証クォータ(RPS/MBps)。
統合の質:配信されたWebhookのシェア≤ X分、2xx応答のシェア、繰り返しと重複排除。
測定ウィンドウ:毎月/30日間のローリング、制限付きの例外(計画されたアクティビティ)。

「外部可用性」式(例):
  • 'Availability_ext=1 − (Downtime_confirmed_outages/ Total_minutes_in_window)'
  • 停止は、プロバイダのステータスページだけでなく、外部モニタリングによって確認された利用できない状態です。

4) SLAコンテンツ(セクションテンプレート)

1.対象と範囲(サービス、地域、APIバージョン)。
2.定義(SLI/SLO、「インシデント」、「計画作業」、「不可抗力」)。
3.リクエストカテゴリと地域別のサービス目標(SLO)。
4.モニタリングと証拠ベース:どのような方法で、センサー、どのような周波数で。
5.インシデントとエスカレーション:チャネル、応答/更新時間、役割。
6.払い戻し:クレジット/罰金/ボーナス、しきい値、数式。
7.セキュリティとプライバシー:DPA、暗号化、ログ、違反通知。
8.サービスの変更:廃止、通知ウィンドウ、互換性。
9.継続性とDR: RPO/RTO、リカバリテスト。
10.監査とコンプライアンス:監査、報告、認証の権利。
11.終了計画:データのエクスポート、日付、フォーマット、移行支援。
12.法的規定:管轄権、不可抗力、機密性、有効期間。

5)文言の例(断片)

5.1可用性と測定

"プロバイダは99を提供します。各カレンダーの月の95%の可用性。可用性は、お客様の外部合成モニタリングによって測定されます≥ 3地域から≤ 1分間隔で。≥ 2つの地域で記録された利用不能は、同時にレベルSEV2インシデントと見なされ、ダウンタイムにカウントされます"

5.2主要なAPIレイテンシ

「p99応答時間'POST/payment/authorize」 ≤、月の95%の日に450ミリ秒です。しきい値を超えるリクエストの割合について、原因分析レポートが提供されます"

5.3インシデントとエスカレーション

"S1: ack ≤ 15分、≤ごとに更新30分、目標の回復≤ 2 h;S2: ack ≤ 30分、更新≤ 60分;S3:翌営業日。チャンネル:電話24 × 7、チャットブリッジ、電子メール"

5.4払い戻し(クレジット)


If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%

ローンは、重大な過失における損害賠償の他の方法を除外しません。

5.5非推奨と互換性

"互換性を破る変更のための少なくとも180日の通知。少なくとも90日間vNとvN+1の同時サポート"

5.6出口を出る

"終了後30日以内に、プロバイダはParquet/JSON+形式でデータの完全なエクスポートを無料で提供します。追加の移行サービス-関税Xで。コピーの破壊は行為によって確認されます"

6) OLA: 外部SLAの内部サポート

「プラットフォーム」と「支払いチーム」の間の例OLA:
  • ターゲット:p99ゲートウェイ≤ 200ミリ秒、エラー率≤ 0。3%、 DR: RPO 0、 RTO 30分。
  • 責任:SRE-on-call、 24 × 7;一般的なダッシュボードとアラート。
  • プロセス:リリースのカオススモーク、PRのパーフスモーク、シェーディングのヒューリスティクス。
  • ゲート:SLO/xaocテストが失敗したときのデプロイブロック。必須のrunbookの更新。

7)モニタリングとエビデンス

合成:外部プローブ(HTTP/TCP)、ユーザーパス、「遅い成功」。
RUM:影響を確認する実際のユーザー監視。
相関:'provider'、 'region'、 'api_method'、' incident_id'ラベル。
アーティファクト:スクリーンショット/トレイル/ログ、KPIエクスポート、エスカレーションのタイムライン。

CI/CD(擬似レゴ)のミニポリシー:
rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}

8)インシデントとインタラクション

Playbook:

1.SEVの分類、戦争部屋の開始、ICの目的。

2.「ホットチャネル」経由でプロバイダの通知、アーティファクトの送信。

3.バイパスモード/フィーチャーフラグ(古い、シェーディング、レートキャップ)。

4.共有されたタイムライン、回復。

5.Postmortem+アクション:設定の制限、キー、バックアップルートを更新します。

6.SLAローンの開始、請求の修正。

9)セキュリティとDPA

DPA/プライバシー:コントローラ/プロセッサの役割、データカテゴリ、合法性ベース、処理期限/目的、サブプロセッサおよびそのSLA。
暗号化:TLS1。2+、PFS;データ「残り」、キー管理(KMS/HSM)、回転。
監査:アクセスログ、違反通知≤ 72時間、リクエストに応じてペンテストレポート。
ローカリゼーション:ストレージ領域、同意なしに輸出を禁止します。

10)サプライチェーンと相互運用性

SBOM/vulnerabilities: CVSSのしきい値ポリシーと修正時間(7日間≤批判され、高い≤ 14)。
APIの互換性:契約テスト、サンドボックスおよび安定した据え付け品。
プロバイダの変更:早期リリースノート、プレビュー/ベータウィンドウ、下位互換性。

11)複数の提供者およびfeilover

アクティブ/アクティブ:より困難で高価ですが、可用性が高くなります(一貫性を考慮してください)。

アクティブ/パッシブ: コールド/ウォームリザーブ、DRRレギュラーワークアウト

抽象化/アダプター:単一の契約、健康/コスト/カーボンルーティング(関連する場合)。
ライセンス/商用条件:移植性、データ出力の制限、排出コスト。

12)出口プランと定期的なリハーサル

データ/ダイアグラムカタログとボリューム。
SDK/APIポータビリティスクリプト(最小-2番目のソース)。
乾燥した出口テスト:輸出/輸入は、不変量を点検します。
リリース後の法的保持/廃棄期間。

13)契約テストおよび適合

APIサンプル:正/負、リミット、エラー、およびリトレイ。
イベント/webhookの配信:署名/時間/祖父/繰り返し。
Perfベースライン:p99、帯域幅;プロバイダのリリースノートの回帰テスト。
クロスリージョン:1つのリージョンの劣化は、グローバルにSLOに違反してはなりません。

14)アンチパターン

外部測定なしのSLA 「on status page」。
すべての地域/エンドポイントで同じ目標を設定します。
監査権と詳細なインシデントログの欠如。
OLA/UCがない→内部で外部の義務を履行する人はいない。
未定義の出口計画→サプライヤー人質。
体系的な違反の場合に終了する権利なしに「ローンによるのみの罰金」。
遷移ウィンドウなしで廃止されます。

15)建築家のチェックリスト

1.キーフローとリージョンのSLI/SLOが定義されていますか?
2.選択された外部監視方法と証拠ベース?
3.インシデント、エスカレーション、計画された作業ウィンドウ、例外制限はSLAで明記されていますか?
4.クレジットスケール/罰則とN違反の終了の権利を持っていますか?
5.DPA/セキュリティ:暗号化、ログ、通知、サブプロセッサ、ローカライズ?
6.パイプラインの契約テストとサンドボックス?
7.内部OLA/UCは外部SLOを有効にしますか?
8.DR: RPO/RTO宣言、トレーニング実施、レポート提供?
9.出口の計画:輸出フォーマット、タイミング、乾燥した出口の練習か?
10.SLA違反のリスクを高めるCI/CDブロッキングリリースのゲートはありますか?

16)ミニサンプル(スケッチ)

16.1プロバイダリスクに関するデプロイゲートポリシー

yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"

16.2「インシデント証拠」のエクスポート"

bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '.      {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl

16.3契約Webhookテスト(擬似コード)

python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency

結論

SLA/OLAは「法的論文」であるだけでなく、リスクと品質を管理するための建築メカニズムです。適切なメトリクスとウィンドウ、外部モニタリング、明確なインシデントと払い戻し手順、内部OLA/UC、パイプライン化されたゲート、マルチベンダー、および実際の出口計画は、プロバイダの依存関係をプラットフォームの管理、測定、経済的に予測可能な部分に変えます。

Contact

お問い合わせ

ご質問やサポートが必要な場合はお気軽にご連絡ください。いつでもお手伝いします!

Telegram
@Gamble_GC
統合を開始

Email は 必須。Telegram または WhatsApp は 任意

お名前 任意
Email 任意
件名 任意
メッセージ 任意
Telegram 任意
@
Telegram を入力いただいた場合、Email に加えてそちらにもご連絡します。
WhatsApp 任意
形式:+国番号と電話番号(例:+81XXXXXXXXX)。

ボタンを押すことで、データ処理に同意したものとみなされます。