テレメトリースレッド
1)目的とコンテキスト
テレメトリー・フローは、プラットフォームのパフォーマンスに関する観測データの継続的な流入を提供します。iGamingでは、デポジット/ベットの劣化の早期検出、外部プロバイダ(PSP/KYC/ゲームスタジオ)の可視性、および実証可能なSLO/コンプライアンスの遵守が重要です。
2)テレメトリソースマップ
メトリクス(TSDB): RED/USE、 ビジネスSLI(認可の成功、成功した賭けの%)。
OTel:フロント→API→ブローカー→データベース/PSPを通じたリクエストのチェーン。
ログ(構造化):イベント、監査操作、エラー。
RUM: TTFB/LCP、 JSエラー、地理/デバイス。
合成:異なるGEOからの外部トライアルトランザクション(ログイン/デポジット/サンドレート)。
低レベルのテレメトリー:eBPF/CPU プロファイル/IO/alloc、 ネットワークp 95/p99。
外部ステータス:Webhooks/PSP/KYC/CDN/WAFプール。
3)標準とスキーム
lingua francaとしてのOpenTelemetry:属性セマンティクス(service。名前、展開。環境、エンドユーザー。id-マスク、トレース/SpanID、 PSPコード)。
スキーマコンベンション:バージョン管理、ログ/トレイルのスキーマレジストリ、バイナリフラグと猶予期間のみを通じた「breaking-changes」。
相関ID:すべてのレイヤーを介した支払/賭けのための単一の'相関_id'+メートルパーセンタイルの例。
4)注入コンベヤー(高レベル)
1.生産者:SDK/agents/collectors(ノード上のOTel Collector)。
2.エッジバッファリング:制限付きのローカルキュー(メモリ/ディスク)。
3.トランスポート:gRPC/HTTP OTLP→メッセージブローカー(Kafka/Pulsar)とidempotencyキー。
4.プロセッサ:正規化、濃縮(GEO/テナント/チャネル)、 PIIフィルタ、薄いサンプリング。
5.ファンアウト:TSDB(メトリック)、トレースストレージ、ログシステム、レイク/DWH、アラート/ルール。
6.消費者:ダッシュボード、SLOアラート(バーンレート)、調査、ステータスページ、リリース自動ゲート。
5) QoSとフロークラス
クラスA(リアルタイム、P1): SLI/SLO、合成、キープロバイダ(PSP/KYC)。配達SLA: <5-10c、 ≥ 99。9%.
クラスB(手術室):RCA、 SLAのための道/ログ:<1-2分。
クラスC(分析):湖/DWH、 SLAの集計およびバッチ:時間/日。
クラスルーティング→優先順位付け、異なるリクエスト、個々のキュー/トピック。
6)サンプリング、集計、保持
メトリクス:履歴系列のダウンサンプリング(1s→10s→1m)、パーセンタイル集計、例示。
トレイル:テールベースのサンプリング(異常のシェアを上げる、PSPエラー、p99-「バースト」)。
ログ:プロファイルレベル、圧縮、ノイズ除去(健康pings、デバッグ販売-禁止)。
保持:「熱い」(7-14日の細部)、「冷たい」(単位/アーカイブ)。クラスごとのポリシーのデータとコスト。
7)プライバシーとコンプライアンス
PII衛生:識別子のマスキング/トークン化;テレメトリーにおけるCCMドキュメント/カードトークンの禁止。
ジオローカリゼーション:管轄によるストレージ;エクスポート-承認されたワークフロー(暗号化、TTL、監査)のみを使用します。
アクセス制御:RBAC/ABACからテレメトリストレージ、SoDへのアップロード。
8)流れの信頼性
Idempotence:イベントキー、プロセッサのデダップ。
背圧:テナント/サービスごとの注入の限界;優先度の低い過負荷フィールドのポリシーをドロップします。
リプレイ-再処理のためにブローカー≥ 72 hに保存します。
デッドレター:アラートでDLQを保護するためのルーティングエラー(スキーム、サイズ、PII違反)。
バージョン管理:回路(v1+v2)と消費者マイグレーションを変更する際の「デュアルフロー」。
9)複数のテナントおよび分離
各イベントのタグ'tenant_id/brand/region';限界的なクォータと予算。
トピカルによるA/Bストリームの分離;注入および貯蔵のショーバック/chargeback。
輸出時のテナント境界へのマスキング/集約。
10)ストリームディレクトリ(フィールド例)
識別子: 'テレメトリー。支払い。オーケー。成功。レート。「eu」
クラス: A(リアルタイム)
Схема: '{timestamp、 tenant、 region、 psp、 bank_bin_group、 success_rate、 window}'
ソース: OTel Collector+PSP-routerメトリック
消費者: SLOアラート、Execダッシュボード、ステータスページ
保持: 30日間ホット、12ヶ月の集計
所有者: 支払いSRE、 dpo-owner(プライバシー)
流量SLO: 遅延<10 c p95、損失<0。1%/日
11)アラートとリリースとの統合
デポジット/レートのバーンレート(高速/遅いウィンドウ)によるSLOアラート。
リリースゲート:SLIカナリア分析;劣化中の自動停止/ロールバック。
ステータスページ:インシデントカード+SLIユニットからのフィードを更新します。
12)キーダッシュボードのセット
Exec:アップタイム、バーンレート、承認/レートの成功(GEO/PSPによる)、プロバイダのステータス、$/RPSテレメトリー。
SRE/プラットフォーム:サービス、ラグキュー、アウトリエ検出、eBPFプロファイルによるRED/USE。
支払い/リスク:銀行のコンバージョン/PSP、ソフト/ハードの低下、KYC SLA、早期チャージバック信号。
コストオーブ:ソース別の注入量、カーディナリティのトップラベル、ストリーム別コスト。
13)オブザビリティファイナンス(FinOps)
KPIの費用:$/GBのingest、 $/trace、 $/SLIダッシュボード;「重い」メトリクスとラベルに関するレポート。
最適化:集約とダウンサンプリング、動的サンプリング、おしゃべりログのクリーニング、重要なストレージクラス。
政治家:高いカーディナリティのためのクォータ、問題の頻度の制限、四半期に一度スキームのレビュー。
14)プロセスと役割
データ/Observability Owners (Payments、 Games、 Core API、 Infra)。
回路の変更制御:PRレビュー、テストベンチ、消費者の互換性。
卓上/カオスデイ:プロバイダの切断、ブローカーのオーバーロード、バックプレッシャー/idempotencyチェック。
死後:テレメトリー解析(信号の十分性、誤報、コスト)を含む。
15)実装ロードマップ(8-12週間)
ネッド。1-2:現在のフロー、ソースマップ、テレメトリーSLO目標、標準の選択(OTel、 TSDB、トレイル、ログ)の監査。
ネッド。3-4: OTelのコレクター、単一の相関ID、沈殿物/賭けのための基本的なRED/USE+business SLI、流れディレクトリv0。
ネッド。5-6:テールベースのサンプリング、GEO合成、DLQ/idempotency、プライバシーフィルタ。
ネッド。7-8: FinOpsパネル(ingest/retention)、ダウンサンプリング、カーディナリティクォータ、SLOアラート(burn-rate)。
ネッド。9-10: eBPF/低レベル信号、ステータスページフィード、リリースゲート。
ネッド。11-12:カオステスト、コスト最適化、正式なSLAフロー、スキームの四半期ごとのレビューの開始。
16)アーティファクトパターン
テレメトリーストリーム仕様:id、所有者、スキーム、QoSクラス、ソース、消費者、保持、SLO/アラート、プライバシーポリシー。
スキーマPRテンプレート:変更/移行、互換性、テスト、ロールバック計画。
サンプリングポリシー:異常の場合にサンプリングを持ち上げるためのルール。ターゲット予算。
コストレビューパック:$/Value、 TTL/Aggregation Offersによるトップソース。
インシデントテレメトリーチェックリスト:RCAに必要なチャート/トレイル/ログのリスト。
17)テレメトリストリームのKPI/KRI
配達:クラス、%失われたメッセージ/日によるp95遅延。
カバレッジ:トレースが90%以上のクリティカルパスの割合、メトリックで閉じられたSLIの割合。
信号品質:苦情の前にSLIでキャッチされたインシデントの%、false/missedアラート。
コスト:テレメトリー用$/RPS、$/トレース、注入中の「ノイズ」の共有。
信頼性:ブローカーの劣化後の回復時間、リプレイ量。
18) Antipatterns
TSDBの高有機性指標(userId、 sessionId)。
構造化とスキームなしのログの単一の「ブラックボックス」。
DLQ/idempotency→重複およびピーク損失なし。
FinOps→指数関数的な法案の成長のない「無限」リテンション。
ビジネスコンテキスト(PSP/bank/GEO)のないトレイル→診断不良。
コマンド間の一貫性のないスキーム→消費者が壊れます。
合計
テレメトリーストリームは、制御された多層システムです。OTel標準とスキーム→QoSとバックプレッシャーによる信頼性の高い注入→コストのサンプリング/集計と保持→プライバシーとマルチテナント分離→SLOアラート、ダッシュボード、リリースゲート。このような回路は、ピークモードでの初期信号、高速RCA、予測可能なコストとiGamingプラットフォームの安定性を提供します。