ネットワークヘルス評価
1)「ネットワークヘルス」とは何であり、なぜそれを測定するのか
ネットワークヘルスは、スパイク、障害、および需要の変化の間、目標となるサービスレベル(SLO)、セキュリティ、コスト効率、予測可能な進化を一貫して提供するエコシステムの能力の状態です。
評価の目的:- 劣化とリスクの早期発見;
- 関税、クォータ、インセンティブおよび優先順位の事実ベースの管理;
- 参加者(ノード、プロバイダ、オペレーター、クリエイター、アフィリエイト)の透明性);
- podpitka治理ソリューションと死後。
2)健康ドメインマップ
1.パフォーマンスと可用性:レイテンシ/スループット、エラー率、ファイナリティ、キュー。
2.堅牢性と堅牢性:MTBF/MTTR、バックプレッシャー、QoS劣化。
3.セキュリティと信頼:認証/承認、インシデント、スラッシング、詐欺。
4.経済性と効率性:費用対効果、マージン/メッセージ、資源エクイティ。
5。 治理およびプロセス:変数収束の速度、recoilless解放、報告の訓練。
6.コンプライアンスとプライバシー:地理/年齢、制裁、データストレージ/削除、ZK証明。
3)指標の分類(参考)
3.1パフォーマンス(QoSクラスあたり)
レイテンシp50/p95/p99、 TailAmplification=p99/p50。
スループット(msgs/s、 tx/s、 GB/s DA)、キューの深さ、消費者の遅延。
成功率、タイムアウト/リトライ%、重複比率、オーダー外%。
Finality lag (x-chain/bridge)、 challenge-de-de。
3.2信頼性
SLA は/1kイベント、MTBF/MTTR、フラップレート・バランサを壊します。
バックプレスリカバリタイム、DLQ深度、リプレイ成功率%。
3.3安全性について
完全性/盗難事件、疑わしい信号/1k、
False Accept/Reject in compliance、 key/signature衝突。
スラッシュイベント、oracleの不一致、MEV露出(該当する場合)。
3.4経済学
コスト/Req、 コスト/GB DA、マージン/メッセージ、収益/バイト、
NRR/GRR、 ARPU/ARPPU、リピート収益のシェア、
FairnessIndex (Jain) CPU/GPU/IO/egress、ノイズの多い隣人インデックス。
3.5治理とプロセス
ロールバックのないリリースの成功、承認のタイミング、
スピードチューニング(収束)、ベンチマークによるカバレッジ。
3.6コンプライアンスとプライバシー
確認されたDID/VCの割合、geo/ageロック、
レギュレータの要求への応答時間、ストレージ/削除インシデント。
4)コンポジット「ネットワーク健康指数」(SSI)
IZSは、パフォーマンス(PFI)、信頼性(RLI)、セキュリティ&トラスト(STI)、経済学(ECI)、ガバナンス(GVI)、コンプライアンス(CFI)の堅牢なコンポジットです。
メトリックの正規化:- [P5、 P95]に従う堅牢なzスコアまたは堅牢なmin-max;EWMAの平滑化;尾のwinsorization。
[
\text {SubIndex} k =\sum_i w {k、 i} 、\hat m_{k,i},\quad
\text{任意}=\sum_k W_k,\text{SubIndex}k,\\sum W_k=1、
]
ここでは、weights (W_k)と(w {k、 i})がGovernance Registryに保存され、日没の手順に従って変更されます。
ゾーンのランドマーク:- 緑:IS ≥ 0。70-クォータ/ボリューム、品質ボーナスの増加。
- 黄色:0。50–0.70-スポットチューニング、調査。
- 赤:<0。50-ストップコック、制限を下げ、MTTR/補正に焦点を当てます。
5)しきい値SLOとゲート
ターゲットSLO (reguliruyutsya治理)の例:- Q4 API:成功≥ 99。99%、 p95 ≤ 200ミリ秒、DLQ=0。
- Q3メッセージ:≤ 10⁻⁶/soobshchの順序の違反、p95 ≤ 500 ms。
- Bridge/Finality: false確認=0;MTTR異常≤ 1時間。
- DA:最終的な≤ 3 × T_block;スループット≥ X GB/秒。
- バッチ/ストリーム:ウィンドウTはマージン≥ 20%に適合します。lag 2 ウィンドウを します。
- セキュリティ:整合性インシデント=0;廊下のFPR/FNR。
SLOの違反→自動トリガー(第8条)。
6)データ収集、品質および保護
Idempotence/dedup: ULID/trace、 TTLで見たテーブル。
E2Eトレース:ドメイン/ブリッジ/DAを介した相関'x_msg_id'。
アンチゲーミング:盲目実行ウィンドウ、隠されたコントロールタスク、合成サンプル。
プライバシー:DID/VC、選択的開示、ZKしきい値の証明。
信頼性:イベント署名、バッチ慈悲、ログ監査。
7)「健康」のダッシュボード"
ネットワークヘルスの概要:SISとサブインデックス、メトリクスの貢献。
Latency&Tail: pXX、 TailAmplificationヒートマップ(ドメイン/ルート別)。
信頼性のパネル:SLA-MTTR、 DLQ/Replay、 backpressure。
セキュリティと信頼:疑わしいシグナル、スラッシング、オラクルの不一致。
経済:費用対効果、証拠金/メッセージ、資源の公平性。
ファイナリティー&ブリッジリスク:ファイナリティラグ、チャレンジ、ブリッジインシデント。
コンプライアンス:ジオブロック、年齢、レポート、レギュレータ要求。
8)ポリシーフック
SLO-gate:エラー予算オーバーラン→Q0/Q1のためのクォータ、優先度Q4;サーキットブレーカを有効にします。
関税:「騒々しい」流れのための安定した需要とのTailAmplificationの成長→の価格;サステイナブル→クオリティ→テイクレート。
リスク:セキュリティ/コンプライアンスインシデントの急増→フェイルクローズ、Sプレッジの増加。
インセンティブ:持続的なPFI/RLI→ボリューム/可視性ボーナスを持つドメイン。違反者-罰金/クローバック。
回帰検出器→オートロールバック/フィーチャーフラグ。
9)インシデント管理
1.検出:p95/finality/error/costの異常。
2.分類:Integrity/Availability/Performance/Compliance。
3.分離:ルートごとの旅行、キューの排水、限界、手動クォーラム。
4.補償:RNFTポリシーに従って保険プールから。
5.死後:公開レポート、署名更新、重量/限度の調整。
10)契約と役割との関係
RNFTの権利:ノード/プロバイダ/アフィリエイトの個々のSLO/制限。
R評判:アクセス/投票および価格の修正。持続可能な→の質Sの条件。
S-pledges:インシデントのカバレッジ、違反の場合のスラッシュ。
11)数式とランドマーク
SuccessRate=1 −(タイムアウト+エラー)/リクエスト
TailAmplification=p99/p50 (zadayet治理の通路)
Cost/Req=Σ(リソース×入札)/success_requests
FairnessIndex (Jain)=(Σ x) ²/( n· Σ x ²)クォータ/リソース
Headroom=(cap − current )/cap、 FinalityScore=f (lag、 variance、 reorgs)
12)実装のplaybook(ステップで)
1.クリティカルパスとQoSクラスのマッピング;SLO交渉。
2.テレメトリー方式:トレース、メトリクス、ポリシーログ、イベントパスポート。
3.正規化:堅牢なスケール、EWMAウィンドウ、winsorization。
4.IZS v1。0:開始の重量、地帯のしきい値、日没のプロシージャ。
5.ダッシュボードとアラート:エラー予算、ポリシーフックがトリガーされます。
6.ベンチマークとカオス:定期的な実行、フェイルオーバーの練習。
7.インシデント:死後のテンプレート、保険基金、RNFT罰金。
8。 治理: SLO/weights/corridors変更プロセス、四半期ごとの改訂。
9.自動化:ルーティング、クォータ、関税、リリースゲートとのバンドル。
10.パイロット→スケーリング:1つのドメインからマルチチェーンへ。
13)「健康」プログラムのKPI
緑色のSLOを持つパスの割合≥ X%;MTTR中央値≤ Z h。
安定したスループットでのΔによるテール増幅の減少。
成功率を低下させることなく、コスト/ReqとDLQの深さを減少させます。
NRR/GRRの増加は、変更されていないか、セキュリティが向上します。
レポートの適時性(TTCレポート≤ Y時間)、ベンチマーク付きのカバレッジ≥ K%。
公平性:通路の公正性インデックス、「騒々しい隣人」事件の減少。
14)配達チェックリスト
- QoSクラスとドメインによるSLO/SLAの定義
- E2Eトレース、idempotency、デッドアップを実装
- 堅牢な正規化とs治理の重みが導入されました
- アラート、エラー予算、オートトリガーの設定
- パフォーマンス/信頼性/セキュリティ/経済/コンプライアンスダッシュボードが利用可能
- ベンチマークとカオスは作業を実行します。post-mortems説明
- 統合されたRNFT、 R/Sポリシーおよび保険ファンド
- 定期的な公報・貸借対照表の作成
15)用語集
IS:サブインデックスからのネットワークヘルスの複合。
SLO/SLA:ターゲット/契約サービスレベル。
「エラー予算」(Error budget)-反応前のエラー率が許可されています。
TailAmplification:遅延テール増幅。
DLQ/リプレイ:検疫/再処理。
Sunsetプロシージャ:自動ロールバックで一時的なパラメータが変更されます。
16)ボトムライン
ネットワークヘルスアセスメントは「ヒンドサイト」レポートではなく、運用管理ループです。堅牢なメトリック→コンポジット→スレッショルドSLO→自動アクション→パブリックレポートi治理。このようなシステムにより、エコシステムは予測可能で、耐衝撃性があり、ノードやプロバイダからクリエイターやオペレーターまで、すべての役割に正直です。