Analyse-API und Leistungsmetriken

1) Warum es notwendig ist

API ist das „Kreislaufsystem“ der Plattform. Ohne strenge Metriken können wir nicht:

Nachweis der Erfüllung von SLO und SLA,
Verwaltung der Kapazität und Wirtschaftlichkeit der Anfragen,
Abbau schnell lokalisieren (p99-Tails, 5xx-Bursts),
Priorisierung der Optimierung nach geschäftlichen Auswirkungen.

Das Ziel: ein einheitliches Beobachtbarkeitsmodell, bei dem jede Anfrage vom Perimeter bis zum DB mit gemeinsamen Identifikatoren und konsistenten SLIs verfolgt wird.

2) Taxonomie der Metriken

Technische Daten: RPS, Latenz (p50/p95/p99), Fehlerrate (4xx/5xx), Sättigung (CPU, Speicher, Datei-desc), Queue-Zeit.
Product: erfolgreiche Operationen/min, Step Conversion (200/total), Rate-Limited Share (429), Retrays, benutzerdefinierte Segmente.
Kosten: Kosten/Anfrage (CPU-ms + egress + DB-Anfragen), Kosten für fichy/endpoint, $/tenant, $/1k Anrufe.

3) „Goldene Signale“: ROT und VERWENDUNG

ROT (für API):

Rate - Anfragen/sec (nach Endpoint/Tenant/Plan).
Errors - 4xx/5xx/429 Anteile und Absolute.
Dauer - p50/p95/p99 Ende-zu-Ende und nach Stufe (ingress → app → DB → Drittanbieter).

USE (für Ressourcen):

Utilization - CPU/IO/Kanal laden.
Saturation - Warteschlangen (Run-Queue, Backlog, DB warten).
Errors - Treiber/Timeout-Fehler.

4) Grundlegende Definitionen und Formeln

Availability SLI: `1 − (5xx + gateway_timeout) / all_requests`.
Erfolg SLI: „2xx/( all − 429_shadow)“ (ohne „Schatten“ -Sperren).
Apdex: `(|T≤T| + 0. 5·|T≤4T| )/all', wobei'T 'die angestrebte „gute“ Schwelle ist.
Tail amplification: 'p99 _ total − max (p99_stage_i)' ist der Beitrag der Warteschlangen/Komposition.
Fehlerbudget (Monat) bei 99. 9%: "Budget = 0. 1% Periodenzeit ".

Empfohlene Perzentilbins Histogramme Latenz:'[5ms, 10ms, 25ms, 50ms, 100ms, 250ms, 500ms, 1s, 2. 5s, 5s]`.

5) SLI/SLO und Alerting bei Burn-Rate

Beispiel SLO (Public API):

Verfügbarkeit: ≥ 99. 9 %/30 Tage.
p95 Latenz' GET/wallet/balance'<150 ms; 'POST/payments' <400 ms.
Fehler '5xx' <0. 2%. '429' (solide) <1% des Gesamtverkehrs.

Burn-rate Alerts (Doppelfenster):

2% des Budgets für 1 Stunde oder 5% für 6 Stunden → Seite an den Ingenieur.
10% pro Tag → RCA-Priorisierung.

6) Eine Reihe von Metriken (was zu sammeln ist obligatorisch)

Am Perimeter (Gateway/WAF):

`http_requests_total{route,method,status,tenant,plan}`
'http _ request _ duration _ seconds _ bucket {route,...}' (Balkendiagramm)
`retries_total{reason}`, `rate_limited_total{key,policy}`
Körpermaße: 'request _ bytes', 'response _ bytes'

Im Anhang:

`db_client_requests_total{op,table}`, `db_latency_seconds_bucket{op}`
' cache_ops_total {op} ', hit-rate des Cache die äußerlichen Aufrufe: ' outbound_calls_total {provider, op} ', die latency/Fehler/Timeouts die Reihen/Pools: die Längen/Verzüge, aktiv workery ressourcen- USE: CPU, RSS, FD, der GC-Pause

Labels: 'tenant _ id', 'region', 'kyc _ level', 'plan', 'feature _ flag'.

7) Tracing und Korrelation (OpenTelemetry)

W3C Trace-Context ('traceparent', 'tracestate') auf allen Hops.
Span-s nach Stufe: ingress → authZ → app handler → DB/Redis → PSP/extern.
Attribute/Labels: 'http. route`, `enduser. id`, `tenant. id`, `idempotency. key`, `risk. score`.
Beispiele: Verknüpfen Sie Punkte in Latenz-/Error-Diagrammen mit bestimmten Trace-IDs.

Sampling:

Kopfbasiert 1-10% für „normale“ Wege,
tail-based for tails (wir nehmen langsam/fehlerhaft),
adaptiv für Spitzen und Zwischenfälle.
Baggage: Übertragung von 'tenant '/' risk' für Schnitte ohne Markierung jedes Ereignisses.

8) Protokolle: Struktur und Privatsphäre

Strukturiertes JSON; Pflichtfelder: 'ts', 'trace _ id', 'span _ id', 'route', 'status', 'latency _ ms', 'tenant', 'user _ id _ hash'.
PII-Richtlinie: PAN/PII maskieren; Verbieten Sie Geheimnisse/Token.
Log-Sampling: Hoch für 4xx/5xx/429 und „lange“ Anfragen.

9) Dashboards-Karte (Mindestsatz)

1. Exec-Summary: RPS, Verfügbarkeit, Fehlerrate, p95/p99 Latenz, 429 Anteil, Burn-Rate Budget.
2. Per-Route: Top-Endoints durch RPS/Fehler/Schwänze; Vergleich der Versionen (Kanarienvogel).
3. Per-Tenant/Plan: führend bei Last/Kosten/Fehlern.
4. Abhängigkeit Gesundheit: DB, Cache, PSP/extern - Latenz, Fehler, Sättigung.
5. Kapazität: CPU/RAM/FD, Warteschlangen, Verbindungspool, GC, Containerlimits.
6. Sicherheit/Missbrauch: 401/403, 429/Politik, Geo/ASN-Schnitte, Ausbrüche von Retrays.

10) Alerts (Schwelle und Trend)

'error _ rate {route}'> 2% (5 Minuten) und RPS> N → Pager.
'p99 _ latency {critical}'> Zielschwelle (10 Minuten).
'burn _ rate' nach Budget (siehe § 5).
DB 'timeouts '/' deadlocks' oder Wachstum 'queue _ time'> X ms.
Externe Anbieter: 'outbound _ 5xx _ rate {provider}'> 1% + SLO-abhängig.

11) Kapazitive Planung und Leistung

Little's Law:'L = λ· W'(durchschnittliche Warteschlangenlänge = Verkehr × durchschnittliche Zeit).
Wir legen das Ziel p95 auseinander: 'ingress + app + DB + external + queue'.
Concurrency budget: Wir erfassen ein Maximum an simultanen Schreibvorgängen.
Budget-Metrik: „CPU-ms auf Anfrage“; Wir halten einen Vorrat von 30-50% zur Spitze.
Interaktion mit Rate-Limit: Messen Sie den Anteil der Anfragen an der „Obergrenze“ der Quote und die Auswirkungen auf die Latenz.

12) Belastungs- und synthetische Inspektionen

Arten: Grundlast, Bursts × 10, „Schritte“, Langzeitplateaus, Stress/Chaos (Noden töten, Netzwerkverzögerungen), Synthetik in kritischen Kundenszenarien.
Profiling: CPU/alloc/lock-contention, N + 1 (SQL/HTTP), langsame Codes.
Regresskontrolle: Vergleich p95/p99/Fehler vor/nach Release (Kanariensprung).

13) Kosten (Cost-Observability)

Kostenmetriken: 'cpu _ ms', 'egress _ bytes', 'db _ calls','$ per 1k requests'.
Endpoint/Tenant/Fichu-Allokation: Billing-Tags vom Orchestrator + Lastmetriken → API-Unit-Economy-Bericht.
Optimierungsalgorithmus: Wählen Sie TOP-Endpunkte nach dem Produkt „traffic × cost × (p95 − Ziel)“.

14) Der Tenant des Analytikers und die „Gerechtigkeit“

Alle wichtigen Metriken sind mit dem Label 'tenant _ id/plan' versehen.
Der Anteil der „schweren“ Kunden in den Schwänzen p99; individuelle Limits/Kontingente und Retraybudgets.
Fairer Sheyring: Bei Überlastung reduzieren wir den Anteil der „lauten“ Mieter.

15) Spezifität von iGaming/Finanzen

Schnitte nach 'kyc _ level', 'risk _ tier', 'payment _ method'.
SLI für „monetäre“ Pfade („POST/Deposits“, „POST/Withdrawals“): unterhalb der Zielvorgaben p95, getrennte Fehlerbudgets.
Time-to-Wallet (TTW) Metriken, Anteil der Auto-Locks Antifrod, Auszahlung Umwandlung.
Audit: Unveränderliche Protokolle für finanzielle Maßnahmen und Anti-Fraud-Lösungen.

16) Instrumentation: Umsetzungspraktiken

Benennung der Metriken (Beispiel):

`api_http_requests_total` (counter)
`api_http_request_duration_seconds` (histogram)
`api_outbound_requests_total`, `api_db_query_duration_seconds`
`api_rate_limited_total`, `api_retry_total{reason}`

Лейблы: `route`, `method`, `status_class`, `tenant`, `region`, `version`, `canary`, `provider`, `db_table`.
Kardinalität: Vermeiden Sie freie Werte (user_id) verwenden Sie „Bakets “/Hash.
Beispiele: Verbinden Sie mit p95/p99 Histogrammen → klicken Sie auf die Spur.

17) Antipatterns

Mittel statt Perzentile; keine Unterteilung in Status-Klassen.
Inkonsistente' route '/' path'(dynamische IDs' eingenäht 'in Labels).
Labels mit hoher Kardinalität (raw user_id, IP).
Keine getrennte Abrechnung externer Anbieter (PSP/3rd-party).
Alerts durch „Lärm“ (ein einzelnes Fenster und eine Schwelle).
p99 ohne Berücksichtigung der Queue-Zeit (maskiert die tatsächliche Degradation).

18) Prod-Readiness Checkliste

SLI/SLO und error-budget definiert, mit dem Unternehmen abgestimmt.
Einheitliche Latenzhistogramme und Statusklassen; p95/p99 auf Dashboards.
Full Trace (OTel), Log/Metric/Trace Korrelation.
Alerts burn-rate (zwei Fenster), Schwellenwerte für p99 und error-rate.
Per-Tenant/Per-Plan-Schnitte und Kostenberichte.
Dashboards: Exec, Per-Route, Abhängigkeiten, Kapazität, Missbrauch.
Belastungsszenarien (Burst/Plateau/Stress), Profiling.
Retrail-Richtlinien mit Jitter; Berücksichtigung der Auswirkungen von Retrays auf den RPS.
SLA/SLO-Dokumentation für Partner und öffentliche Kunden.
Retention/Logmaskierung, PII-Schutz.

19) TL; DR

Bauen Sie die Beobachtbarkeit um SLI/SLO und Error-Budget auf, messen Sie RED/USE, sammeln Sie Latenzhistogramme mit p95/p99 und „Queue Time“, verteilen Sie eine einzelne Trace-Id von Perimeter bis DB, verwenden Sie Tail/Adaptive-Sampling, halten Sie Per-Tenant/Value-Schnitte und zwei Fenster burn-rate-alerting. Planen Sie die Kapazität nach den Gesetzen der Warteschlangen und den Auswirkungen auf Geschäftsmetriken; Anti-Pattern - Mittel statt Perzentile, hohe Kardinalität und nicht berücksichtigte externe Abhängigkeiten.

Analyse-API und Leistungsmetriken

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet