Operacje i → Wskaźniki wydajności zarządzania

Wskaźniki wydajności

1) Dlaczego wskaźniki wydajności

Wydajność to zdolność systemu do dostarczania docelowych SLO w czasie reakcji i przepustowości przy danym koszcie. Niemożliwe jest bez metryki:

wykryć degradację przed incydentami,
przewidywać zdolności przepustowe i budżet,
porównać alternatywy (cache vs DB, gRPC vs REST),
zarządzać regresjami po zwolnieniu.

Zasady: pojedynczy słownik mierników, agregacja według percentyli (p50/p90/p95/p99), oddzielne rozliczanie ścieżek „gorących” i „zimnych”, kontekst (wersja, region, dostawca, urządzenie).

2) Taksonomia mierników

2. 1 Podstawowe ramy SRE

Cztery złote sygnały: Latency, Traffic, Errors, Saturation.
RED (dla mikroservices): Wskaźnik, Błędy, Czas trwania.
ZASTOSOWANIE (do sprzętu): Wykorzystanie, Nasycenie, Błędy.

2. 2 Poziomy

Infrastruktura: procesor, pamięć RAM, dysk, sieć, kontenery, węzły.
Platforma/Usługi: punkty końcowe API, kolejki, bufory, bazy danych, autobusy imprez.
Doświadczenie klienta: Web Vitals, mobilne SDK, streaming, CDN.
Platforma danych: ETL/ELT, strumienie, sklepy, opóźnienia BI.
Biznes krytyczny przepływ: autoryzacja, KYC, depozyty/płatności, rundy gier.

3) Katalog kluczowych metryk i wzorów

3. 1 API i mikroservice

RPS (Żądania na sekundę).
Latency p50/p95/p99 (ms) - najlepiej „end-to-end” i „backend-only”.
Wskaźnik błędu (%) = 5xx + 4xx poprawione/wszystkie żądania.
Nasycenie: Średnia długość kolejki pracownika, żądania podczas lotu.
Wskaźnik zimnego rozruchu (dla FaaS).
Zmniejszanie/zrzucanie wniosków.

Przykład SLO: p95 opóźnienie ≤ 250 ms z RPS do 2k w regionie UE-Wschód; błędy ≤ 0. 5%.

3. 2 Bazy danych

QPS/Transactions/s, avg/mediana czasu zapytania, czas zapytania p95.
Zablokować czekania/impasy, wiersz/wskaźnik współczynnik trafienia, bufor Cache Miss%.
RepLag (replikacja), punkt kontrolny/czas spłukiwania, opóźnienie Autovacuum.
Hot Keys/Skew - top N klawiszy przez ładowanie.

Formuła dla „Core Requests”: QPS/ vCPU_core_count → sygnał do rzucania.

3. 3 Cache i CDN

Współczynnik trafienia (%), Eksmisje/s, Latency p95, Rozmiar elementu percentyle.
Pochodzenie Offload (%) дла CDN, TTFB, Stale-while-revalidate hit%.

3. 4 kolejki/strumienie

Ingress/egress msg/s, Consumer Lag, Rebalance rate.
Czas przetwarzania p95, szybkość DLQ.

3. 5 Infrastruktura/kontenery

Wykorzystanie procesora%, przepustnica procesora%, długość kolejki uruchomienia.
Pamięć RSS/Zestaw roboczy, OOM zabija, Błędy strony.
Dysk IOPS/Latency/Przepustowość, Sieć RTT/retransmituje.
Nasycenie węzła: oczekujące strąki, ciśnienie (CPU/Memory/IO).

3. 6 Web Client (UX)

Core Web Vitals: LCP, INP, CLS.
TTFB, FCP, TTI, Timing Resource (DNS, TLS, TTFB, pobierz).
Wskaźnik błędów (JS), długie zadania, zmiana czasu trasy SPA.
CDN Geo-Latency (percentyl).

3. 7 Klient mobilny

Aplikacja Czas rozpoczęcia (zimno/ciepło), wskaźnik ANR, sesje bez awarii%.
Sieć w obie strony/sesje, rozmiar ładunku, drenaż baterii/sesja.
Wskaźnik sukcesu offline.

3. 8 Platforma danych i sprawozdawczość

Świeżość Lag (T-now → витрина), Wydajput rows/s, Job Success%.
Koszt za TB przetworzone, Skew według partii, Późne wydarzenia%.
BI Time-to-Render p95 dla kluczy desek rozdzielczych.

3. 9 Przepływ krytyczny domeny (iGaming jako przykład)

Auth p95, KYC TTV (Time-to-Verify), Depozyt/Wypłata p95.
Czas trwania rundy gry p95, opóźnienie połączenia RNG, dostawca RTT p95.
Płatność Wskaźnik sukcesu PSP, Badanie obciążenia zwrotnego SLA.

4) Normalizacja, percentyle i przypisanie

Percentyle kontra średnie: naprawić p50/p90/p95/p99 - średnie wygładzają ból szczytowy.
Sekcje: wersja aplikacji, region, dostawca, kanał sieciowy (4G/Wi-Fi), urządzenie.
Korelacja: łączymy „tylko backend” i „real-user” mierniki dla łańcuchów przyczynowych.
Przykłady/ślady: powiązać skrajne percentyle ze śladami.

5) Progi i wpisy (przybliżona siatka)

Opóźnienie p95 (rdzeń API): ostrzeżenie> 250 ms, krytyczne> 400 ms 5 min z rzędu.
Wskaźnik błędu: ostrzeżenie> 0. 5%, krytyczny> 2% (punkt końcowy, nie globalny).
DB RepLag: ostrzeżenie> 2 s, krytyczne> 10 s.
Opóźnienie konsumenckie Kafka (czas): ostrzeżenie> 30 s, krytyczne> 2 min.
Web LCP (p75): ostrzeżenie> 2. 5 s, krytyczny> 4 s.
Mobile ANR: ostrzeżenie> 0. 5%, krytyczny> 1%.
ETL Świeżość: ostrzeżenie> + 15 min, krytyczne> + 60 min омсла SLA.

Stosujemy progi statyczne + adaptacyjne (sezonowość, schematy dzienne), deduplikowanie i grupowanie wpisów przez usługi/wydania.

6) Badanie wydajności

Rodzaje: początkowy, stres, długotrwałe (moczenie), chaos (powiązania degradacyjne/PSP).
Profile obciążenia: dla transakcji rzeczywistych (dystrybucyjnych), „wybuchów”, szczytów regionalnych.
Cele: osiągnięcie SLO z docelowymi operacjami RPS i mix, walidacja backpressure.
Mierniki uruchamiania: przepustowość, błąd%, opóźnienie p95, pauza GC, przepustnica procesora, opóźnienie kolejki, koszt/uruchomienie.

Regresja reguły: wydanie jest uważane za udane, jeśli p95 nie jest zdegradowany> 10% o równym profilu, a koszt żądania (CPU-ms/request) nie wzrósł> 15%.

7) Planowanie przepustowości i cena/wydajność

Model popytu: RPS na godzinę × średnia praca/żądanie (CPU-ms, IO-ops).
Zagłówek: 30-50% margines dla ścieżek krytycznych, automatyczne skalowanie przez P95.
Koszt KPI: Koszt na 1k żądania, Koszt na GB obsługiwane, $ za 1 p. LCP ulepszenia.
Buforowanie/denormalizacja: odczytać „cache ROI” = (oszczędności CPU-ms - koszt pamięci podręcznej).
Ciepłe i zimne regiony: odciążenie do CDN/krawędzi, replikacja tylko do odczytu.

8) Obserwowalność i praktyki profilowania

Ślady: rozłożone identyfikatory śladowe we wszystkich chmielach; pobieranie próbek jest inteligentne (na podstawie ogona).
Metryki: Prometheus/OpenTelemetry, pojedyncza notacja nazw i etykiet.
Dzienniki: z korelacją/rozpiętością śladową, budżetem do rejestrowania szumów, edycją PII.
Profilery: profile CPU/Heap/Alloc/Lock, profilowanie ciągłe (eBPF).
Przykładowe instancje: skojarzyć wybuchy p99 z konkretnym wywołaniem span/SQL/PSP.

9) Wskaźniki wydania i zespołu (dla kompletności)

DORA: częstotliwość wdrażania, czas realizacji, wskaźnik awarii zmiany, MTTR.
PRZESTRZEŃ: satysfakcja, wydajność, aktywność, komunikacja, wydajność.
Metryki te nie dotyczą żelaza, ale bezpośrednio wpływają na stabilność wydajności.

10) Anty-wzory

Średnie pościgi: ignorowanie p95/p99.
„Globalny” wskaźnik błędów: ukrywa bolesne punkty końcowe.
Bez przypisywania przez wersje: nie można złapać regresji klienta.
Spam ostrzegawczy: progi bez histerezy i korekcji sezonowości.
Optymalizacja ślepej próby: brak oceny lub śladów.
Mieszanie UX i backend latency: nieprawidłowe wnioski z doświadczenia klienta.

11) Listy kontrolne

Ujednolicony standard metryczny

Słownik metryk z formułami, jednostkami, właścicielami
Obowiązkowe percentyle p50/p90/p95/p99
Korelacja śladowa i korelacja dziennika
Tagi: region, wersja, dostawca, urządzenie, kanał sieciowy
Progi z histerezą i deduplikacją

Przed zwolnieniem

Wartość wyjściowa p95/p99 na etapie i prod
Ruch kanaryjski + Porównanie metryczne A/B
Funkcja szybkiej flagi rollback
Spisek obserwacyjny

Regularnie

Najwolniejszy Top N Query/SQL Review
Polityka Cache audytu i TTL
Sprawdzanie świeżości i replikacji bazy danych
Zewnętrzne testy degradacji dostawcy (PSP, KYC)

12) Mini playbooks (przykład)

Degradacja p95/api/płatności

1. Sprawdź błędy% i zewnętrzne czasy PSP.
2. Sprawdź kolbecy w kolejce opóźnień konsumentów.
3. Zobacz przykłady p99 śladu SQL/HTTP wąskie gardło?
4. Włącz cache katalogu/limitu, zmniejszyć N + 1.
5. Budżet: tymczasowe zwiększenie zasobów pracowników o 20%, w tym autoskali.
6. Post-fix: index by (psp_id, status, created_at), retray-jitter.

Wzrost RepLag w DB

1. Sprawdź „ciężkie” żądania i długie transakcje.
2. Zwiększ współistnienie replikacji, punkt kontrolny melodii.
3. Offload tylko do odczytu pamięci podręcznej/repliki.
4. W oknach szczytowych - częściowy denorm + partie.

13) Przykłady formuł/SQL (uproszczone)

Wskaźnik błędu według punktu końcowego

sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;

Latency p95 (TDigest/ok)

sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;

Opóźnienie konsumenckie (czas)

sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;

Web LCP p75

sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;

14) Wbudowanie w deski rozdzielcze i sprawozdawczość

Karty KPI: opóźnienie p95, błąd%, RPS, nasycenie z trendami WoW/DoD.
Top N „najgorsze” punkty końcowe/SQL/zasoby, klikalne wiercenie w dół → ślad.
Korelacja wersji klienta: kolumna „wersja → p95 LCP/INP → konwersja”.
Mapa świata: geo-latency (CDN), opóźnienie PSP według regionów.
Panel SLO: udział czasu w SLO, awarie z SLO, „budżet błędu”.

15) Kwoty całkowite

Wskaźniki wydajności to dyscyplina systemowa: pojedyncze słownictwo, percentyle, przypisywanie, dobra obserwowalność i ścisłe SLO. Łącząc techniczne (opóźnienia, opóźnienia, trafienia pamięci podręcznej) i sygnały produktu (czas KYC, depozyt p95, LCP), zarządzasz jakością doświadczenia i kosztem jego dostarczenia - przewidywalnym i skalowalnym.

Operacje i → Wskaźniki wydajności zarządzania

Wskaźniki wydajności

Przed zwolnieniem

Regularnie

Latency p95 (TDigest/ok)

Opóźnienie konsumenckie (czas)

Web LCP p75

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami