Architektura o niskim opóźnieniu

Dlaczego architektura o niskim opóźnieniu

Niskie opóźnienie to nie tylko „szybka średnia”, ale stabilne ogony (p95/p99) pod rzeczywistym obciążeniem. Ścieżką do tego jest opóźnienie budżetu, dyscyplina kolejki/przekwalifikowania, bliskość danych i pamięci podręcznej, poprawne protokoły/połączenia i ścisłe wykorzystanie (granice, obserwowalność, degradacja).

Cele opóźnień i budżet

1. Zdefiniować SLO: "p95 ≤ 120 ms, p99 ≤ 250 ms, błąd ≤ 0. 3%».
2. Zbierz budżet: klient → edge → region → usługi → stor → odpowiedź.

3. Rozprowadzanie limitów (przykład, całkowita wartość SLO 120 ms p95):

Krawędź klienta: 15 ms
Region krawędzi: 15 ms
Gateway/L7: 10 ms
Usługa biznesowa: 40 ms
Pamięć masowa/pamięć podręczna: 25 ms
Zapasy/Jitter: 15ms

💡 Każdy komponent musi mieć czas i plan degradacji, jeśli nie mieści się w jego budżecie.

Metryka i ogony

Zmierz p50/p90/p95/p99, przez i na każdym chmielu.
Podział według etykiet: region, metoda, wersja klienta, typ sieci (mobilny/szerokopasmowy), rozmiar ładunku.
Odróżnić czas kolejki od czasu wykonania (patrz Prawo Małego: L = α· W).
Techniki wrażliwe na ogon: żądania zabezpieczane (rzadko i z ochroną), zakaz kaskadowych retras.

Sieć i protokoły

QUIC/HTTP/3: mniejsze straty w roamingu/telefonii komórkowej, multipleksowanie bez head-of-line.
TLS 1. 3 i 0-RTT (tylko dla bezpiecznych zapytań idempotentnych).
DNS: krótki TTL dla tras dynamicznych, Anycast dla POP.
TCP: „TCP _ NODELAY” (ostrożny), wyłączający dodatkowe „nagłe ”/„ opóźnione ACK”, jeżeli jest to uzasadnione; utrzymać żywe i szybkie odzyskiwanie połączeń.
gRPC/HTTP/2: multipleks, kontrola przepływu i ustawienia okien; unikać nadmiernej kompresji na małym ładunku.

Połączenia i puli

Oddzielne puli według domeny/miejsca docelowego (aby „powolni sąsiedzi” nie zabierali slotów).
Rozgrzewka/Utrzymuj się przy życiu: Utrzymuj stałą liczbę ciepłych połączeń.
Połączenie koalescencji (HTTP/2/3) do ponownego użycia.
Timeouts: 'connect', 'TLS handshake', 'request', 'idle'. Różne wartości na różnych chmielach.

Lokalizacja danych i obliczeń

Krawędź/region: Zbliżyć odczyty i łatwe obliczenia do użytkownika (patrz Węzły krawędzi i logika regionalna).
Read-local/Write-global: replika do odczytu, global true to write.
Hierarchia pamięci podręcznej: CDN/cache krawędzi → regionalny KV/Redis → cache usługi → lokalny in-proc.
Ocieplenie: ładowanie gorących klawiszy podczas uwalniania/skalowania.
Ciągłe przedłużanie ważności danych o niskim ryzyku.

Repozytoria i indeksy

Wybierz schematy dostępu O (1 )/O (logN); przechowywać wąskie indeksy pod częstymi pytaniami.
Hot-keys: Shard przez 'hash (id)' lub dodać 'sól' dla równości.
Dozowanie na wyjściu do bazy danych/pamięci podręcznej (do rozsądnej wielkości) zamiast dziesiątek pojedynczych połączeń.
w przypadku OLTP - jak najkrótsze transakcje; odczyt/migawka zamiast zamków szeregowych.

Konkurencja i brak blokowania

Najpierw wyeliminuj czekanie w kolejkach, a następnie zoptymalizuj procesor.
sterowniki Async I/O i bez blokowania; w stosownych przypadkach, konstrukcje wolne od zamków.
Unikać globalnych muteksów; zamki ziarniste, CAS/wersioning.
Pulpy gwintów: Napraw rozmiary, aby nie pobiegać do przełączników kontekstowych.
Świadomość NUMA: wiążące wątki do gniazd, lokalni alokatorzy.

JVM/GC i dostrajanie runtime (w stosownych przypadkach)

Generowanie i alokacja kodu: mniej skutków ubocznych → mniej pauz GC.
Nowoczesne zbiorniki (G1/ZGC/Shenandoah) z docelowymi pauzami; ucieczki i wynajem buforów.
Klasa/Udostępnianie danych, ocieplenie JIT, AOT/native-image dla funkcji zależnych od startu.
Włączyć histogramy zatrzymania GC do całkowitego budżetu opóźnienia.

Kolejki, ciśnienie wsteczne, ochrona przed przeciążeniem

Kolejka rozmiar = mały: długie kolejki dać „piękny p50” i zabić p99.
Explicit backpressure: odpowiedź „wolniej” niż zapisać.
Jednoczesność adaptacyjna: Zmniejszenie paralelizmu z rosnącym błędem/opóźnieniem (algorytmy VEGAS/gradientu, AIMD).
Wyłącznik: szybkie awarie podczas degradacji w górę rzeki, grodzie (firmy kabinowe) dla basenów i zasobów.
Limit szybkości: przesuwane okno/żetony, priorytety (poziom użytkownika/ścieżka krytyczna).

Retrai, zabezpieczenie i idempotencja

Retrai tylko dla błędów przejściowych, z jitter i maksymalne próby.
Operacje idempotentne i 'Idempotency-Key' są wymagane do powtórzeń.
Żądania zabezpieczane: wysyłać dwa razy po progu (na przykład p95 + 10 ms) i zawsze anulować nadwyżkę.
Nigdy nie wycofywać się w każdej warstwie bez koordynacji - uzyskać burzę.

Buforowanie i rozgrzewanie

Gorąca ścieżka musi być bez sieci przy typowym obciążeniu (in-proc/LRU).
Pamięć podręczna ujemna dla 10-60 s, aby nie wbijać brakujących kluczy.
Masowe ocieplenie podczas wydawania/skalowania: listy gorących kluczy, odświeżanie tła.

Degradacja i pęcherzyki

Graceful Degradacja: Odciąć z powrotem na drobnych funkcji, gdy opóźnienie wzrasta (mniej szczegółowa odpowiedź, brak wzbogacenia).
Miękkie timeouts: Zwróć odpowiedź bazową/pamięć podręczną zamiast 5xx.
Fail-open/Fail-closed - wprost dokument dla każdego połączenia.

Obserwowalność i profilowanie

Dystrybucyjne śledzenie: przęsła na każdym chmielu, próbkowanie na podstawie ogona.
RED/USE метрика: Rate, Errors, Duration/Utilizate, Saturate, Errors.
Trasy Top-N „wolne” codziennie.
Profilery (alloc/cpu/lock) w nisko napowietrznym produkcie (eBPF/async-profiler/Flight Recorder).
Syntetyka z różnych sieci ASN i kanałów mobilnych.

Testowanie wydajności

Testy Latency-SLO (p95/p99) z rzeczywistym obciążeniem użytkowym i zmiennością.
Scenariusze chaosu: degradacja DNS, zwiększona utrata pakietów, opóźnienia TLS, powolny sklep.
Cold-start/scale-up: Mierzyć pierwsze minuty po zwolnieniu, gdy bufory są puste.
Oddzielne puli obciążeń według skryptów (nie ingerują w testy odczytu/zapisu).

Mini szablony

Polityka Timeout/Retract (Pseudo)

yaml timeouts:
connect: 100ms tls_handshake: 150ms request_p95_budget: 80ms retries:
max_attempts: 2 backoff: exp_jitter(10ms..60ms)
retry_on: [CONNECT_ERROR, TIMEOUT, 502, 503, 504]
hedging:
enabled: true threshold: p95 + 10ms cancel_extra_on_first_success: true circuit_breaker:
error_rate_threshold: 5%
p95_threshold_increase: 30%
half_open_after: 10s

Baseny i grodzie

yaml pools:
checkout:
max_conns: 256 per_host: 64 queue: 8 # small analytics queue:
max_conns: 64 queue: 4

Reakcja z degradacją

json
{
"status": "ok",
"profile": { "id": "u123", "name": "…"},
"recommendations": "degraded, "//disabled the heavy part
"served_from": "edge-cache",
"trace_id": "…"
}

Przypadki aplikacji

iGaming/finance: autoryzacja płatności <200 ms p95, limity/saldo - odczyt z projekcji regionalnych, rekordy - idempotent z wersją.
Marketing/zalecenia: odpowiedzi <100 ms p95, pamięć podręczna flag na krawędzi, modele - wstępne punktowanie + szybkie zasady na gorąco.
Klienci mobilni: HTTP/3, agresywne połączenia z ponownym użyciem, zmniejszona ładowność (Protobuf), timeouts bezpieczeństwa i pamięci podręcznej offline.

Anty-wzory

Długie linie przed pracownikami: „piękna średnia” i zabił p99.
Kaskadowe przekładki na każdej warstwie bez koordynacji.
Globalne „mega-cache” bez niepełnosprawności i rozgrzewki.
Fuzzy timeouts (wszędzie „domyślnie”) - niekontrolowane ogony.
Jednym z wspólnych połączeń dla całego ruchu jest blokowanie head-of-line.
Ciężka logika na krawędzi ze stanowczym efektem.
Wyłączona telemetria ogonowa - „nie widać” p99.

Lista kontrolna produkcji

Istnieje opóźnienie budżetu chmielu i harmonogram dla niego.
Włączone HTTP/2/3, TLS 1. 3, baseny i rozgrzewka.
Hierarchia pamięci podręcznej, lista gorących kluczy i strategie rozgrzewki.
Read-local/Write-global i hot key shading.
Wyraźne obciążenie zwrotne, małe kolejki, wyłączniki i grodzie.
Retrai z jitterem, idempotencją, ograniczonym zabezpieczeniem.
Śledzenie z etykietami regionalnymi/wersjami/klientami; monitorowanie p95/p99.
ASN/Mobilne syntetyczne testy perfu, skrypty zimnego rozruchu i chaosu.
Procedury degradacji i pęcherzyki są udokumentowane.
p95/p99 odpowiada SLO przy rzeczywistym obciążeniu.

NAJCZĘŚCIEJ ZADAWANE PYTANIA

Dlaczego p99 jest ważniejszy niż średnia?
Ponieważ użytkownicy mają do czynienia z ogonami, a nie przeciętnymi. p99 pokazuje „jak bardzo boli”.

Powinieneś wszędzie zabezpieczyć?
Nie, nie jest. Jest przydatny dla rzadkich ogonów w krytycznych szlakach i tylko w ścisłych granicach/idempotencji.

Jak zmniejszyć zimny start?
Podgrzewanie buforów/połączeń, wstępna kompilacja/JIT rozgrzewka, zminimalizowanie leniwych inicjalizacji, ciepłe baseny.

Czy można „pokonać sieć”?
Częściowo: HTTP/3, krawędź-POP, Anycast, kompaktowy ładunek użytkowy, ponowne użycie połączenia i rozsądne czasy.

Razem

Architektura o niskim opóźnieniu to system aranżacji i dyscyplin: budżet opóźnienia, bliskość danych, małe kolejki, przewidywalne przekaźniki, hierarchie pamięci podręcznej, prawidłowe protokoły i bezwzględna obserwowalność ogona. Zgodnie z tymi zasadami, trzymasz p95/p99 w kolejce bez poświęcenia stabilności i portfela.