Rozbudowa sieci poziomej
1) Dlaczego rozbudowa sieci w poziomie
Ekspansja pozioma (scale-out) - dodawanie równoległych węzłów/kanałów zamiast „pompowania” jednego potężnego serwera lub jednego kanału komunikacyjnego. Jest to kluczowe dla iGaming: piki zakładów na żywo, turnieje i duże wydania dostawców wymagają przewidywalnej opóźnienia, wysokiej dostępności i elastyczności bez przestojów.
Cele:- Stabilny p95-latency przy N × obciążenie.
- Brak jednego punktu awarii (SPOF).
- Gospodarka: Liniowy wzrost zdolności produkcyjnych przy ograniczonym wzroście kosztów.
2) Podstawowe zasady skala-out
1. Usługi bezpaństwowe na peryferiach: autoryzacja tokenów, klucze idempotencji, sticky-routing tylko w razie potrzeby.
2. Shading and partitioning: dystrybucja użytkowników/zdarzeń/ruchu według segmentów.
3. Najpierw poziomy dla komponentów sieciowych: balancery L4/L7, serwery proxy, brokery, bufory.
4. Zasady powtarzania/harmonogramu i obciążenie zwrotne.
5. Obserwowalność i SLO jako sprzężenie zwrotne do automatycznego skalowania.
6. Zero Trust i mikrosegmentacja - bezpieczeństwo rośnie wraz z liczbą węzłów.
3) Wzorce skalowania sieci
3. 1 Global (GSLB/Anycast)
GSLB przydziela użytkowników według regionów (UE, LATAM, APAC) według opóźnień/mierników zdrowia.
Adresy Anycast dla punktów wejściowych (DNS, API, WebSocket), szybka awaria BGP.
Zasady geograficzne: rozliczanie lokalizacji danych i zasady dostępu do dostawców/płatności.
3. 2 Poziom regionalny (L4/L7)
L4 balancery (ECMP, Maglev-like hashes) → jednolity dystrybutor złącza.
Bramki L7/WAF: ścieżka/wersja/routing najemcy, ograniczenie szybkości, anty-bot.
Siatka serwisowa: wyłącznik-wyłącznik, ponowne próbowanie z jitterem, wyrzut zewnętrzny.
3. 3 ruch wschód-zachód (w obrębie klastra/centrum danych)
Tkanina kręgosłupa + ECMP: przewidywalne opóźnienia.
Sidecar proxy dla mTLS, telemetrii, i zarządzanych polityk.
Kwoty/limity usług i przestrzeń nazw w celu ochrony przed „hałaśliwymi sąsiadami”.
4) Horyzontalne skalowanie danych
4. 1 Keshi
Wielopoziomowe bufory: CDN/edge → L7 cache → Redis/in-process.
Spójne hash dla dystrybucji kluczy, replikacji do węzłów N.
TTL i warstw ocieplenia przed dużymi wydarzeniami.
4. 2 Brokerzy wydarzeń (Kafka/comp.)
Shading przez klucz (odtwarzać ID, Id) → kolejność wewnątrz strony.
Rosnące partie liniowo zwiększają przepustowość konsumentów.
Tematy przydziału/warstwy dla różnych domen: zakłady, płatności, KYC, gry.
4. 3 OLTP/OLAP
CQRS: zapisz/polecenia oddzielone od odczytu/zapytania.
Czytaj repliki do czytania skalowania; shading dla rekordowego skalowania.
Regionalna izolacja danych + asynchroniczna replikacja dozwolonych jurysdykcji.
5) Sesje i status
Bezpaństwowe JWT/nieprzezroczyste żetony z krótkim TTL i obrotem.
Sesje sticky tylko dla strumieni, w których wymagany jest stan lokalny (na przykład stół na żywo).
Klucze idempotencji na poziomie API/portfela dla bezpiecznych powtórzeń.
Deduplikacja zdarzeń (dokładnie raz w sensie biznesowym za pomocą klawiszy/sagów).
6) Zarządzanie pęknięciami (gotowość szczytowa)
Token Bucket/Leaky Bucket na bramie L7 i w polityce siatki.
Bufor/kolejka przed kruchym upstream (KYC, PSP).
Automatyczne skalowanie według metryki: rps, p95, CPU, lag brokera, długość kolejki.
Strategie otwarte/zamknięte dla awarii (na przykład degradacja cech niekrytycznych).
7) Bezpieczeństwo w skali
Zero Trust: mTLS pomiędzy wszystkimi usługami, certyfikaty krótkotrwałe.
Mikrosegmentacja-Oddzielne sieci dla prod/stage/vendors/payments.
podpis S2S (HMAC/JWS), ścisła kontrola wyjścia, DLP/CASB.
Klucz/tajny obrót jest zautomatyzowany (KMS, Vault), audyt końcowy.
8) Obserwowalność i zarządzanie SLO
Kłody/mierniki/ścieżki + profilowanie (w tym eBPF).
SLO: p95-latency login/deposit/rates/back, success of payments, availability of regions.
Alarmując błędami budżetowymi, a nie „nagimi” metrykami.
Topologia zależności dla RCA i planowania zdolności.
9) Tolerancja błędów i DR dla wzrostu horyzontalnego
Active-Active do uwierzytelniania i portfela, Active-Standby dla ciężkich statile.
GSLB/BGP-feilover z celami <30-90 sek.
Inżynieria chaosu: wyłączanie stref/stron/PSP na scenie i okresowo - w sprzedaży zgodnie z przepisami.
Ścieżka czarnego rozruchu: minimalny zestaw usług do podnoszenia ekosystemu.
10) Ekonomia i planowanie zdolności
Wartość wyjściowa: normalny dzień + x3/x5 „noc finału Ligi Mistrzów”.
Zagłówek: 30-50% wolnego zasilania w krytycznych domenach.
Jednostka-ekonomia: koszt rps/temat/sesja, cena jednego GSLB-region-feilover.
Automatyczne wyłączanie dodatkowych węzłów na zewnątrz szczytów, finansowanie kontroli SLO.
11) Typowe schematy architektoniczne
A) Global Showcase i API
GSLB (latency-based) → L4 balancers (ECMP) → L7 bramy/WAF → Usługi siatki → Redis cache → Kafka → OLTP shards/repliki → OLAP/datalake.
B) Gry na żywo/Zakłady na żywo (Low Latency)
Anycast login → regionalne PoP z WebRTC/QUIC → priorytetowe kanały do RGS → lepki do stołu/sesji tylko → lokalne bufory i szybkie health-flip.
C) Obwód płatności
Segment odosobniony + orkiestrator PSP → kolejka/przekaźnik z idempotencją → wielu dostawców z priorytetami i cut-over przez SLI.
12) Anty-wzory
Pojedyncza, niekalibrowa brama L7.
Wspólna sesja w klastrze pamięci podręcznej bez izolacji TTL/lokatora.
Niekontrolowane przekaźniki → burza ruchu i „anomik” w górę rzeki.
Globalne transakcje w wielu regionach w czasie rzeczywistym.
Powielanie danych osobowych do „zakazanych” regionów dla celów analitycznych.
Autoskale nad procesorem bez korelacji z p95/kolejki/lag.
13) Lista kontrolna wdrożenia skali
1. Identyfikacja domen i SLO, w których potrzebna jest pozioma elastyczność.
2. Wprowadź GSLB i spójne hash na L4, L7 wersja/najemca routing.
3. Tłumaczenie zewnętrznych API do bezpaństwowca + idempotencja, zminimalizować lepki.
4. Konfiguruj warstwy pamięci podręcznej i broker zdarzeń z przegrodą klucza.
5. Projekt OLTP shading i czytać repliki, oddzielne OLAP (CQRS).
6. Włącz ograniczenie szybkości, ciśnienie wsteczne, kolejki przed zewnętrznymi dostawcami.
7. Zautomatyzuj HPA/VPA za pomocą mierników kompozytowych (p95, rps, lag).
8. Rozszerzyć obserwowalność, wpisy przez budżet błędu, topocard.
9. Regularne ćwiczenia DR i scenariusze chaosu, weryfikacja Black-start.
10. Embed Security-by-design: mTLS, control exress, rotacja tajemnic.
14) Wskaźniki zdrowia i kontrola skali
p95/p99 dla login/deposit/bet/spin.
Wskaźnik błędów na bramce i siatce L7 (5xx/429/timeout).
Makler lag i głębokość kolejki, czas przetwarzania zdarzeń.
Współczynnik trafienia pamięci podręcznej, przepustowość pamięci masowej.
Dostępność regionów/PoP, czasu przełączania GSLB/BGP.
Koszt za rps i usuwanie zespołów.
15) Plan działania na rzecz ewolucji
v1: GSLB + L4 ECMP, autoskale statyczne, warstwa pamięci podręcznej.
v2: Zasady siatki (retries/circuit-breaker), broker wydarzeń, czytaj repliki.
v3: OLTP shading, asset-asset for critical domains, adaptive autoscale by SLO.
v4: Siatka danych, zdolność prognostyczna, autotuning trasy.
Krótkie podsumowanie
Horyzontalna rozbudowa sieci to dyscyplina systemowa: bezpaństwowy rdzeń, strzępienie danych i zdarzeń, wielopoziomowe równoważenie (GSLB/L4/L7/mesh), bufory i kolejki do wybuchów oraz zarządzanie SLO, Zero Trust i praktyki DR. Dzięki temu podejściu ekosystem iGaming wytrzymuje światowe szczyty ruchu, pozostaje praworządny w różnych jurysdykcjach, a w miarę wzrostu liczby odbiorców skaluje się niemal liniowo.