Operacje i zarządzanie → Zarządzanie zmianami
Zarządzanie zmianą
1) Cel i zasady
Celem jest szybkie i bezpieczne wprowadzanie zmian, zmniejszając ryzyko incydentów, przestojów i naruszeń przepisów.
Zasady:- Przewidywalne i odwracalne: Każda zmiana jest planowana, weryfikowalna i odwracalna.
- Ryzyko: Głębokość kontroli zależy od ryzyka (jurysdykcja, pieniądze, PII).
- Małe i częste: Małe przyrosty są łatwiejsze do oceny i cofnięcia.
- Po pierwsze: infrastruktura jako kod, testy, walidacje, automatyczne kontrole.
- Pojedyncze źródło prawdy: pojedynczy RFC/bilet, pojedynczy kalendarz i dziennik działań.
2) Zakres stosowania
Kod produktu (backend/frontend, mobile SDK).
Infrastruktura (IaC, Kubernetes/VM/CDN/Edge).
Dane (diagramy DB, migracje, sklepy/ETL).
Konfiguracje i flagi funkcji.
Integracje (PSP, KYC, dostawcy gier).
Polityka bezpieczeństwa i dostępu.
3) Role i RACI
Zmień odpowiedzialnego właściciela.
Zwolnienie Kurator/RelEng - Release Pociąg Koordynacja.
SRE/Ops - operacja, brama SLO/SLA.
Bezpieczeństwo/Zgodność - Przegląd ryzyka i zgodności.
CAB (Board Advisory Change) - zatwierdzenie zmian normalnych/wysokiego ryzyka.
Zainteresowane strony prowadzące działalność gospodarczą/wsparcie - poinformowano.
4) Klasyfikacja zmian
Standardowe (typowe, wstępnie zatwierdzone): częste, niskie ryzyko, gotowy odtwarzacz (np. aktualizacja flagi, rotacja klucza).
Normalne: Wymagaj RFC, oceny, możliwej CAB, testów i planu wstecznego.
Nagły wypadek: pilne ustalenia dotyczące incydentów P1; minimalna ścieżka biurokratyczna, post-factum review/SAW.
5) Zmień cykl życia
1. Wyzwalacz (RFC): cel, zakres, ryzyko, dotknięte usługi/regiony, plan wycofania.
2. Ocena ryzyka: wpływ × macierz prawdopodobieństwa, wpływ na wartość SLO/zgodność/wartość.
3. Planowanie: okno, zależności, migracje, komunikacja, testy walidacyjne.
4. Walidacja: autotest, analiza statyczna, kontrola bezpieczeństwa, uruchomienie wydajności.
5. Wdrożenie: strategia progresywna (zob. § 8), telemetria i szyny ogrodnicze.
6. Obserwacja: szybkość spalania SLO, wpisy, wskaźniki biznesowe (GGR/NGR, konwersja).
7. Wykonanie: odbiór wyników, aktualizacja dokumentacji, pośmiertne odchylenia.
6) RFC: minimalny skład
Kontekst: dlaczego zmiana, wpływ hipotezy.
Zakres: systemy, regiony, wersje klienta.
Ryzyko: scenariusze macierzy i awarii, promień wybuchu.
Plan wdrożenia: krok po kroku, z kryteriami go/stop.
Plan backout: polecenia/kroki, warunki rozpoczęcia, oczekiwania RTO/RPO.
Plan testu: to, co sprawdzamy przed/po (funkcjonalność, wydajność, bezpieczeństwo).
Komunikacja: kogo informujemy, szablony wiadomości.
Audyt: linki do biletów, zatwierdzeń, artefaktów CI/CD.
7) Zmień kalendarz i okna
Pojedynczy kalendarz: wszystkie wydania, migracje, funkcje wyłączania, wydarzenia zewnętrzne (sport/marketing/wakacje).
Zamrażanie okien: główne sprzedaż/mistrzostwa/godziny szczytu, sprawozdawczość podatkowa.
Polityka ingerencji: zapobieganie sprzecznym zmianom na tych samych ścieżkach krytycznych.
Fale regionalne: najpierw „ciepłe” regiony/niski ruch, potem - główne.
8) Strategie wdrażania technicznego
Kanaryjski: niewielki udział ruchu → porównanie metryk (p95 opóźnienie, błąd%, konwersja).
Niebiesko-zielone: równoległe środowiska, przełączanie trasy atomowej.
Progresywna dostawa: Rollout procentowy z automatycznymi warunkami zatrzymania.
Flagi funkcji: przełączniki funkcyjne, przełącznik kill-switch, A/B.
Dark Launch/Shadow Traffic: sprawdzanie cieni bez wpływu na użytkowników.
Limity etapowe: stopniowy wzrost QPS/konkurencyjności.
Gardrails: automatyczne zatrzymanie po przekroczeniu progów p95/error%, wzrost zwrotów/obciążeń zwrotnych, upadek autoryzacji/depozytów.
9) Zmiany danych i schematu
Kompatybilność: migracje addytywne → kod, który odczytuje zarówno stary, jak i nowy schemat.
Migracje dwufazowe: (1) dodaj nowe pola/indeksy → (2) przełącznik kod → (3) usuń stare.
Weryfikacja umowy: systemy Avro/Protobuf z rejestrem; z powrotem/do przodu kompatybilny.
Migracje o dużej objętości: partie, pauzy, idempotencja, punkty kontrolne i postępy.
Tolerancja katastrofy: test RPO/RTO, migawki, próby odzyskiwania.
Dane BI: zmiana prezentacji/mierników - za pośrednictwem słownika MR/SR i metryki (ID, formuła).
10) Konfiguracja i tajne zarządzanie
Config as Data: konfiguracje wersjonowane, walidacja przez schemat, promocja przez środowisko.
Sekrety: kluczowa rotacja, zasady minimalnych przywilejów, audyt wniosków.
Ograniczenia regionalne: limity/partnerzy (PSP/KYC) - przez parametryzację, a nie przez widelce kodu.
11) Zgodność i audyt (kontekst iGaming)
Ślady zmian: kto/kiedy/co przełączone (flagi, konfiguracje, trasy, migracje).
Segregacja obowiązków: różne role dla autora, recenzenta i deployera (SOX-like).
Raporty regulacyjne: stałe wydania, kontrola wersji rozliczeń (GGR/NGR, premie), kontrola dostępu do PII.
Dostawcy: stałe wersje certyfikatów SDK/dostawcy, zobowiązania SLA.
12) Komunikacja
Szablony alarmowe: przed zwolnieniem (co/kiedy/ryzyko), podczas (stan,% ruch, metryka), po (sumy).
Wiadomości zewnętrzne: banery/strona statusu podczas dotykania klientów.
Koordynacja: # release-war-room kanał, właściciel zwolnienia, częstotliwość aktualizacji.
13) Wskaźniki wydajności
DORA: częstotliwość wdrażania, czas realizacji zmian, wskaźnik awarii zmian (CFR), MTTR.
SLO Impact: Udział czasu w SLO przed/po wydaniach.
Backout Rate - Częstotliwość cofnięć według kategorii zmian.
Zwolnij dług: oczekujące migracje/flagi funkcji w limbo.
Wpływ biznesu: konwersja, KYC TTV, wskaźnik sukcesu PSP, GGR/NGR dryf podczas toczenia.
14) Anty-wzory
Big-bang releases: Wiele zmian na raz - trudno zrozumieć przyczynę regresji.
Migracje niezgodne: usuwanie/zmienianie nazwy pól bez podwójnego odczytu.
Flagi bez właścicieli i terminy usunięcia: „wieczne” gałęzie logiki.
Zwolnienia bez kryteriów telemetrii i zatrzymania: „przez oko” i późne wykrycie uszkodzeń.
Ignorowanie kalendarza: skrzyżowania ze szczytowymi wydarzeniami/kampaniami.
Ręczne kroki bez odtwarzania i audytu: wysoka zmienność i ryzyko.
15) Listy kontrolne
Przed rozpoczęciem (RFC Ready)
- Cel zmiany i KPI są sformułowane
- Ocena ryzyka i promienia wybuchu, wybrana klasa zmian
- Plan wdrożenia i wycofanie są pisane krok po kroku
- Istnieje plan testów i wyniki na scenie/kanarka
- Uaktualnione komunikaty i kalendarz, zgłoszone zainteresowane strony
Podczas walcowania
- p95/błędy% mierniki, sygnały biznesowe i dzienniki są monitorowane w czasie rzeczywistym
- Postępy potwierdzają punkty kontrolne
- Przy pracy szyn ogrodniczych - automatyczny przystanek i wałek
Po
- Wyniki wydania (changelog, wersje, artefakty)
- Pośmiertne odchylenia (≤ 5 dni roboczych)
- Długi (usunięcie bandery, migracja końcowa) są rejestrowane u właścicieli
16) Mini szablony
Szablon RFC (krótki):- Cel/hipoteza
- Zakres i wpływy (usługi, regiony, dane, klienci)
- Wpływ × Środki prawdopodobieństwa i łagodzenia skutków
- Plan kroczący (kroki,% ruch, kryteria go/no-go)
- Plan kopii zapasowej (kroki, RTO/RPO, dane)
- Plan badania (funkcjonalny/wydajność/bezpieczeństwo)
- Komunikacja (kanały, częstotliwość)
- Artefakty (bilety, PR, numery budowy)
- Zmiana: "Płatności-Service v2. 14 + psp_limits migracja"
- Okno: 2025-11-02 00: 00-01: 00 EET
- Dotknięte regiony: UE, LATAM (10% → 50% → 100%)
- Zagrożenia/szyny ogrodnicze: błąd%> 2% 10 min - stop i rollback
- Kontakt: @ Owner, @ SRE-on-call, @ Support-lead
- Wyzwalacze: p95> + 25% 10 min, sukces PSP <97%
- Kroki: (1) ruch − → 0% na v2. 14; (2) przełączać flagi na v2. 13; 3) migracja wsteczna poprzez migawkę/punkt kontrolny; 4) badania dymu; (5) sprawozdanie.
17) Integracja z pociągiem zwalniającym
Zwolnienie pociągu: stałe szczeliny (np. 2 × na tydzień), SLA przy łączeniu.
Polityka Hotfix: indywidualne pociągi/oddziały, szybka ścieżka do prod.
Wersioning: semver, etykiety w artefakcie i środowisku, SBOM.
18) Najważniejsze
Zarządzanie zmianą nie jest hamulcem prędkości, ale mechanizmem bezpiecznego przyspieszania. Klasyfikacja oparta na ryzyku, dobre RFC, stopniowe walcowanie, kompatybilne migracje danych, przejrzysta komunikacja i wymierny efekt przekształcają uwolnienia w zarządzany, powtarzalny i audytowalny proces.