Centralna deska rozdzielcza
1) Cel i zasady
Centralna deska kontrolna (zwana dalej CDU) jest jednym oknem do podejmowania decyzji w operacjach. Agreguje sygnały z telemetrii, ITSM, CI/CD, katalogu usług, kalendarza pracy i dostawców, przekształcając je w aktywne widżety.
Zasady:- SLO-first: top - target SLO i szybkość spalania według Tier-0/1.
- Jedno kliknięcie do akcji: od widżetu - do playboooka/runbooka lub biletu.
- Jednolity słownik: ten sam SEV, statusy, kolory i progi.
- Adnotacje zdarzeń: wydania/konfiguracje/okna na wszystkich wykresach.
- Role i uprawnienia: osobiste opinie (dyżur, IC, zarządzanie).
- Niski poziom hałasu - kworum źródłowe, deduplikacja i okna.
2) Role i kluczowe scenariusze
Dyżur (P1/P2): szybko zrozumieć „co jest włączone” i otworzyć playbook (≤ 1 kliknięcie).
IC: ogłosić SEV, rozpocząć wojnę-pokój tryb, kadencja kontroli com-aktualizacje.
Menedżer wydania: zobacz bramy, postęp kanaryjski, gotowość rolki.
Usługodawca/Produkt: business SLI (sukces płatności/rejestracji), wpływ funkcji.
SRE/Platform: pojemność, autoskale, anomalie, gotowość DR.
FinOps: $/unit, overspending, alerty budżetowe.
Bezpieczeństwo/Prawo: postawa, certyfikaty kluczy, okna rotacyjne, linki audytu WORM.
3) Architektura informacji CDA
Górna półka (panel bohatera):- SLO ма Tier-0/1 (dostępność/opóźnienie/sukces) α burn-rate 2-окна.
- Status SEV: aktywne incydenty i ich harmonogram.
- Status wydania: kanaryjski/niebiesko-zielony, aktywne bramy.
- Dostawcy sygnalizacji świetlnej (PSP/KYC/CDN).
- Okna konserwacyjne (teraz/24h), karta tłumienia.
- Pojemność: CPU/RAM/IO/queue-depth/p95 opóźnienie z prognozą.
- FinOps: $/1k txn, dzienne wydawanie vs budżet, anomalie głośności dziennika.
- Ops: świeżość prezentacji, rurociągi SLA, błędy DQ.
- Bezpieczeństwo: termin certyfikatu, tajny obrót, luki krytyczne (wiek/SLA).
- Korelacje „uwolnij, SLO”, „dostawca, porażka/opóźnienie”.
- Szybkie linki: dzienniki, trasy, bilety, playbooks, SOP, matryca eskalacyjna.
4) Widżety (zestaw referencyjny)
1. Szybkość spalania i SLO
Pokazuje bieżący SLI, docelowe i błędne zużycie budżetu (1h/6h).
Działanie: otwórz playbook degradacji usługi.
2. Incydenty (panel SEV)
Aktywne/Ostatnie, Deklaruj/Koms Timers, Role IC/Comms.
Akcja: otwarty pokój wojenny, szablon aktualizacji, lista kontrolna IC.
3. Wydania/konfiguracje
Kanaryjski 1 → 5 → 25%, flagi, zwrot (przycisk/łącze SOP).
Adnotacje: wersja, popełnienia, autor.
4. Okna konserwacyjne
Bieżące/nadchodzące, usługi/regiony dotknięte skutkami; maska tłumiąca.
Działanie: Koordynuj powiadomienia, włącz osłony SLO.
5. Pojemność/Autoskale
Prognoza zużycia (Naive/AR), hotspot-card, ciepły basen.
Działanie: wnioski o kontyngenty/zasady skali (PR do polityki repo).
6. FinOps
$/unit, top „drogie” zapytania/dzienniki, dzienne oparzenia vs budżet.
Działanie: otwórz raport i zalecenie (dzienniki pobierania próbek, archiwa).
7. Dostawcy
Stan SLA/PSP/KYC/CDN, wagi trasy, gotowość folback.
Działanie: przełączyć wagę, szablon komunikacji do partnerów.
8. Bezpieczeństwo
Certyfikaty (≤ 30d), opóźnienia rotacji, luki (wiek), podejrzane zdarzenia.
Akcja: otwarty odtwarzacz IR/bilet.
9. Środki pomocnicze
Świeżość okna, pomiń procent, awaria rurociągu, DLQ.
Akcja: Backfill/quarantine/rollback transformation.
5) Państwa/kolory/progi (odniesienie)
Zielony: SLI w obrębie celu, szybkość spalania <1 ×.
Bursztyn: SLI degraduje się, szybkość spalania 1-2 ×, wzrost p95, ale jest obrót.
Czerwony: naruszenie lub prognostyczne wypalenie <1h; otwórz SEV-1/0.
Szary: tłumienie, brak telemetrii (błąd źródłowy).
6) Adnotacje i korelacje
Statusy Release/config/window/provider są wyświetlane na wykresach SLO.
Kliknij na → różnica marker, autor, bramy, Rollback/Folback/SOP przycisk.
W incydencie, linia czasu jest zbudowana z adnotacji i działań ChatOps.
7) Źródła danych i weryfikacja
Telemetria: mierniki/ścieżki/kłody z trace_id.
ITSM: incydenty/problemy/zmiany (statusy/SLA).
CI/CD: wydania, podpisy, artefakty, testy.
Katalog usług/CMDB: właściciele, SLO, zależności.
Kalendarz: okna konserwacji.
Dostawcy: status-API + ręczne potwierdzenia (lądowanie w osobnej prezentacji).
FinOps: billing/resource tags, log volumes, egress.
Kontrola jakości: kworum, duplikaty sond, świeżość SLA, wpisy do „głupich” źródeł.
8) Tryby wyświetlania
Pokój wojenny: stały układ SLO/Incydenty/Wydania/Timer Comms.
Wykonawczy (28 dni): trendy MTTR/MTTD/SEV mix, $/unit, SLO-adherence.
Dyżur: kompaktowy panel "noc' (tryb ciemny, duże liczby).
Wielopoziomowy/region: usługa/region/filtry najemców; ustawienia wstępne.
9) Nawigacja i działania (jedno kliknięcie)
Przyciski: '/declare sev1 ', '/freeze', '/rollback ', '/status update', 'open playbook'.
Wiertarka: SLO → wykres → kłody/ścieżki z filtrami wstępnie napełnionymi (trace_id, release_id).
Udostępnianie: migawka paneli w bilecie/stronie stanu.
10) Bezpieczeństwo, dostęp, audyt
SSO/OIDC + RBAC/ABAC: role i zakresy (view/action).
JIT/JEA: „Niebezpieczne” działanie jest dostępne tylko z tymczasowym podwyżką.
Audyt niezmienny: kto nacisnął co, które żądania/polecenia pozostały.
Sekrety: nie wyświetlane, tylko linki do tajnego menedżera.
11) Wskaźniki dojrzałości CDU
Aktywność ≥ 90%: Kliknięcia prowadzą do działań, nie tylko wykresów.
Czas do pierwszego działania ≤ 2 min od CCD podczas SEV-1/0.
Odsetek incydentów, w których CDU było „źródłem prawdy” ≥ 95%.
Świeżość widżetów:% z danymi „świeże 5 minut”.
Zasięg:% usług krytycznych z kart SLO i adnotacji wydania.
Zero-ślepe punkty: ciche źródła na tydzień = 0.
12) Listy kontrolne
Projekt
- Opisano role i skrypty (P1/P2/IC/Exec/FinOps/Security/KeyOp).
- Słownik koloru/SEV/progu jest spójny.
- Źródła z kworum i świeżości SLA.
- Pokoje wojenne/dyżury/układy wykonawcze.
- Plan integracji ChatOps/ITSM/CI/CD/CMDB.
Operacja
- Widżety przechodzą liniowiec (wymagane pola, właściciel, progi).
- Raz w tygodniu - Escalation/Alert Review z ulepszeniami DPC.
- Migawki incydentów są dołączone do AAR/RCA.
- Dark Mode/Mobile Duty Preset.
- Badania źródeł „niemych” i poprawności adnotacji.
13) Szablony (pomysły)
13. 1 Definicja widgetu (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Karta incydentu (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Połączenie z wydaniem
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. Widget 4 FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Anty-wzory
„Ściana wykresów” bez akcji i odtwarzaczy.
Różne kolory/progi na poleceniach → zamieszanie w SEV.
Brak adnotacji o zwolnieniu/oknie - skomplikowana korelacja przyczynowa.
Powielane źródła bez kworum są fałszywe Page/hałas.
Sekrety/klucze na panelu - ryzyko wycieku.
Powolny render (żądania/agregacje nie są buforowane) - panele nie są otwierane w walce.
15) Plan działania na rzecz realizacji (4-8 tygodni)
1. Ned. 1: zbiór wymagań według ról, słownik statusów/kolorów, układy trzech trybów.
2. Ned. 2: SLO/Incydenty/Wydania/Połączenie z systemem Windows, adnotacje, akcje ChatOps.
3. Ned. 3: Dodaj FinOps/Capacity/Providers/KeyOps/Security, kworum źródeł.
4. Ned. 4: Tryb pokoju wojennego, migawki w ITSM, pilot na Tier-0.
5. Ned. 5-6: optymalizacja wydajności, ustawienie wstępne telefonu komórkowego/dyżurnego, liniowiec widżetowy.
6. Ned. 7-8: wskaźniki dojrzałości, przegląd tygodniowy, zalecenia automatyczne (dzienniki pobierania próbek, kwoty, folback).
16) Sedno sprawy
Płyty CDU nie są „pięknymi wykresami”, ale panelem rozwiązań: SLO i szybkość spalania z góry, incydenty/wydania/okna w jednym kontekście, natychmiastowe działania za pośrednictwem ChatOps i SOP, potwierdzone źródła i adnotacje. Ta deska rozdzielcza zmniejsza MTTA/MTTR, upraszcza komunikację, obsługuje FinOps i sprawia, że operacja jest przejrzysta i przewidywalna.