Wartungsfenster

1) Was ist ein „Wartungsfenster“ und warum ist es notwendig

Das Wartungsfenster ist eine im Voraus vereinbarte Zeitspanne für Arbeiten, die sich möglicherweise auf die Verfügbarkeit/Leistung auswirken. Ziel ist ein kontrollierter Wandel mit vorhersehbarem Risiko, transparenter Kommunikation und evidenzbasierter Berichterstattung.

Typen:

Geplant: Releases, Migrationen, Zertifikat-/Schlüsselrotationen, DB/Broker-Upgrades.
Notfall: Dringende Sicherheitsprotokolle/Incident Rollbacks.
Silent/Zero-impact: ohne Benutzereinfluss (versteckte Kanarienvögel, Repliken, parallele Eingabe).
Provider-led: Fenster externer Anbieter (PSP/KYC/CDN/Cloud).

2) Grundsätze

SLO-first: Die Zeit-/Formatentscheidung des Fensters wird über die Auswirkungen auf SLI und Fehlerbudgets getroffen.
Minimaler Explosionsradius: Der Kanarienvogel → schrittweise → vollständige Aufnahme.
Reversibilität: Jede Operation hat einen Backout-Plan und einen verifizierten Rollback.
Eine einzige Quelle der Wahrheit: Fensterkalender + Ticket/RFC mit vollständigem Datenpaket.
Evidence: Sammlung von evidence (Protokolle, Grafiken, Screenshots, Hashes von Artefakten).
SLA-Kommunikation: im Voraus, während der Arbeit, nach Abschluss.

3) Planung: Timing und Reichweite

Fensterauswahl: geringer Traffic, minimaler Impact für wichtige Kohorten (Regionen/VIP/Partner).
Zeitzonen: Erfassen Sie in UTC + die Ortszeit (z. B. Europa/Kyiv).
Blacklout-Perioden: Verbot der Arbeit während der Hauptsaison/Ereignisse (Spiele, Verkäufe, Release „Fenster des Todes“).
Blast radius: klar definieren, wer betroffen ist (Dienste, Regionen, Anbieter).

4) Genehmigungsprozess (RFC/CAB lite)

1. Der Initiator erstellt ein Ticket/RFC mit Risikoanalyse und Plan (siehe Vorlage unten).
2. Risikobewertung (Low/Med/High) und Genehmigung durch den Service Owner + SRE/Sicherheit.
3. Kalender: Slot Reservierung; Konfliktprüfung (andere Fenster/Anbieter).
4. Komma-Plan: vorab vereinbarte Benachrichtigungen und Status-Seite.
5. Go/No-Go-Meeting (in 24-48h) für risikoreiche Änderungen.

5) Vorbereitung: Sicherheitsgates

Kontrollen vor dem Start: erfolgreiche Tests auf dem Stapel, Artefakte unterzeichnet, Gesamtrisiken ≤ zulässig.
Kanarienvogel: 1%→5%→25% nach Kohorte/Region; automatische SLO-Gardrails und Auto-Rollback.
Die Ficha-Fahnen der Degradierung und die Grenzen sind fertig.
Rollback/Backout-Plan in Sandbox geprüft; Rollback-Befehle werden dokumentiert.
Alert-Suppression: Nur für erwartetes Rauschen, SLO-Signale nicht störend.
Zugänge: JIT/JEA Rechnungen für Operationen, Mandatsaudit.

6) Kommunikation (Timing und Inhalt)

T-14/7/2 Tage (geplant): heads-up für Kunden/interne Teams (was/wann/Einfluss/Kontakte).
T-60/30/15 Minuten: Erinnerungen innerhalb und auf der Statusseite.
Während der Arbeit: Updates alle 15-30 Minuten (SEV-abhängig) nach Vorlage: Impact → Stage → Next Update.
Im Anschluss: Finale „Completed/Partially completed/Rolled back“, Änderungsliste, SLO-Check.

7) Durchführung der Arbeiten (Referenzszenario)

1. Freeze ungebundenen Releases.
2. Übergang zu Canary (eingeschränkte Kohorte) → beobachten SLI/Metriken p95/p99.
3. Schrittweise Erhöhung des Anteils bei grünen Gardrails.
4. Überprüfung des Business SLI (Conversion, Erfolg von Zahlungen/Registrierungen).
5. Überprüfung der Funktionalität mit einer Checkliste (happy path + critical scripts).
6. Release/No-Release-Lösung (IC/SRE/Service Owner).
7. Unterdrückung entfernen, Alert-Richtlinien zurückgeben.

8) Nach dem Fenster: Verifizierung und Berichterstattung

Beobachtungsfenster (z.B. 1-24 h): SLO und Fehler nachverfolgen.
Fensterbericht: Was sie taten, Metriken, Abweichungen, Evidence, Total.
Wenn es Probleme gab: AAR→RCA→CAPA (Fix-Regeln, Tests, Dokumentation).
Archiv: Ticket, Artefakte, Signaturen, Prüfsummen.

9) Abstimmung mit externen Anbietern

Bestätigte Slots und Kontakte des Anbieters; Fenster in ihrem Status-System.
Folback/Routing zu einem alternativen Anbieter für den Zeitraum der Arbeiten.
Ein einziger Kriegsraum mit Anbieter (Chat/Bridge) und SLA-Updates.

10) Prozessreifemetriken

On-time rate:% der Fenster, die rechtzeitig gestartet/abgeschlossen wurden.
Änderungsfehlerrate:% der Fenster mit Rollbacks/Auswirkungen auf SLO.
Incident-during-MW: Vorfälle, die sich während eines Fensters ereigneten.
Kommunikation SLA: Anteil der zeitnahen Aktualisierungen.
Evidence completeness:% der Fenster mit vollständigem Beweismaterial.
Kundenwirkung: Beschwerden/Tickets für 1 Fenster, Trend.
Nach 7/30 Tagen: SLO-Stabilität und kein Rezidiv.

11) Checklisten

Vor dem Fenster

RFC/Ticket voll; die Risikobewertung wurde durchgeführt; Besitzer zugewiesen.
Kanarienvogel und Backout-Plan geprüft; Rollback-Befehle getestet.
JIT-Zugänge werden erteilt; Alerts sind konfiguriert (SLOs jammen nicht).
Kalender/Status-Seite und Benachrichtigungen vorbereitet.
Releases/konkurrierende Fenster - eingefroren/verschoben.
Die Anbieter werden bestätigt; Kontakte und SLAs werden aufgezeichnet.

Während der

Upgrades im Zeitplan; war-room ist aktiv.
Gardrails per SLO/Error Peak werden eingehalten; im Falle eines Verstoßes - Auto-Rollback.
Evidence wird gesammelt (Screenshots, Vorher/Nachher-Grafiken, Aktivitätsprotokoll).

Nach

SLO im grünen Bereich während des Beobachtungsfensters.
Abschlussbericht mit evidence; Status-Seite aktualisiert.
CAPAs ausgestellt (wenn es Abweichungen gab); Dokumentation aktualisiert.

12) Vorlagen

RFC-Vorlage pro Wartungsfenster


RFC: MW-2025-11-05-DB-Upgrade
Window: 2025-11-05 00: 00-02: 00 UTC (Europe/Kyiv 02: 00-04: 00)
Service/component: payments-db (PostgreSQL cluster A)
Type: Planned (High)
Target: Upgrade to 15. x for security/bugs
Blast radius: EU region, tenant EU, all write operations
Impact: up to 2 × p99 growth to 400 ms; short-term read-only (≤5 min)
Gardrails: error-rate <0. 5%, p99 <400 ms, SLO not impaired
План: expand→migrate→contract; canary 1 %/5 %/25%; 1..N steps (with commands)
Backout: rolling back replica/slots; TTL DNS does not change; rollback time ≤ 10 min
Suppression: noise of database/replica alerts; SLO alerts are active
Communications: T-7/T-2 days and T-60/15 minutes; war-room #mw-db-a
Owners: @ db-tl, @ sre-ic, @ payments-pm
Evidence: before/after p95/p99 graphs, migration logs, checksums
Risk: High (data) - confirmed by CAB

Vorlage für Client-Benachrichtigungen (kurz)


Topic: Planned work 05. 11. 2025 02:00–04:00 (Europe/Kyiv)
We will update the payment database. Short delays and read-only mode (up to 5 minutes) are possible.
On-call contacts: status. example. com      support@example. com

Suppressionsregeln (Idee)

yaml suppress:
- name: db-maintenance when: window("2025-11-05T00:00Z","2025-11-05T02:00Z")
match: [ "db. replica. lag", "db. connection. reset", "migration. progress" ]
keep: [ "slo. payment. success", "api. availability" ]

13) Besonderheiten für regulierte Domains

Audit-Log ist unveränderlich: Wer hat genehmigt, wer hat ausgeführt, welche Befehle, Hashes von Artefakten.
PII/Finanzen: Maskierung in evidence, eingeschränkter Zugang zu Berichten.
Benachrichtigungsfristen für Kunden und Partner - gemäß den Verträgen.
Provider-Fenster - dokumentiert mit externen SLAs und Kontakten.

14) Anti-Muster

Fenster ohne Backout-Plan und verifiziertes Rollback.
Dämpfung von SLO-Signalen „nur für den Fall“.
Konkurrierende Fenster in derselben Domäne/Region.
Komm-Stille: keine Upgrades „vor/während/nach“.
Manuelle Bearbeitungen in der Produktion ohne Audit und Skripte.
„Endlose“ Fenster aufgrund unsicherer Erfolgskriterien.
Mangel an evidence - nichts, um die Qualität zu bestätigen.

15) Umsetzungsfahrplan (4-6 Wochen)

1. Ned. 1: Geben Sie einen einzigen Kalender und RFC-Vorlage; Bestimmung von Blacklout-Perioden.
2. Ned. 2: Standardisierung der Tore (Kanarienvogel, SLO-Gardrails, Backout).
3. Ned. 3: Automatisieren Sie die Suppression/Release Annotation und die Status-Seite.
4. Ned. 4: Berichterstattung und Reifegradmetriken; wöchentliche MW-Überprüfung.
5. Ned. 5-6: Integration mit Anbietern und Audit-Archiv; Simulation des Hochrisikofensters.

16) Das Ergebnis

Richtig organisierte Wartungsfenster sind überschaubare, reversible und nachweislich sichere Veränderungen. Mit SLO-Gardrails, Kanarienrollen, strenger Kommunikation und einem kompletten Set von evidence verwandelt sich das Fenster von einer „gefürchteten Ausfallzeit“ in einen routinemäßigen Verbesserungsmechanismus ohne Überraschungen für Anwender und Partner.

Wartungsfenster

Während der

Nach

Vorlage für Client-Benachrichtigungen (kurz)

Suppressionsregeln (Idee)

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet