SRE Kultur und Ingenieurprinzipien

1) Was ist SRE-Kultur

SRE-Kultur ist eine Reihe von Werten und Praktiken, die die Zuverlässigkeit beherrschbar machen: SLO-Ziele → Fehler-Budget → bewusste Veränderungsrisiken → schnelle Stabilisierung → Lernen von Vorfällen.
Das Schlüsselparadigma: Geschwindigkeit ≠ der Feind der Zuverlässigkeit. Die Freigabegeschwindigkeit ist möglich, wenn Risiken dosiert und automatisiert werden.

Grundwerte:

User-centric: Wir bezeichnen Zuverlässigkeit so, wie der Nutzer sie sieht (SLI/SLO).
Automation-first: Jede wiederholbare Aktion → Skript/Richtlinie/Controller.
Blamelessness: Fehler sind systemisch, wir untersuchen die Ursachen, nicht die Menschen.
Data-driven: Lösungen basierend auf Metriken und Fehlerbudgets.
Simplicity: einfache, überprüfbare Mechanismen> „magische“ Lösungen.

2) Grundlagen der SRE-Technik

1. SLO/SLI und Fehlerbudget sind die Grundlage für Prioritäten und Alerting.
2. Der Vorfall → die Stabilisierung der RCA- → - zuerst die Symptome, dann die Ursachen.
3. Reduzierung der manuellen Arbeit (toil) - Ziel ≤ 50% der Zeit SRE, mit der Zeit niedriger.
4. Prod Readiness - „Produktionsbereitschaft“ ist vor dem externen Verkehr obligatorisch.
5. Einfachheit und Isolation - weniger Beziehungen, mehr Einschränkungen blast radius.
6. Standard-Beobachtbarkeit - Metriken/Protokolle/Tracks, SLO-Widgets, Synthetik.
7. Die Änderungen werden verwaltet - progressive Lieferung, kanarische Berechnungen, Auto-Rollback.
8. Sicherheit durch Design - Geheimnisse, Zugriffe, Audit, minimale Privilegien.
9. Lernzyklen - Drill, Chaos-Spiele, Post-Mortems, Retrospektiven.
10. FinOps-Achtsamkeit - „Preis der Neunen“, Kosten-zu-dienen, effektive SLOs.

3) Rituale und Prozesse

3. 1 Production Readiness Review (PRR)

Bevor der Datenverkehr aktiviert wird, muss der Dienst Folgendes aufweisen:

SLI/SLO, Dashboards und Alerts (Fast/Slow Burn).
Health-endpoints '/healthz', '/readyz', '/startupz'.
Runbook/playbook Vorfälle, Eigentümer/on-call, escalation Kette.
Backups/DR-Plan, Ressourcenlimits, Budgetberechnungen.
Fehlertoleranztests (Ficha-Flags, Rollback-Szenarien).

3. 2 Wöchentliches SLO-Briefing

Error-Budget-Status nach Diensten.
Vorfälle in einer Woche, CAPA-Fortschritt.
Freigaberisiko: wo erlaubt/begrenzt durch Depla (nach Budget).

3. 3 Postmortem ohne Anklage

Fakten und Zeitlinie, Benutzereinfluss, der geholfen/verhindert hat.
Systemische Ursachen (Prozesse/Tools), nicht „Täter“.
Spezifische CAPAs mit Eigentümern und Fristen, Werbung innerhalb des Unternehmens.

3. 4 Chaos und Drill Spiele

Geplante Fehlerinjektionen (Netzwerk, Datenbank, Cache, Knoten) + Ziel-SLO.
„Game Day“: Zeit für Stabilisierung, MTTR-Messung, Playbook-Anpassung.

4) Alerting und Lärm

Grundsätze:

Alert only on symptoms: SLO oder Benutzerpfad verletzt.
Multi-Fenster, Multi-Burn: schnelle und langsame Kanäle.
Quorum/Anti-Flapping: Verzögerungen 'for', Unterdrückung bei der Wartung.
Nieder mit „CPU> 80%“ - solche Signale in Dashboards, nicht in einem Pager.

Qualitätskennzahl der Alert:

Der Anteil von actionable ≥ 80%.
Median time-to-ack ≤ 5 Minuten (P1).
Pager fatigue: ≤ 1 Nacht pro Woche pro Ingenieur.

5) Änderungsmanagement

Progressive delivery: canary → 10% → 25% → 50% → 100%.
Auto-Rollback über SLO-Signale (Fehler/Latenz).
Feature-Flags und Kill-Switch anstelle des globalen Rollbacks.
Change policy by risk: fast lane для low-risk; CAB ist nur ein hohes Risiko.

Kanarienschrittmuster (ideologisch):

yaml steps:
- setWeight: 10
- analysis: { template: "slo-check" } # fail ⇒ rollback
- setWeight: 25
- analysis: { template: "slo-check" }

6) Reduzierung toil (routinemäßige Handarbeit)

Beispiele für Toil-Quellen: manuelle Deploys, Neustarts, „Give Access“ -Tickets, Säuberung von Warteschlangen.

Der Ansatz:

Inventarisierung wiederholbarer Aufgaben → Automatisierung/Self-Service.
KPI:% der Zeit auf toil, „automatisierte Schritte/Incident“, „Minuten bis zum Self-Service“.
Katalog der Plattformdienste (Namespaces, DB, Warteschlangen, Dashboards, Alerts).

7) Beobachtbarkeit und SLO-erster Entwurf

Golden Signals (latency, traffic, errors, saturation).
SLO-Karten in jedem Team: Ziel, Fenster, Budget, Burn-Alerts.
Drilldown: von Metriken zu Logs/Tracks; 'trace _ id' in den Standardprotokollen.
Synthetik: Blackbox + kopflose Szenarien (Login/Deposit/Checkout).

8) Kapazitätsmanagement und Nachhaltigkeit

Kapazitätsplanung: Ziel RPS/Wettbewerb, Bestand nach AZ/Region.
Bulkhead/Shedding: Isolierung von Pools, Ausfall von sekundären Funktionen zuerst.
Backpressure und Warteschlangen: Lag Control, DLQ, Adaptive Rentability.
Failover und DR: RPO/RTO, regelmäßige DR-Drill.

9) Sicherheit als Teil der Zuverlässigkeit

Secrets: Secret Manager, JIT-Zugriffe, Audit.
WAF/DDoS-Guard am Perimeter, Limits pro Kunde/Tenant.
PII-Minimierung, DSAR/Legal Hold bei Vorfällen.
Supply chain security: Signatur von Artefakten, Grundbildrichtlinie.

10) On-Call-Gesundheit

Rotationen ohne „Singles“, klare Ruhefenster.
Die Schwelle zum „Wecken in der Nacht“ ist nur SLO- P1/P2.
Psychohygiene: Schlafdefizite werden als operationelles Risiko erfasst.
Metriken: Pages/Woche, Night Pages/Ingenieur, Erholungszeit.

11) SRE-Reifegradmetriken

SLO-Abdeckung: Der Anteil kritischer Pfade mit SLO/Alert ≥ 90%.
Error-budget governance: Es gibt Freeze-Regeln und werden angewendet.
Toil: ≤ 30-40% der Zeit, Abwärtstrend.
MTTD/MTTR: Mediane in der vierteljährlichen Dynamik.
Auto-Mitigationsrate:% der Vorfälle mit automatischer Aktion.
PRR-Pass-Rate: Anteil der Prod-Ready-Releases.
Postmortem SLA: SEV-1 - Postmortem ≤ 48 Stunden.

12) Dokumentation und Wissen

Mindestsatz:

Runbooks/Playbooks (Top-Szenarien: 5xx spike, DB lag, Kafka lag, NodeNotReady, TLS).
SLO-Karten und Dashboards.
PRR-Checklisten und Release-Vorlagen.
Katalog der Plattformdienste und OLAs/SLAs.
Schulungsunterlagen: SRE 101, Chaos 101, On-call 101.

13) Anti-Muster

Heldenkultur: „Retter“ statt Systemfixes.
Laute Warnung: CPU/Laufwerke in Pager, Hunderte von unnötigen Signalen.
„DevOps ist menschlich“: Beschmierte Verantwortung, keine Eigentümer.
Das Fehlen von SLO: „alles grün halten“ → das Chaos der Priorität.
Verschobene Postmorteme und „Hexenjagd“.
Globale Pullbacks ohne Kanarienvögel.
Geheimnisse in Config/Repo; keine Aktivitätsprüfung.
Observability als „schöne Grafiken“ ohne actionable Signale.

14) Artefaktmuster

14. 1 SRE-Charta (Fragment)

yaml mission: "Make reliability manageable and economical"
tenets:
- "User - SLI/SLO Center"
- "Automation-first, minimizing toil"
- "Blameless & learning"
governance:
error_budget:
freeze_threshold: 0. 8 # 80% of the budget burned ⇒ release frieze review_cadence: "weekly"
oncall:
paging_policy: "SLO-only, P1/P2 at night"
health_metrics: ["pages_per_week", "night_pages_per_engineer"]

14. 2 Mini-PRR-Checkliste

SLI/SLO und Burn Alerts konfiguriert
Health-endpoints und synthetics
Runbook/playbook + owner/on-call
Rollback/Ficha-Flaggen/Kanarienvogel
Dashboards latency/errors/traffic/saturation
Sicherheitsgrenzen/Quoten/Guardrails
DR-Plan und Backups getestet

15) Umsetzung nach Etappen (4 Sprints)

Sprint 1 - Das Fundament

Definieren Sie kritische Benutzerpfade und SLIs.
SLO formulieren und Burn-Alerts ausführen.
Geben Sie PRR und minimale Playbooks ein.

Sprint 2 - Änderungsmanagement

Kanarische Berechnungen, Auto-Rollback durch SLO.
Self-Service-Operationen, Katalog von Dienstleistungen.
Toil-Inventar und Automatisierungsplan.

Sprint 3 - Trainingszyklen

Ein Postmortem-Ritual, ein Chaos-Spielkalender.
SLO Dashboards + Incidents, error-budget reporting.

Sprint 4 - Optimierung und Skalierung

SLO-Portfolio, FinOps „Kosten pro 9“.
Einführung der DR-Disziplin, Sicherheitsaudit.
KPI des On-Call, Burnout-Prävention.

16) Mini-FAQ

SRE = „alles reparieren“?
Nein. SRE betreibt ein Zuverlässigkeitssystem: SLO, Alerting, Prozesse, Automatisierung und Training.

Wie kann man Unternehmen davon überzeugen, in Zuverlässigkeit zu investieren?
Zeigen Sie ROIs: sinkende MTTRs, steigende Conversions, weniger SLA-Credits, weniger Cost-to-Serve, stabile Releases.

Benötigen Sie separate SRE-Teams?
Hybridmodell: Strategisches SRE in der Plattform + embedded-SRE in kritischen Produkten.

Summe

SRE-Kultur ist keine Position, sondern eine Möglichkeit, mit Risiken umzugehen: SLO → Fehlerbudget → kontrollierter Wandel → Automatisierung → Lernen. Fixieren Sie die Prinzipien, starten Sie Rituale (PRR, Postmortems, Chaos-Spiele), schießen Sie Toil, bauen Sie die „Standard“ -Beobachtbarkeit auf und kümmern Sie sich um den Call. So erhalten Sie eine stetige Entwicklungsgeschwindigkeit, vorhersehbare Releases und eine zuverlässige, kostengünstige Plattform.

SRE Kultur und Ingenieurprinzipien

Sprint 2 - Änderungsmanagement

Sprint 3 - Trainingszyklen

Sprint 4 - Optimierung und Skalierung

Summe

Kontakt aufnehmen

Schneller Kontakt

Das Video wird bald aktualisiert

Wir sind derzeit sehr stark ausgelastet