Ρόλοι και αρμοδιότητες στις επιχειρήσεις
1) Γιατί επισημοποιούνται οι ρόλοι
Η σαφής κατανομή ρόλων μειώνει την MTTA/MTTR, εξαλείφει τις γκρίζες περιοχές, επιταχύνει τις εκλύσεις και καθιστά την SLO/συμμόρφωση αναπαραγώγιμη. Ρόλοι = ευθύνη + αρχή + διεπαφές (σε ποιον γράφουμε, σε ποιον κλιμακώνουμε, ποιες αποφάσεις επιτρέπονται).
2) Βασικό μοντέλο RACI
R (Υπεύθυνος) - εκτελεί το έργο.
A (υπόλογος) - φέρει την τελική ευθύνη και λαμβάνει αποφάσεις.
C (Συμβουλευόμενος) - εμπειρογνώμονας, με διαβούλευση πριν/κατά τη διάρκεια.
I (Ενημερώθηκε) - ενημερώθηκε από την SLA.
3) Κατάλογος ρόλων (περιγραφές και αρμοδιότητες)
3. Διοικητής συμβάντων (IC)
Σκοπός: Οδηγεί την απάντηση στο SEV-1/0 περιστατικό.
Αρχή: δήλωση SEV, έκλυση παγώματος, αλλαγή κυκλοφορίας, κλιμάκωση.
Κύρια καθήκοντα: χρονοδιάγραμμα, λήψη αποφάσεων, διατήρηση εστίασης, κατανομή καθηκόντων, Go/No-Go.
Τεχνουργήματα: κάρτα συμβάντος, ενημερώσεις SLA, τελικό ΕΣΕ.
3. 2 P1/P2 εφημερίας (πρωτοβάθμια/δευτεροβάθμια)
Στόχος: αρχική αντίδραση και τεχνικές δράσεις.
P1: triage, running playbooks, επικοινωνία με το IC.
P2: εφεδρικές, περίπλοκες αλλαγές, συγκράτηση του πλαισίου, σε καταιγίδες - παίρνει υποστρώματα.
3. 3 Μηχανικός SRE/πλατφόρμας
Σκοπός: Αξιοπιστία πλατφόρμας και κιγκλίδωμα (SLO, ειδοποιήσεις, GitOps, autoscale, DR).
Καθήκοντα: SLI/SLO, υγιεινή συναγερμού, προοδευτικές εκλύσεις, υποδομή ως κώδικας, χωρητικότητα, παρατηρησιμότητα.
Κατά τη διάρκεια του συμβάντος: ριζική διάγνωση, rollbacks/folbacks, υποβάθμιση-UX ενεργοποιημένη.
3. 4 Ιδιοκτήτης υπηρεσίας/ιδιοκτήτης προϊόντος
Σκοπός: ποιότητα των υπηρεσιών από επιχειρηματική άποψη.
Καθήκοντα: καθορισμός SLO/προτεραιοτήτων, συντονισμός απελευθερώσεων/παραθύρων, συμμετοχή σε Go/No-Go.
Comms: Αποφασίζει πότε και τι να πει στους πελάτες μαζί με τις Comms.
3. Διαχειριστής απελευθέρωσης 5
Σκοπός: Ασφαλής παράδοση αλλαγής.
Καθήκοντα: ενορχήστρωση απελευθερώσεων, έλεγχος πυλών, καναρίνι/μπλε-πράσινο, σχολιασμοί απελευθερώσεων, πάγωμα για περιστατικά.
3. 6 Καρέκλα/Διαχειριστής αλλαγής θαλάμου επιβατών
Σκοπός: Διαχείριση κινδύνων αλλαγής
Καθήκοντα: διαδικασία RFC, σχέδιο/backout, χρονοδιάγραμμα συγκρούσεων, εγκρίσεις υψηλού κινδύνου.
3. 7 Επικεφαλής/Διαχειριστής προβλημάτων RCA
Σκοπός: ενημέρωση μετά το συμβάν, CAPA.
Στόχοι: χρονοδιάγραμμα, αποδεικτική αιτιώδης συνάφεια, δράσεις για τη διόρθωση/πρόληψη, έλεγχος D + 14/D + 30.
3. 8 Ασφάλεια (IR Lead, AppSec/CloudSec)
Σκοπός: Ασφάλεια και αντιμετώπιση συμβάντων.
Καθήκοντα: triage security events, βασική εναλλαγή, απομόνωση, εγκληματολογία, κανονιστικές κοινοποιήσεις, έλεγχος WORM.
3. 9 DataOps/Analytics
Σκοπός: Αξιοπιστία των δεδομένων και των αγωγών.
Στόχοι: φρεσκάδα/ποιότητα (DQ), συμβάσεις δεδομένων, γενεαλογία, backfills, SLA BI/εκθέσεις.
3. 10 FinOps
Σκοπός: διαχειριζόμενη αξία.
Καθήκοντα: ποσοστώσεις/όρια, εκθέσεις $/μονάδα, πύλες του προϋπολογισμού, βελτιστοποιήσεις (όγκοι καταγραφής, έξοδος, κράτηση).
3. 11 Συμμόρφωση/Νομική
Σκοπός: Κανονιστική και συμβατική συμμόρφωση.
Καθήκοντα: όροι κοινοποίησης, διατήρηση/σταθερότητα των αποδεικτικών στοιχείων, συντονισμός των δημόσιων κειμένων.
3. 12 Υποστήριξη/Κοινότητες
Σκοπός: επικοινωνία με πελάτες/εσωτερικούς ενδιαφερομένους.
Καθήκοντα: σελίδα κατάστασης, παραποιήσεις επικαιροποιήσεων, συχνότητα και σαφήνεια μηνυμάτων, συλλογή ανατροφοδότησης.
3. Διαχειριστής Προμηθευτή/Ιδιοκτήτης Προμηθευτή
Σκοπός: Σχέσεις με εξωτερικούς παρόχους (PSP/KYC/CDN κ.λπ.).
Καθήκοντα: κλιμάκωση, SLA/OLA, εφεδρικές διαδρομές, συντονισμός παραθύρων.
4) Ρόλοι στη στροφή και την κλιμάκωση
Μετατόπιση: P1/P2 + IC-of-the-day (μην συνδυάζεστε με P1).
Χρονική κλιμάκωση: P1→P2 (5 λεπτά χωρίς άκρο) → IC (10 λεπτά) → Διαχειριστής υπηρεσίας (15 λεπτά).
Ήσυχες ώρες: P2/P3 σήματα δεν ξυπνούν. σήματα ασφαλείας - πάντα.
5) Διεπαφές αλληλεπιδράσεων (με ποιον και πώς)
Διαχειριστής απελευθέρωσης IC: λύσεις ψύξης/ανατροπής.
IC-Comms: επικαιροποίηση κειμένων και συχνότητας.
SRE ↔ DataOps: business SLI (επιτυχία πληρωμών, φρεσκάδα δεδομένων) σε SLO-gardrails.
Ασφάλεια ↔ Νομική: αναφορές συμβάντων που αφορούν την ασφάλεια, περίοδοι κοινοποίησης.
Ιδιοκτήτης πωλητή ↔ IC: καθεστώς παρόχου, switchover/folback.
6) KPI ανά ρόλο (σημεία αναφοράς)
IC: Time-to-Declare, Comms SLA συμμόρφωση, MTTR έως το SEV-1/0.
: MTTA, Time-to-First-Action,% ακολουθούν playbooks.
SRE/Πλατφόρμα: SLO κάλυψη, Alert Υγιεινή,% auto-rollbacks επιτυχής.
Διαχειριστής απελευθέρωσης: Change Failure Rate, On-time windows, Mean Rollback Time.
Μόλυβδος RCA: Μεταθανάτιος χρόνος αιχμής, ολοκλήρωση/υπέρβαση CAPA, επανέναρξη ≤ 5-10%.
Ασφάλεια: Μέση ώρα για περιορισμό, μυστικός/Cert χρόνος εναλλαγής.
DataOps: Freshness SLO Adherence, Success Rate Backfills.
Κοινότητες: Ακρίβεια κατάστασης, ποσοστό καταγγελίας/περιστατικό.
FinOps: $/μονάδα,% εξοικονόμηση QoQ, συμμόρφωση ποσοστώσεων.
7) Υποδείγματα καρτών ρόλων
7. 1 IC Κάρτα
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 κάρτα
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Κάρτα διαχειριστή απελευθέρωσης
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Διαδικασίες και συμμετοχή ρόλων (περίληψη)
A - Υπόλογος, R - Υπεύθυνος, C - Συμβουλευμένος, I - Ενημερωμένος.
9) Κατάλογοι ελέγχου
9. 1 Ανάθεση ρόλων
- Κάθε ρόλος έχει έναν ιδιοκτήτη, ένα υποκατάστατο και μια περιοχή κάλυψης.
- Περιγράφονται οι εγκρίσεις (ποιες αποφάσεις μπορούν να ληφθούν).
- Δεμένα βιβλία και συνδέσμους.
- Δημοσιευμένες SLA από αντίδραση/comms.
- Ο ρόλος είναι διαθέσιμος στο CMDB για κάθε υπηρεσία.
9. 2 Βάρδια και παράδοση
- Ενημερωμένη κάρτα βάρδιας (ενεργά περιστατικά, κίνδυνοι, παράθυρα).
- Η JIT/JEA έχει επαληθευτεί.
- Μήνυμα ηχώ στο κανάλι «αλλαγή αποδεκτή/περασμένη».
9. 3 Μετά το συμβάν
- Διεξάγεται ΕΣΕ, έχει ανατεθεί στην RCA.
- CAPA με ιδιοκτήτες/προθεσμίες, D + 14/D + 30 έλεγχος.
- Ενημερωμένα βιβλία/ειδοποιήσεις/πολιτικές.
10) Αντι-μοτίβα
Ασαφές «ποιος αποφασίζει» → καθυστερήσεις και διπλές προσπάθειες.
IC σε συνδυασμό με P1 - απώλεια ηγεσίας.
Δημόσιες κοινοπραξίες χωρίς συμφωνία με τις νομικές/κοινοτικές αρχές.
Μια κυκλοφορία χωρίς Release Manager και πύλες → ανάπτυξη CFR.
Καμία δέσμευση ρόλων (ασθένεια/άδεια).
«Ηρωισμός» αντί της διαδικασίας: σώζουμε χειροκίνητα, αλλά δεν φτιάχνουμε το κιγκλίδωμα.
Οι ρόλοι δεν αντικατοπτρίζονται στον κατάλογο CMDB/Service → χαμένες κλιμακώσεις.
11) Ενσωμάτωση σε εργαλεία
ChatOps: команды '/who oncall ', '/declare sev1', '/freeze ', '/rollback', '/status update '.
Κατάλογος/CMDB: η υπηρεσία διαθέτει ιδιοκτήτη, εφημερία, SLO, ταμπλό, βιβλία παιχνιδιών, παράθυρα.
Κωδικός συναγερμού: Κάθε σελίδα έχει έναν ιδιοκτήτη και ένα προκαθορισμένο βιβλίο παιχνιδιού.
GitOps: Οι λύσεις IC/Release αντικατοπτρίζονται στις σημειώσεις και τα εισιτήρια.
12) Μετρήσεις ωριμότητας κατανομής ρόλων
Κάλυψη ρόλων στους καταλόγους: ≥ 100% των κρίσιμων υπηρεσιών.
SLA εφημερίας: Ack p95 ≤ 5 λεπτά. Σελίδα Καταιγίδα p95 υπό έλεγχο.
Μεταθανάτια SLA: σχέδιο ≤ 72h; Ολοκλήρωση CAPA ≥ 85%.
Μεταβολή της διακυβέρνησης:% μεταβολές υψηλού κινδύνου με RFC/CAB ≥ 95%.
Κοινότητες: τήρηση ≥ 95%, ποσοστό καταγγελίας ↓ QoQ.
13) Μίνι υποδείγματα
13. 1 RACI για υπηρεσία (αρχείο σε repo)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. Προφίλ ρόλων (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Η ουσία
Οι πράξεις είναι ισχυρές όταν οι ρόλοι είναι διαφανείς, ενισχυμένοι και ενσωματωμένοι σε εργαλεία. Ο κατάλογος ρόλων, RACI, σαφείς διεπαφές και μετρήσεις για κάθε ρόλο μετατρέπουν τα περιστατικά, τις κυκλοφορίες και τις αλλαγές σε διαδικασίες διαχείρισης: οι αποφάσεις λαμβάνονται γρήγορα, οι κίνδυνοι ελέγχονται και οι χρήστες βλέπουν μια σταθερή υπηρεσία.