Ταμπλό κεντρικού ελέγχου
1) Σκοπός και αρχές
Το κεντρικό ταμπλό ελέγχου (εφεξής «CDU») αποτελεί ενιαία θυρίδα για τη λήψη αποφάσεων κατά τη λειτουργία. Συγκεντρώνει σήματα από τηλεμετρία, ITSM, CI/CD, κατάλογο υπηρεσιών, ημερολόγιο εργασίας και παρόχους, μετατρέποντάς τα σε ενεργά widgets.
Αρχές:- SLO-πρώτα: top - στόχος SLO και ρυθμός καύσης ανά Tier-0/1.
- Ένα κλικ στη δράση: από το widget - στο βιβλίο παιχνιδιών/runbook ή το εισιτήριο.
- Ενοποιημένο λεξικό: το ίδιο SEV, status, χρώματα και κατώφλια.
- Σημειώσεις γεγονότων: κυκλοφορίες/ρυθμίσεις/παράθυρα σε όλα τα γραφήματα.
- Ρόλοι και άδειες: προσωπικές απόψεις (εφημερία, ΣΔ, διοίκηση).
- Χαμηλός θόρυβος - απαρτία πηγής, αποπάγωση και παραθύρους.
2) Ρόλοι και βασικά σενάρια
Εφημερία (P1/P2): γρήγορα κατανοήστε «τι υπάρχει» και ανοίξτε το βιβλίο παιχνιδιού (≤1 κάντε κλικ).
IC: δηλώστε το SEV, το start war-room-mode, το control cadence των com-updates.
Διαχειριστής απελευθέρωσης: βλέπε πύλες, πρόοδος καναρινιού, ετοιμότητα ανατροπής.
Ιδιοκτήτης/προϊόν: επιχείρηση SLI (επιτυχία των πληρωμών/καταχωρίσεων), αντίκτυπος των χαρακτηριστικών.
SRE/Πλατφόρμα: χωρητικότητα, αυτόματη κλίμακα, ανωμαλίες, ετοιμότητα DR.
FinOps: $/μονάδα, υπερωρίες, ειδοποιήσεις για τον προϋπολογισμό.
Ασφάλεια/Νομική: στάση, βασικά πιστοποιητικά, παράθυρα περιστροφής, συνδέσεις ελέγχου WORM.
3) Αρχιτεκτονική πληροφοριών CDA
Πάνω ράφι (πίνακα ήρωα):- SLO по Tier-0/1 (διαθεσιμότητα/καθυστέρηση/επιτυχία) с ρυθμός καύσης 2- окна.
- Κατάσταση SEV: ενεργά περιστατικά και το χρονοδιάγραμμά τους.
- Κατάσταση απελευθέρωσης: καναρίνι/μπλε-πράσινες, ενεργές πύλες.
- Πάροχοι φώτων κυκλοφορίας (PSP/KYC/CDN).
- Παράθυρα συντήρησης (τώρα/24 ώρες), κάρτα καταστολής.
- Χωρητικότητα: CPU/RAM/IO/queue-depth/p95 καθυστέρηση με πρόβλεψη.
- FinOps: $/1k txn, καθημερινή δαπάνη έναντι προϋπολογισμού, ανωμαλίες όγκου καταγραφής.
- DataOps: φρεσκάδα εκθέσεων, αγωγοί SLA, λάθη DQ.
- Ασφάλεια: όρος πιστοποιητικού, μυστική εναλλαγή, κρίσιμα τρωτά σημεία (ηλικία/SLA).
- Συσχετίσεις «απελευθέρωση ↔ SLO», «παρόχου ↔ αστοχίας/καθυστέρησης».
- Γρήγοροι σύνδεσμοι: κούτσουρα, μονοπάτια, εισιτήρια, βιβλία αναπαραγωγής, SOP, μήτρα κλιμάκωσης.
4) Γραφικές παραστάσεις (σύνολο αναφοράς)
1. Ποσοστό SLO & καύσης
Εμφανίζει την τρέχουσα κατανάλωση SLI, στόχου και σφάλματος (1h/6h).
Δράση: άνοιγμα του playbook υποβάθμισης υπηρεσίας.
2. Περιστατικά (πίνακας SEV)
Ενεργός/πρόσφατη, δηλώνει/Comms Timers, IC/Comms Roles.
Δράση: ανοιχτή αίθουσα πολέμου, ενημερωμένο πρότυπο, λίστα ελέγχου IC.
3. Έκδοση/Ρυθμίσεις
Κανάριο 1→5→25%, σημαίες, rollback (κουμπί/σύνδεσμος SOP).
Σημειώσεις: έκδοση, δεσμεύσεις, συγγραφέας.
4. Παράθυρα συντήρησης
Τρέχουσες/επικείμενες, επηρεαζόμενες υπηρεσίες/περιφέρειες· μάσκα καταστολής.
Δράση: Συντονίστε τις κοινοποιήσεις, ενεργοποιήστε τους φρουρούς SLO.
5. Χωρητικότητα/Αυτόματη κλίμακα
Πρόβλεψη κατανάλωσης (Naive/AR), κάρτα hotspot, θερμή δεξαμενή.
Δράση: ζητούν κανόνες ποσοστώσεων/κλίμακας (PR για την πολιτική επαναγοράς).
6. FinOps
$/μονάδα, κορυφαία «ακριβά» ερωτήματα/αρχεία καταγραφής, ημερήσια καύση έναντι προϋπολογισμού.
Δράση: άνοιγμα της έκθεσης και σύσταση (αρχεία καταγραφής δειγματοληψίας, αρχεία).
7. Πάροχοι υπηρεσιών
SLA/PSP/KYC/CDN κατάσταση, βάρος διαδρομής, ετοιμότητα αναδρομής.
Δράση: αλλαγή βάρους, πρότυπο επικοινωνίας σε εταίρους.
8. Ασφάλεια
Πιστοποιητικά (≤30d), καθυστερήσεις στην εναλλαγή, τρωτά σημεία (ηλικία), ύποπτα γεγονότα.
Δράση: Ανοικτό βιβλίο/εισιτήριο IR.
9. DataOps
Φρεσκάδα παραθύρου, ποσοστό παράλειψης, βλάβη αγωγού, DLQ.
Δράση: Μετατροπή backfill/καραντίνας/rollback.
5) Κράτη/χρώματα/κατώτατα όρια (παραπομπή)
Πράσινο: SLI εντός του στόχου, ρυθμός καύσης <1 ×.
Κεχριμπάρι: SLI υποβαθμίζεται, ρυθμός καύσης 1-2 ×, p95 ανάπτυξη, αλλά υπάρχει μια εργασία γύρω.
Κόκκινο: παραβίαση ή προγνωστική καύση <1h. ανοικτή SEV-1/0.
Γκρι: καταστολή, μη τηλεμετρία (σφάλμα πηγής).
6) Σχολιασμοί και συσχετισμοί
Οι καταστάσεις απελευθέρωσης/ρύθμισης/παραθύρου/παρόχου εμφανίζονται στα γραφήματα SLO.
Κάντε κλικ στον → δείκτη diff, συγγραφέα, πύλες, κουμπί Rollback/Folback/SOP.
Στο περιστατικό, το χρονοδιάγραμμα έχει κατασκευαστεί από σημειώσεις και ενέργειες της ChatOps.
7) Πηγές δεδομένων και επαλήθευση
Τηλεμετρία: μετρήσεις/μονοπάτια/αρχεία καταγραφής με trace_id.
ITSM: Περιστατικά/Θέματα/Αλλαγές (Statuses/SLA).
CI/CD: εκλύσεις, υπογραφές, τεχνουργήματα, δοκιμές.
Κατάλογος υπηρεσιών/CMDB: ιδιοκτήτες, SLO, εξαρτήσεις.
Ημερολόγιο: παράθυρα συντήρησης.
Πάροχοι: χειροκίνητες επιβεβαιώσεις κατάστασης-API + (προσγείωση σε ξεχωριστή βιτρίνα).
FinOps: ετικέτες τιμολόγησης/πόρων, όγκοι καταγραφής, έξοδος.
Έλεγχος ποιότητας: απαρτία, διπλοί καθετήρες, φρεσκάδα SLA, προειδοποιήσεις για «χαζές» πηγές.
8) Τρόποι εμφάνισης
Αίθουσα πολέμου: σταθερή διάταξη SLO/Περιστατικά/Απελευθερώσεις/Comms-timer.
Εκτελεστικό όργανο (28 ημέρες): τάσεις μείγμα MTTR/MTTD/SEV, $/μονάδα, εμμονή SLO.
Εφημερία: συμπαγής πίνακας «νύχτας» (σκοτεινή λειτουργία, μεγάλοι αριθμοί).
Πολυπληθής/περιφέρεια: φίλτρα υπηρεσίας/περιφέρειας/ενοικιαστή· προεπιλογές.
9) Πλοήγηση και δράσεις (ένα κλικ)
Κουμπιά: '/δηλώστε sev1 ', '/πάγωμα', '/rollback ', '/ενημέρωση κατάστασης', 'open playbook'.
Τρυπάνι - ดาวn: SLO → γράφημα → κούτσουρα/μονοπάτια με προγεμισμένα φίλτρα (trace_id, release_id).
Κοινή χρήση: στιγμιότυπο πινάκων σε σελίδα εισιτηρίου/κατάστασης.
10) Ασφάλεια, πρόσβαση, λογιστικός έλεγχος
SSO/OIDC + RBAC/ABAC: ρόλοι και πεδία εφαρμογής (προβολή/δράση).
JIT/JEA: Η «επικίνδυνη» δράση διατίθεται μόνο με προσωρινή αύξηση.
Έλεγχος αμετάβλητος: ποιος πίεσε τι, ποια αιτήματα/εντολές απέμειναν.
Μυστικά: δεν εμφανίζονται, μόνο σύνδεσμοι με τον μυστικό διαχειριστή.
11) Μετρήσεις διάρκειας CDU
Δυνατότητα δράσης ≥ 90%: Τα κλικ οδηγούν σε ενέργειες, όχι μόνο σε γραφήματα.
Time-to-First-Action ≤ 2 λεπτά από CCD κατά τη διάρκεια του SEV-1/0.
Το ποσοστό των περιστατικών όπου η CDU ήταν «πηγή αλήθειας» ≥ 95%.
Φρεσκάδα γραφικών συστατικών:% με δεδομένα «φρέσκα 5 λεπτά».
Κάλυψη:% των κρίσιμων υπηρεσιών με κάρτες SLO και δημοσιοποίηση σημειώσεων.
Μηδενικά τυφλά σημεία: σιωπηλές πηγές για την εβδομάδα = 0.
12) Κατάλογοι ελέγχου
Σχεδιασμός
- Περιγράφονται ρόλοι και σενάρια (P1/P2/IC/Exec/FinOps/Security/DataOps).
- Το χρώμα/SEV/λεξικό κατωφλίου είναι συνεπές.
- Πηγές DataSources με απαρτία και φρεσκάδα SLA.
- Αίθουσα πολέμου/εφημερίες/εκτελεστικές διατάξεις.
- Σχέδιο ενσωμάτωσης Chatops/ITSM/CI/CD/CMDB.
Πράξη
- Widgets pass linter (απαιτούμενα πεδία, ιδιοκτήτης, κατώφλια).
- Μία φορά την εβδομάδα - Επισκόπηση κλιμάκωσης/προειδοποίησης με βελτιώσεις DPC.
- Στιγμιότυπα περιστατικών επισυνάπτονται στο ΕΣΕ/RCA.
- Dark Mode/Mobile Duty Preset.
- Δοκιμές για «βουβές» πηγές και ορθότητα των σχολιασμών.
13) Πρότυπα (ιδέες)
13. Ορισμός widget (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 Κάρτα περιστατικού (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 Σύνδεση με την απελευθέρωση
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. Γραφικό συστατικό FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) Αντι-μοτίβα
«Τοίχος γραφημάτων» χωρίς ενέργειες και βιβλία αναπαραγωγής.
Διαφορετικά χρώματα/κατώφλια στις εντολές → σύγχυση στο SEV.
Δεν υπάρχουν σημειώσεις απελευθέρωσης/παραθύρου - πολύπλοκη αιτία συσχέτισης.
Διπλές πηγές χωρίς απαρτία είναι η ψευδής σελίδα/θόρυβος.
Μυστικά/κλειδιά στον πίνακα - κίνδυνος διαρροής.
Αργή απόδοση (οι αιτήσεις/συγκεντρώσεις δεν είναι αποθηκευμένες) - τα πάνελ δεν ανοίγονται στη μάχη.
15) Χάρτης πορείας για την εφαρμογή (4-8 εβδομάδες)
1. Νεντ. 1: συλλογή απαιτήσεων ανά ρόλους, λεξικό καταστάσεων/χρωμάτων, διάταξη τριών τρόπων λειτουργίας.
2. Νεντ. 2: SLO/Περιστατικά/Απελευθερώσεις/Σύνδεση Windows, σημειώσεις, δράσεις ChatOps.
3. Νεντ. 3: προσθήκη Finops/χωρητικότητας/παρόχων/DataOps/Security, απαρτία πηγών.
4. Νεντ. 4: Λειτουργία θαλάμου πολέμου, στιγμιότυπα σε ITSM, πιλότος σε Tier-0.
5. Νεντ. 5-6: βελτιστοποίηση της απόδοσης, προεπιλογή κινητής/εφημερίας, επένδυση γραφικών συστατικών.
6. Νεντ. 7-8: μετρήσεις ωριμότητας, εβδομαδιαία επανεξέταση, αυτόματες συστάσεις (αρχεία καταγραφής δειγματοληψίας, ποσοστώσεις, folback).
16) Η τελική γραμμή
Οι CDU δεν είναι «όμορφα γραφήματα», αλλά μια ομάδα λύσεων: SLO και ρυθμός καύσης από ψηλά, περιστατικά/απελευθερώσεις/παράθυρα σε ένα πλαίσιο, άμεσες ενέργειες μέσω ChatOps και SOP, επιβεβαιωμένες πηγές και σχολιασμούς. Αυτό το ταμπλό μειώνει το MTTA/MTTR, απλοποιεί τις επικοινωνίες, υποστηρίζει FinOps και καθιστά τη λειτουργία διαφανή και προβλέψιμη.