Ταμπλό υποδομής
1) Γιατί το χρειάζεστε
Μια ενιαία εικόνα της πολιτείας: από το σύμπλεγμα και τα δίκτυα μέχρι τις βάσεις δεδομένων και τις ουρές αναμονής.
Ταχεία RCA και μεταθανάτια: ένα μάτσο μετρήσεις ↔ κούτσουρα ↔ ίχνη.
SLO ανά υπηρεσία και πλατφόρμα: έλεγχος της διαθεσιμότητας και της καθυστέρησης.
Διαφάνεια FinOps: όγκος/κόστος ανά υπηρεσία, ενοικιαστή και περιβάλλον.
Συμμόρφωση/ασφάλεια: κατάσταση των εμπλάστρων/τρωτών σημείων, πρόσβαση, ανωμαλίες.
Μεθοδολογίες: Χρυσά σήματα (καθυστέρηση, κίνηση, σφάλματα, κορεσμός), RED (ρυθμός, σφάλματα, διάρκεια) για αιτήματα, USE (χρησιμοποίηση, κορεσμός, σφάλματα) για πόρους.
2) Αρχές του καλού ταμπλό
Ενεργός-Κάθε ομάδα απαντά στο «τι να κάνει στη συνέχεια».
Ιεραρχία: επισκόπηση → τομέων → βαθιά κατάδυση → ωμή.
Πρότυπα/μεταβλητές: 'cluster', 'namespace', 'service', 'tenant', 'env'.
Ενιαίες μονάδες: ms για καθυστέρηση,%, RPS, ops/sec, bytes.
Σταθερός χρονοδιακόπτης: προεπιλεγμένες 1-6 ώρες, γρήγορες προκαθορίσεις 5m/15m/24h.
Drilldown: από τον πίνακα έως τα αρχεία καταγραφής (Loki/ELK) και το κομμάτι (Tempo/Jaeger).
Ιδιοκτησία: ο ιδιοκτήτης αναγράφεται στο ταμπλό, SLO, runbook, επαφή σε εφημερία.
3) Δομή και ρόλοι φακέλου
επισκόπηση υψηλού επιπέδου της πλατφόρμας.
συστάδες, κόμβοι, φόρτος εργασίας, HPA/VPA, δοχεία.
Είσοδος/Απεσταλμένος/Nginx, LB, DNS, CDN, WAF.
PostgreSQL/MySQL, Redis, Kafka/RabbitMQ, αποθήκευση αντικειμένων.
αγωγοί, πράκτορες, αντικείμενα, μητρώο.
αδυναμίες, μπαλώματα, RBAC, εκδηλώσεις ελέγχου.
κόστος ανά υπηρεσία/ενοικιαστής/σύμπλεγμα, διάθεση.
σύνδεσμοι με οδηγίες και κάρτες SLO.
Ρόλοι: Πλατφόρμα-SRE (πλήρης πρόσβαση), Ιδιοκτήτης υπηρεσιών (ίδιοι χώροι), Ασφάλεια/Συμμόρφωση, Χρηματοδότηση/FinOps, Μόνο προβολή.
4) Πίνακας ταμπλό (προσγείωση)
Στόχος: σε ≤30 δευτερόλεπτα για να καταλάβετε αν όλα είναι εντάξει.
Συνιστώμενες ομάδες:- Πλατφόρμα SLO (άκρη διαθεσιμότητας API): τιμή-στόχος, πραγματική, εποχή σφαλμάτων, ρυθμός καύσης.
- p50/p95/p99 καθυστέρηση από τα κύρια σημεία εισόδου.
- 4xx/5xx σφάλματα και κορυφαία τελικά σημεία με παλινδρόμηση.
- Κορεσμός πόρων (ΚΜΕ, RAM, δίκτυο, δίσκος) - p95 ανά συστάδα.
- Περιστατικά/προειδοποιήσεις (ενεργές) και πρόσφατες απελευθερώσεις.
- Κόστος/ώρα (κατά προσέγγιση) και τάση ανά εβδομάδα.
Μεταβλητά πρότυπα: «env», «περιφέρεια», «cluster», «ενοικιαστής».
5) Kubernetes: ομάδες και εργαστήρια
Βασικές ομάδες:1. Δέσμη/Κόμβοι
CPU/απόρριψη μνήμης, πίεση (μνήμη/cpu), δίσκος IO, inode.
υποσυστήματα: kube-api, κ.λπ., ελεγκτές· kubelet υγεία.
2. Vorkloads
RPS/RPM, καθυστέρηση p95, ποσοστό σφάλματος, επανεκκίνηση, στραγγαλισμός, OOMKills.
Στόχοι HPA έναντι πραγματικών μετρήσεων.
3. Διαδρομή δικτύου εντός συμπλέγματος
eBPF/Netflow: κορυφαίοι ομιλητές, σταγόνες, αναμεταδόσεις.
4. Εκδηλώσεις K8s
Ρυθμός προειδοποίησης/ по προγραμματισμού/backOff.
Παραδείγματα PromQL:promql
API (5xx) errors by sum by (service) (rate (http_requests_total{status=~"5"..}[5m]))
Latency p95 histogram_quantile (0. 95, sum by (le, service) (rate(http_request_duration_seconds_bucket[5m])))
Throttling CPU контейнеров sum by (namespace, pod) (rate(container_cpu_cfs_throttled_seconds_total[5m]))
6) Ακμή, πλέγμα και DNS
Ομάδες:- Είσοδος/Απεσταλμένος/Nginx: RPS, p95, 4xx/5xx, upstream_errors, active_conns.
- LB/Anycast: κατανομή της κυκλοφορίας ανά ζώνη, αστοχίες.
- DNS: καθυστέρηση ανάλυσης, ρυθμός NXDOMAIN/SERVFAIL, κρύπτη λόγου hit.
- CDN/WAF: παρεμποδίζεται από κανόνες, μη φυσιολογική κυκλοφορία (ρομπότ/αποσπαστές).
promql sum(rate(nginx_http_requests_total[5m])) by (status)
7) Βάσεις δεδομένων και αποθήκες
PostgreSQL/MySQL: qps, καθυστέρηση, αναμονή κλειδώματος, καθυστέρηση αντιγραφής, αντίγραφα ασφαλείας/αποτυχίες.
Redis: αναλογία επιτυχίας, εξώσεις, μνήμη, αργές εντολές.
Kafka/RabbitMQ: καθυστέρηση από ομάδες καταναλωτών, ισορροπίες, ανεπίκλητα μηνύματα.
Αποθήκευση αντικειμένου: ερωτήματα, σφάλματα, έξοδος, lat p95.
promql
Replication lag in seconds max by (replica) (pg_replication_lag_seconds)
Slow Queries> 1s rate (pg_stat_activity_longqueries_total[5m])
Kafka (παράδειγμα):
promql
Lag by group max by (topic, group) (kafka_consumergroup_lag)
8) CI/CD και τεχνουργήματα
Επισκόπηση αγωγού: επιτυχία/χρόνος λειτουργίας, ουρά αναμονής δρομέα.
Υγεία εγκατάστασης: εκδόσεις, κατάσταση καναρινιού/μπλε-πράσινου, χρόνος προθέρμανσης.
Μητρώα εικόνων: μέγεθος, τελευταία ώθηση 'και, απόρριψη.
promql
Rate (ci_pipeline_success_total[1h] )/rate (ci_pipeline_total[1h]) success rate
9) Ασφάλεια και συμμόρφωση
Έμπλαστρα και τρωτά σημεία: αναλογία κόμβων/εικόνων με κρίσιμα CVE, μέσος όρος «χρόνος για επιδιόρθωση».
RBAC και μυστικά: ανεπιτυχείς απόπειρες πρόσβασης, πρόσβαση σε μυστικά.
Ελεγκτικά γεγονότα: εισροές/αλλαγές σε κρίσιμα στοιχεία, μετατόπιση.
Αναθεώρηση WAF/DLP/PII: κλειδαριές κανόνων, κάλυψη σφαλμάτων.
10) Αρχεία καταγραφής και μονοπάτια: Επισκόπηση από τέλος σε τέλος
Περίληψη σφαλμάτων από αρχεία καταγραφής (Loki/ELK): κορυφαίες εξαιρέσεις, νέες υπογραφές.
Κουμπί "Go to logs with filter (LogQL/ES query).
Ίχνη: ανώτατα όρια βραδύτητας, ποσοστό αιτήσεων χωρίς πλαίσιο ιχνών.
{app="api", level="error"} = "NullReference"
{app="nginx"} json status="5.." count_over_time([5m])
11) FinOps: κόστος και διάθεση
Κόστος από υπηρεσίες/ενοικιαστές/συνεργατικούς σχηματισμούς (σύμφωνα με την τιμολόγηση/εξαγωγείς).
Καυτοί/ψυχροί κόμβοι: αδρανείς πόροι, ορθές συστάσεις (ΚΜΕ/Mem).
Έξοδος δεδομένων, αιτήσεις L7 και κόστος τους.
Δυναμική: εβδομάδα/μήνα, πρόβλεψη.
- , , , .
- συντελεστής απόδοσης: 'RPS/$' ή 'SLO-λεπτά/$'.
12) SLO, σφάλματα και ποσοστό καύσης
Κάρτα SLO σε κάθε ταμπλό τομέα: στόχος, περίοδος, σφάλματα (προϋπολογισμός).
Προειδοποιήσεις ταχύτητας καύσης (δύο ταχύτητες: γρήγορη/αργή).
promql
Bad budget: 5xx as a fraction of sum (rate (http_requests_total{status=~"5"..}[5m])) traffic
/
sum(rate(http_requests_total[5m]))
Burn-rate (fast channel ~ 1h)
(
sum(rate(http_requests_total{status=~"5.."}[1m])) /
sum(rate(http_requests_total[1m]))
) / (1 - SLO) > 14. 4
13) Πρότυπα οπτικοποίησης
Τύποι πίνακα: χρονοσειρές για σειρές, stat για KPI, πίνακας για top-N, θερμοσίφωνας για καθυστέρηση.
Απαιτούμενοι μύθοι και μονάδες. συντομευμένες ετικέτες, μορφή SI.
Ζώνες χρωμάτων: πράσινο/κίτρινο/κόκκινο κατά SLO/κατώφλι (ομοιόμορφο).
Περιγραφή πίνακα: τι μετράμε, πηγή, σύνδεσμος runbook, ιδιοκτήτης.
14) Υποδείγματα πίνακα (γρήγορη εκκίνηση)
Α) Επισκόπηση API
KPI: 'RPS', 'p95', '5xx%', 'error _ budget _ remaining'.
Ανώτατα τελικά σημεία κατά σφάλμα/καθυστέρηση.
Τρυπάνι στα αρχεία καταγραφής «trace _ id = $ trace».
(B) Υγεία κόμβων
CPU/Μνήμη/Δίσκος/Δίκτυο - p95 ανά κόμβο, κατάλογος των «θερμών».
Πίεση, στραγγαλισμός, σταγόνες συσκευασίας.
(C) DB Υγεία
TPS, καθυστέρηση p95, κλειδαριές, καθυστέρηση αντιγραφής, αργές ερωτήσεις.
Κατάσταση εφεδρείας/τελευταία επιτυχία.
(D) Kafka Lag
Υστέρηση ανά ομάδα, ποσοστό κατανάλωσης έναντι παραγωγής, ανισορροπίες.
(E) Κόστος & Util
Κόστος/ώρα ανά υπηρεσία, αδράνεια%, διορθωτικές υποδείξεις, πρόβλεψη.
15) Μεταβλητές και ετικέτες (συνιστώμενο σύνολο)
'env' (prod/stage/dev)
«περιφέρεια »/« αζ»
'cluster'
'namespace '/' service '/' workload'
'tenant'
'component' (άκρη/db/cache/σειρά αναμονής)
«μετατροπή» (release/git_sha)
16) Ενσωμάτωση στη διαχείριση συναγερμού και συμβάντων
Οι κανόνες στο Alertmanager/Graphana προειδοποιούν με συνδέσμους στο επιθυμητό ταμπλό και ήδη υποκατασταθείσες μεταβλητές.
με κριτήρια SLO, αυτόματη ανάθεση σε εφημερία.
Σημειώσεις απελευθερώσεων/συμβάντων σε γραφήματα.
17) Ποιότητα των πινάκων ελέγχου: κατάλογος σημείων ελέγχου
- Ιδιοκτήτης και επαφή.
- Τεκμηριώνονται SLO/κατώτατα όρια.
- Οι μεταβλητές λειτουργούν και περιορίζουν το μέγεθος των ερωτήσεων.
- Όλα τα πάνελ με μονάδες και θρύλο.
- Drilldown to logs/tracks.
- Οι πίνακες τοποθετούνται σε 2-3 «οθόνες» (χωρίς κύλιση ανά χιλιόμετρο).
- Χρόνος απόκρισης ≤2 -3 sec (κρύπτη, downsample).
- Δεν υπάρχουν νεκροί πίνακες ή υποβαθμισμένες μετρήσεις.
18) Απόδοση και κόστος των ταμπλό
Κανόνες μείωσης της δειγματοληψίας/καταγραφής βαρέων συγκεντρώσεων.
Κιβώτιο ταχυτήτων (εμπρόσθιο/επαναληπτικό) και όρια εύρους/βήματος.
Υπόστεγο δοκιμής: φορτίο σε TSDB/συστάδες για τυπικά αιτήματα ταμπλό.
Απολύμανση ετικετών (χαμηλή πληθικότητα), εγκατάλειψη wildcards.
19) Σχέδιο εφαρμογής (επαναλήψεις)
1. Εβδομάδα 1: Επανεξετάσεις προσγείωσης + K8s/Edge, βασικές SLO, ιδιοκτήτες.
2. Εβδομάδα 2: DB/Queues, log and trace integration (drilldown), burn-rate alerts.
3. Εβδομάδα 3: Ταμπλό FinOps, διορθωτικές συστάσεις, έκθεση κόστους.
4. Εβδομάδα 4 +: Ασφάλεια/συμμόρφωση, αυτοπαραγωγή καρτών SLO, δοκιμές παλινδρόμησης ταμπλό.
20) Mini-FAQ
Πόσα ταμπλό χρειάζεστε
Τουλάχιστον 1 αναθεώρηση + μία ανά τομέα (K8s, Edge, DB, Queues, CI/CD, Security, Cost). Το υπόλοιπο είναι με ωριμότητα.
Τι είναι πιο σημαντικό - οι μετρήσεις ή τα αρχεία καταγραφής
Μετρήσεις για συμπτώματα και SLO, καταγραφές για αίτια. Δέσμη μέσω «trace _ id» και συνεπών ετικετών.
Πώς να μην «πνιγεί» στα πάνελ
Ιεραρχία, σαφείς ιδιοκτήτες, μετρική υγιεινή, τακτικές κριτικές και αφαίρεση των «νεκρών» πάνελ.
Σύνολο
Τα ταμπλό υποδομής δεν είναι «όμορφα γραφήματα», αλλά ένα εργαλείο διαχείρισης: έλεγχος SLO, ταχεία RCA και συνειδητές FinOps. Τυποποίηση μεταβλητών, οπτικών προτύπων και ιδιοκτητών. παρέχει τρυπάνι σε κούτσουρα/ίχνη και αυτοματοποιημένες ειδοποιήσεις για την ταχύτητα καύσης. Αυτό θα δώσει προβλεψιμότητα, ταχύτητα αντίδρασης και διαφάνεια κόστους στο επίπεδο ολόκληρης της πλατφόρμας.