ცენტრალური დაშბორდის კონტროლი
1) დანიშვნა და პრინციპები
ცენტრალური დაშბორდის მენეჯმენტი (შემდგომში CDU) არის ერთი ფანჯარა ოპერაციებში გადაწყვეტილების მისაღებად. იგი აერთიანებს სიგნალებს ტელემეტრიიდან, ITSM, CI/CD, მომსახურების კატალოგიდან, სამუშაოს კალენდარიდან და პროვაიდერებიდან, მათ გადააქცევს არსებულ (აქტიურ) ვიჯეტებად.
პრინციპები:- SLO-first: ზემოთ - მიზნობრივი SLO და burn-rate Tier-0/1.
- One click to action: ვიჯეტიდან - playbook/runbook ან ticket.
- ერთი ლექსიკონი: იგივე SEV, სტატუსები, ფერები და ბარიერები.
- მოვლენების სურათები: გამოშვებები/ჩამორთმევა/ფანჯრები ყველა გრაფიკზე.
- როლები და ნებართვები: პერსონალური წარმოდგენები (on-call, IC, მენეჯმენტი).
- დაბალი ხმაური: წყაროების კვორუმი, დედუპლიკაცია და ფანჯრების ჩახშობა.
2) როლები და ძირითადი სცენარები
On-call (P1/P2): სწრაფად გააცნობიეროს „რა იწვის“ და გახსნა playbuk (1 დაწკაპუნება).
IC: გამოაცხადეთ SEV, დაიწყეთ ომი-ოთახი-რეჟიმი, აკონტროლეთ cadence comm apdates.
Release Manager: დაინახეთ კარიბჭეები, კანარის პროგრესი, დაბრუნების მზადყოფნა.
Service Owner/Product: Business SLI (გადახდების/რეგისტრაციების წარმატება), ფიჩების გავლენა.
SRE/პლატფორმა: კონტეინერი, სკეიტი, ანომალიები, DR მზადყოფნა.
FinOps: $/ერთეული, ზედმეტი ხარჯები, ბიუჯეტის ალერტები.
უსაფრთხოება/ლეგალი: ფოსტა, ძირითადი სერთიფიკატები, როტაციის ფანჯრები, WORM აუდიტი ბმულებით.
3) CDU ინფორმაციის არქიტექტურა
ზედა პოლკი (გმირული პანელი):- SLO по Tier-0/1 (availability/latency/success) с burn-rate 2-окна.
- SEV სტატუსი: აქტიური ინციდენტები და მათი დრო.
- გამოშვების სტატუსი: კანარი/ცისფერი-მწვანე, აქტიური კარიბჭეები.
- პროვაიდერების „Traffic lights“ (PSP/KYC/CDN).
- მომსახურების ფანჯრები (ახლა/24ch), მხარდაჭერის ბარათი.
- შესაძლებლობები: CPU/RAM/IO/queue-depth/p95 ლაზერი პროგნოზით.
- FinOps: $1k txn, დღისით სპენდი ბიუჯეტი, ლოგის ანომალიები.
- DataOps: ფანჯრის სიახლე, SLA piplines, DQ შეცდომები.
- უსაფრთხოება: სერთიფიკატების ვადა, საიდუმლოების როტაცია, კრიტიკული დაუცველობა (age/SLA).
- კორელაციები „გამოშვება - SLO“, „პროვაიდერი - უარი/ლატენტობა“.
- სწრაფი ბმულები: logs, trais, ticets, playbuks, SOP, ესკალაციის მატრიცა.
4) ვიჯეტები (რეფერენდუმის ნაკრები)
1. SLO & Burn-rate
აჩვენებს მიმდინარე SLI, შეცდომების ბიუჯეტის მიზანი და მოხმარება (1 სთ/6 სთ).
მოქმედება: პლეიბუკის გახსნა მომსახურების დეგრადაციისთვის.
2. ინციდენტები (SEV პანელი)
აქტიური/ბოლო, Declare/Comms ტაიმერები, IC/Comms- ის როლები.
მოქმედება: ომის ოთახის გახსნა, აფთიაქის შაბლონი, IC ჩეკების სია.
3. გამოშვებები/ჩამორთმევა
კანარეა 1-5-25%, დროშები, გამოტოვება (ღილაკი/ბმული SOP- ზე).
პრეზენტაციები: ვერსია, კომიქსები, ავტორი.
4. მომსახურების ფანჯრები
მიმდინარე/მომავალი, იმპაქტიური სერვისები/რეგიონები; supression ნიღაბი.
მოქმედება: კოორდინაცია გაუწიეთ შეტყობინებებს, ჩართეთ SLO მცველები.
5. შესაძლებლობები/Autoskale
მოხმარების პროგნოზი (Naive/AR), hotspot ბარათი, warm-pool.
მოქმედება: კვოტების/სკალირების წესების მოთხოვნა (PR რეპო პოლიტიკაში).
6. FinOps
$/ერთეული, „ძვირადღირებული“ თხოვნები/ლოგები, daily burn vs budget.
მოქმედება: ანგარიშის გახსნა და რეკომენდაცია (ლოგოების ნიმუში, არქივები).
7. პროვაიდერები
SLA/PSP/KYC/CDN სტატუსი, მარშრუტების წონა, ფოლკლორული მზადყოფნა.
მოქმედება: წონაში გადართვა, პარტნიორებთან კომუნიკაციის შაბლონი.
8. Security
სერთიფიკატები (30d), დაგვიანებული როტაციები, დაუცველობა, საეჭვო მოვლენები.
მოქმედება: IR-pleybuk/ticket გახსნა.
9. DataOps
ახალი ფანჯრები, გამოტოვების პროცენტი, pline უარი, DLQ.
მოქმედება: ზურგჩანთა/კარანტინი/rollback ტრანსფორმაცია.
5) სახელმწიფოები/ფერები/ბარიერები (სტანდარტი)
მწვანე: SLI სამიზნეში, burn-rate <1.
ამბერი: SLI დამანგრეველია, burn-rate 1-2 ×, ზრდა p95, მაგრამ არსებობს workaround.
Red: breach ან პროგნოზირებული burn-out <1; გახსნა SEV-1/0.
გრეი: მხარდაჭერა (ფანჯარა), არ არსებობს ტელემეტრია (წყაროს შეცდომა).
6) სურათები და კორელაცია
გამოშვება/კონფისკაცია/ფანჯარა/პროვაიდერის სტატუსები ნაჩვენებია SLO გრაფიკებზე.
მარკერის კლიშე არის diff, ავტორი, კარიბჭე, ღილაკი „გამოტოვება/ფოლბეკი/SOP“.
ინციდენტში, დრო აგებულია ChatOps ტექსტებისა და მოქმედებებისგან.
7) მონაცემთა წყაროები და გადამოწმება
ტელემეტრია: მეტრიკა/ტრეისი/ლოგები ტრეიდთან _ id.
ITSM: ინციდენტები/პრობლემები/ცვლილებები (სტატუსები/SLA).
CI/CD: გამოშვებები, ხელმოწერები, არტეფაქტები, ტესტები.
სერვისების კატალოგი/CMDB: მფლობელები, SLO, დამოკიდებულია.
კალენდარი: მომსახურების ფანჯრები.
პროვაიდერები: სტატუს-API + ხელით დადასტურება (ცალკეულ ფანჯარაში ჩამოსვლა).
FinOps: ბილინგი/რესურსების ჭდეები, ლოგიკური მოცულობა, egress.
ხარისხის კონტროლი: კვორუმი, სარეზერვო ზონდები, სიახლის SLA, ალერტები „მუნჯი“ წყაროებისთვის.
8) ჩვენების რეჟიმები
ომის ოთახი: ფიქსირებული განლაგება SLO/Incidents/Releases/Comms ტაიმერი.
აღმასრულებელი (28 დღე): MTTR/MTTD/SEV mix ტენდენციები ,/$, SLO-adgerens.
On-call: კომპაქტური „ღამის“ პანელი (მუქი რეჟიმი, დიდი რიცხვები).
მრავალ ტენდერი/რეგიონი: მომსახურების ფილტრები/რეგულირება/ტენანტი; პრესეტები.
9) ნავიგაცია და მოქმედება (ერთი კლიკი)
ღილაკები: '/declare sev1 ', '/freeze', '/rollback ', '/status განახლება', „გახსნა playbook“.
Drill-in: SLO - გრაფიკი - logs/traces წინასწარ შევსებული ფილტრებით (trace _ id, release _ id).
შერინგი: პანელების გადაღება ტიკეტში/სტატუსის გვერდზე.
10) უსაფრთხოება, წვდომა, აუდიტი
SSO/OIDC + RBAC/ABAC: როლები და კოპირება (ხედვა/მოქმედება).
JIT/JEA: „საშიში“ მოქმედება ხელმისაწვდომია მხოლოდ დროებითი ზრდით.
აუდიტი უცვლელია: ვინ დააჭირა რა, რა თხოვნები/გუნდები დატოვეს.
საიდუმლოებები: არ არის ნაჩვენები, მხოლოდ ბმულები საიდუმლოების მენეჯერზე.
11) სიმწიფის მეტრიკა
Actionability - 90%: დაწკაპუნება იწვევს მოქმედებებს და არა მხოლოდ გრაფიკებს.
Time-to-First-Action - 2 წუთი CDU- დან SEV-1/0.
ინციდენტების წილი, სადაც CDU იყო „სიმართლის წყარო“ 95%.
Freshness vijets:%, რომელსაც აქვს მონაცემები „უფრო სუფთა, ვიდრე 5 წუთი“.
Coverage: კრიტიკული სერვისების%, რომელსაც აქვს SLO ბარათები და გამოშვების ჩანაწერები.
Zero-blind-spots: „ჩუმად“ წყაროები კვირაში = 0.
12) ჩეკის ფურცლები
დიზაინი
- აღწერილია როლები და სკრიპტები (P1/P2/IC/Exec/FinOps/Security/DataOps).
- ყვავილების ლექსიკონი/SEV/რეიდები შეთანხმებულია.
- მონაცემთა წყაროები კვორუმით და SLA ახალი.
- ომის ოთახი/On-call/Executive მოდელები.
- ChatOps/ITSM/CI/CD/CMDB ინტეგრაციის გეგმა.
ოპერაცია
- ვიჯეტები გადის ლინტერს (სავალდებულო ველები, owner, ბარიერები).
- კვირაში ერთხელ - Escalation/Alert Review, CDU- ს გაუმჯობესებით.
- ინციდენტების Snaphots გამოიყენება AAR/RCA- ში.
- მუქი რეჟიმი/მობილური პრესა მოვალეობებისთვის.
- ტესტები წყაროების „ნემოტზე“ და განცხადებების სისწორეზე.
13) შაბლონები (იდეები)
13. 1 ვიჯეტის განმარტება (YAML)
yaml id: slo-payments title: "SLO: Success of payments (EU)"
owner: team-payments type: slo_burnrate sli:
metric: "biz. payment_success_ratio"
target_pct: 99. 5 burn_rate:
short_window: "1h"
long_window: "6h"
thresholds:
amber: { burn_rate: 1. 2 }
red: { burn_rate: 2. 0 }
actions:
- label: "Open playbook"
link: "rb://payments/slo-degrade"
- label: "Release rollback"
link: "sop://REL-ROLLBACK-01"
annotations:
release: true change: true filters:
region: "eu"
tier: "0"
13. 2 ინციდენტის ბარათი (JSON)
json
{
"id": "incidents-active",
"type": "incident_board",
"sev": ["SEV-0", "SEV-1", "SEV-2"],
"fields": ["id","sev","service","since","ic","next_comms_at"],
"actions": [{"label":"War-room","cmd":"/declare sev1"}]
}
13. 3 კომუნიკაცია გამოშვებასთან
yaml id: release-canary type: release_progress source: cicd://checkout gates: ["tests","signatures","slo_guardrails"]
canary_steps: [1,5,25]
rollback: "sop://REL-ROLLBACK-01"
annotations: { on_charts: ["slo-latency","slo-success"] }
13. 4 ვიჯეტ FinOps
yaml id: finops-burn type: cost_unit metrics:
- id: "cost_per_1k_txn"
- id: "logs_daily_gib"
alerts:
- when: "cost_per_1k_txn > target1. 2"
action: "open://finops/reco-logs-sampling"
14) ანტი შაბლონები
„გრაფიკის კედელი“ მოქმედებებისა და პლეიბუკების გარეშე.
გუნდების სხვადასხვა ფერები/ბარიერები - დაბნეულობა SEV- ში.
არ არსებობს გამოშვებების/ფანჯრების პრეზენტაციები - მიზეზების რთული კორელაცია.
სარეზერვო წყაროები კვორუმის გარეშე არის ყალბი Page/ხმაური.
პანელზე საიდუმლოებები/გასაღებები გაჟონვის რისკია.
ნელი გამყიდველი (მოთხოვნა/აგრეგაცია არ არის კაშხალი) - პანელები არ იხსნება ბრძოლაში.
15) განხორციელების გზის რუკა (4-8 კვირა)
1. ნვე. 1: როლების მოთხოვნების შეგროვება, სტატუსის/ფერის ლექსიკონი, სამი რეჟიმის მოდელები.
2. ნვე. 2: SLO/Incidents/Releases/Windows კავშირი, მენიუ, ChatOps მოქმედებები.
3. ნვე. 3: FinOps/Capacity/Providers/DataOps/Security, წყაროების კვორუმი.
4. ნვე. 4: ომის ოთახი რეჟიმი, სროლა ITSM- ში, მფრინავი Tier-0- ზე.
5. ნვე. 5-6: შესრულების ოპტიმიზაცია, მობილური/on-call შეჩერება, ვიჯეტის ლინტერი.
6. ნვე. 7-8: სიმწიფის მეტრიკა, ყოველკვირეული მიმოხილვა, ავტომატური რეკომენდაციები (ლოგოების ნიმუშები, კვოტები, ფოლკლორი).
16) შედეგი
CDU არ არის „ლამაზი გრაფიკა“, არამედ გადაწყვეტილებების პანელი: SLO და burn-rate ზემოდან, ინციდენტები/გამოშვებები/ფანჯრები ერთ კონტექსტში, ChatOps და SOP- ის მეშვეობით მყისიერი მოქმედებები, დადასტურებული წყაროები და პრეზენტაციები. ასეთი დაშბორდი ამცირებს MTTA/MTTR- ს, ამარტივებს კომუნიკაციებს, მხარს უჭერს FinOps- ს და მოქმედებს გამჭვირვალე და პროგნოზირებადი.