Əməliyyat və İdarəetmə → Operatorlar üçün AI köməkçiləri
Operatorlar üçün AI köməkçiləri
1) Niyə lazımdır
Operatorlar alertlərdə, yuvalarda və dağınıq artefaktlarda batırlar. AI köməkçisi müxtəlif siqnalları başa düşülən tövsiyələrə və hazır hərəkətlərə çevirir: daha sürətli triaj, daha az əl işi, daha yüksək proqnozlaşdırıla bilən SLO.
Məqsədlər:- MTTD/MTTR və alert səs-küyünü azaltın.
- Hendover və post-insident sənədlərinin keyfiyyətini artırın.
- «Ağır rutini» avtomatlaşdırın (kontekstin axtarışı, hesabatlar, biletlər).
- Vahid cavab/kommunikasiya standartlarını müəyyən etmək.
2) Tətbiq ssenariləri (Top-12)
1. Hadisələrin triajı: alert qruplaşması → səbəb fərziyyələri → prioritet/təsir.
2. Fəaliyyət tövsiyələri (Action Hints): runbook bağlantıları və başlanğıc düymələri ilə «indi nə etmək lazımdır».
3. Avto-hesabatlar (Incident TL; DR): Hadisə/Steykholder kanalı üçün qısa sıxma.
4. Bilik axtarışı (RAG): runbook/SOP/postmortem/eskalasiya matrisi ilə sürətli cavablar.
5. Biletlərin/yeniləmələrin generasiyası: Jira/Status yeniləmələrinin şablona uyğun layihələri.
6. Alertlərin analitikası: «səs-küylü qaydaların» müəyyən edilməsi, sazlama təklifləri.
7. Observability Q&A: «1 saat ərzində p99 bets-api göstərin» → hazır qrafiklər/sorğular.
8. Vendor kontekst: provayder xülasəsi (kvotalar, SLA, pəncərələr, hadisələr).
9. «Burn-rate ↑ + lag ↑ → PSP feyloverini hazırlayın».
10. Handover Copilot: Dashboard/biletlərdən növbə paketinin toplanması.
11. Postmortem Copilot: log/tred xronologiyası + Corrective/Preventive Actions layihəsi.
12. Mesajların lokalizasiyası/tonu: düzgün, konsistent müştəri yeniləmələri.
3) Həll arxitekturası (yüksək səviyyəli)
Mənbələr: metriklər/loglər/treyslər (Observability), biletlər/hadisələr, konfiqlər/fitnələr, provayder statusları, SLO/OLA kataloqu, runbook/SOP.
RAG təbəqəsi (bilik axtarışı): etiketli sənədlərin indeksləşdirilməsi (domen, versiya, tarix, sahibi). Wuhi «operator üçün».
Alətlər (Tools/Actions): təhlükəsiz əməliyyatlar: «scale-up HPA», «kanareyka fasiləsi», «safe-mode aktiv», «PSP keçid», «bilet yaratmaq», «qrafik toplamaq». Bütün hərəkətlər auditlə broker/orkestr vasitəsilə həyata keçirilir.
Policy-guardrails: rollar üzrə hüquqlar, HITL təsdiqi, limitlər, quru qaçış (dry-run), jurnal.
Təhlükəsizlik: KMS/Secrets, PII maskaları, mTLS, məlumatlara giriş auditi.
Interfeyslər: NOC-də chat/panel, dashboard widget 'ları, slack slash komandaları.
4) UX nümunələri (operator görür)
Hadisə kartları: «simptom → hipotezlər (sıralanmış) → təklif olunan 3 addım → data linklər → hərəkət düymələri».
Vahid prompt sahəsi: «Payments üçün son 4h handover paketini formalaşdırın».
Arxa/arxa: «əsasında: Grafana, Postgres logs, Runbook v3».
«Dry-Run» düyməsi: nə ediləcəyini və risklərin harada olacağını göstər.
Qərar tarixi: kim təsdiq addım, nəticə, geri/uğur.
5) İnteqrasiya və fəaliyyət (examples)
Observability: hazır PromQL/LogsQL/Trace filtrləri, basın qrafikləri.
Feature Flags: safe-mode aktiv/bayraq geri (təsdiq ilə).
Release-kanareik: dayandırmaq/geri; qrafiklərə bir şərh əlavə edin.
K8s: HPA ön-skail, daemon yenidən başlamaq, PDB/Spread yoxlama.
Provayderlər: PSP-X → PSP-Y marşrutunun dəyişdirilməsi; kvota yoxlama.
Rabitə: Hadisə kanalına/status səhifəsinə yeniləmənin layihəsi.
Tickets: əvvəlcədən doldurulmuş bölmələrlə Jira yaratmaq.
6) Təhlükəsizlik və məxfilik siyasəti
Rollara/domenlərə giriş: operator yalnız «öz» sistemlərini və minimum kifayət qədər məlumatları görür.
Fəaliyyət jurnalı: kim/nə vaxt/nə təsdiq, nəticə, geri.
PII/sirləri: cavablarda/loqlarda maskalanma; «xam» sirlərin əlçatmazlığı.
Məzmun saxlama: TTL və etiketləmə ilə çıxarılan artefaktların (RAG) versiyaları.
Bir artefakt kimi «mülahizələrin» qadağan edilməsi: modelin daxili düşüncələrini deyil, nəticələrini və mənbələrə istinadları saxlayırıq.
Sərhəd satıcısı: perimetri tərk edən məlumatların dəqiq siyahısı (default sıfır).
7) Keyfiyyət və effektivlik metrikası
Əməliyyat KPI:- MTTD/MTTR ↓, Pre-Incident Detect Rate ↑, Change Failure Rate ↓, Handoff Quality Score ↑.
- Alert Fatigue ↓ (operator/növbə üçün alert), ilk yenilənməyə qədər vaxt ↓.
- Acceptance Rate (tövsiyələrin qəbulu), Time Saved/Case, Precision/Class Recall (məsələn, P1), Hallucination Rate (mənbələr olmadan səhv iddialar), Safety Incidents = 0.
- Recall(P1) ≥ 0. 7, Precision ≥ 0. 6, Acceptance ≥ 0. 5, Time Saved ≥ 25%, Hallucination ≤ 2% məcburi mənbə linkləri ilə.
8) Sənaye mühəndisliyi və biliyin idarə edilməsi
Sorğu şablonları: formulları standartlaşdırırıq (aşağıda - nümunələr).
Kontekstin təbəqələri: (a) sistem qaydaları (təhlükəsizlik, cavab tərzi), (b) növbə/domenin qısa konteksti, (c) təzə sənədlər/qrafiklər üzrə RAG axtarışı.
Bilik versiyası: hər runbook/SOP 'id @version' və tarixi var, AI link və versiyası verir.
Cavabların təsdiqlənməsi: Bütün faktiki iddialar üçün məlumat mənbələrinə/dashbordlara istinad tələb edirik.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) Proseslərə inteqrasiya (SOP)
Hadisələr: AI TL dərc edir; DR hər N dəqiqə, növbəti ETA hazırlayır, addımlar təklif edir.
Relizlər: əvvəlcədən və post-deple hesabat; proqnozlaşdırılan risklər zamanı avtoqeyt.
Variant: Handover paketi bir çek siyahısı ilə formalaşır və təsdiqlənir.
Postmortemlər: Taymline layihəsi + Corrective/Preventive Actions siyahısı.
Hesabat: səs-küylü alertlər və tuning təkliflərinin həftəlik dejestidir.
10) Daşbordlar və widgets (minimum)
AI Ops Overview: qəbul edilmiş tövsiyələr, qənaət vaxt, uğur/geri hərəkət.
Triaging Quality: Precision/Recall siniflər, mübahisəli hallarda, Top səhvlər.
Knowledge Health: runbook/SOP əhatə, köhnəlmiş versiyalar, boşluqlar.
Alert Hygiene: səs-küy mənbələri, tənzimləmə üçün namizəd qaydaları.
Safety & Audit: fəaliyyət log, uğursuz cəhdlər, dry-run hesabatlar.
11) Anti-nümunələr
«Sehrli qutu hər şeyi həll edəcək» - RAG və linklər olmadan, faktların «təxmini» ilə.
HITL/rollar/limitlər olmadan geri dönməz hərəkətlərin avtomatlaşdırılması.
Axtarışda məhsul/steyj qarışdırılması.
Sirləri/PII köməkçi cavab və log.
Keyfiyyət metrləri və post-qiymətləndirmə faydaları yoxdur.
«Bütün tapşırıqlar üçün bir söhbət» - kartlar, statuslar və hərəkət düymələri olmadan.
12) Giriş çek siyahısı
- Domenlər və ssenarilər müəyyən edilmişdir (triaj, hesabatlar, əl işləri, biletlər).
- RAG konfiqurasiya: runbook indeksi/SOP/postmortem/eskalasiya matrisləri (versiyaları ilə).
- İnteqrasiya: Observability, Flags, Release, Tickets, Providers - təhlükəsiz tools vasitəsilə.
- Siyasətlər: rollar, HITL, jurnal, dry-run, PII maskalanması/sirləri.
- UX: hadisə kartları, hərəkət düymələri, inam və linklər.
- Ölçülər: AI-KPI və Ops-KPI + dashboard.
- Proseslər: AI-nin iştirakı ilə hadisələrə/buraxılışlara/növbələrə/postmortemlərə SOP.
- Operator təlim planı və köməkçisi ilə «ünsiyyət qaydaları».
13) «Təhlükəsiz» avto xidmətlər nümunələri
TL nəşri; DR/ETA hadisə kanalına.
Tiketin yaradılması/yenilənməsi, artefaktların əlaqələndirilməsi.
Metrik və log oxu Generation/Start (sistemdə dəyişiklik olmadan).
Qrafiklərdə relizlərin/bayraqların şərhləri.
dry-run playbook hazırlanması (təsdiq edildikdə nə ediləcək).
14) Rollar və məsuliyyət
Ops Owner: biznes nəticələri (MTTR, səs-küy), SOP təsdiqi.
Observability/SRE: RAG, inteqrasiya, təhlükəsizlik və keyfiyyət metrikası.
Domain Leads: tövsiyələrin təsdiqlənməsi, runbook/SOP aktuallığı.
Training/Enablement: «AI ilə necə ünsiyyət», imtahanlar.
Compliance/Security: məlumat siyasəti, audit və qeydlərin saxlanması.
15) 30/60/90 - başlanğıc planı
30 gün:- Bir domendə pilot (məsələn, Payments): triaj, TL; DR, biletlər.
- Biliklərin indeksləşdirilməsi (RAG) və insident kartları, dry-run hərəkətləri.
- Əsas metriklər: Acceptance/Time Saved/Precision/Recall.
- Flags/Release ilə inteqrasiya, handover/postmortem copilot əlavə edin.
- Əvvəlcədən məsləhətləri (burn-rate, lag) və alertlərin sazlanması təkliflərini daxil edin.
- Bir köməkçi istifadə edərək iki game-day keçirmək.
- Bets/Games/KYC genişləndirilməsi, şablon unifikasiyası.
- AI ilə SOP rəsmiləşdirin, KPI-ni rüblük hədəflərə daxil edin.
- İqtisadi effektin optimallaşdırılması (xərc/hadisə, iş vaxtı azalması).
16) Köməkçinin cavab nümunələri (formatlar)
Hadisə kartı (nümunə):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Handover TL; DR (nümunə):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
Postmortem layihəsi:
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
Q: ilk avtomatlaşdırmaq nədir?
A: Hesabatlar/Bilgilər/Bilgilər - təhlükəsiz və dərhal vaxta qənaət edir. Sonra - HITL ilə proqnozlaşdırılan ipuçları və yarı avtomatik hərəkətlər.
Q: «Hallüsinasiyalarla» necə mübarizə aparmaq olar?
A: Yalnız RAG, yalnız linklərlə cavablar, mənbəsiz cavabların qadağan edilməsi, oflayn keyfiyyətin qiymətləndirilməsi, retro işarələmək və təhlil etmək üçün mübahisəli cavablar.
Q: Köməkçiyə «düymələri sıxmaq» hüququ verilə bilərmi?
A: Bəli - geri dönən və aşağı riskli addımlar üçün (şərhlər, hesabatlar, dry-run, ön-skeyl), qalanları - HITL və rollar vasitəsilə.