Operasyonlar ve Yönetim - Operatörler için AI yardımcıları
Operatörler için <> AI yardımcıları
1) Neden ihtiyacınız var
Operatörler uyarılar, günlükler ve dağınık eserler içinde boğulur. AI asistanı, heterojen sinyalleri anlaşılır önerilere ve hazır eylemlere dönüştürür: daha hızlı triyajlar, daha az manuel rutin, SLO'nun daha yüksek öngörülebilirliği.
Hedefler:- MTTD/MTTR ve uyarı gürültüsünü azaltın.
- Devir işlemlerinin ve olay sonrası belgelerin kalitesini artırın.
- "Ağır rutini" otomatikleştirin (bağlam, özet, bilet arayın).
- Ortak yanıt/iletişim standartlarını kaydedin.
2) Uygulama senaryoları (Top-12)
1. Olayların triyajı: uyarıların gruplandırılması - nedenlerin hipotezleri - öncelik/etki.
2. Eylem İpuçları: Runbook ve başlatma düğmelerine bağlantılar içeren'şimdi ne yapmalı ".
3. Otomatik özetler (Olay TL; DR): Olay Kanalı/Paydaşlar için kısa bir sıkışma.
4. Bilgi Arama (RAG): runbook/SOP/postmortems/escalation matrix ile hızlı cevaplar.
5. Bilet/güncelleme oluşturma: Bir şablon kullanarak Jira/Durum güncellemelerinin taslakları.
6. Uyarı analizi: "gürültülü kuralları" belirleme, önerileri ayarlama.
7. Gözlemlenebilirlik Q&A: "1h'de p99 bahisleri-api göster" - hazır grafikler/istekler.
8. Satıcı bağlamı: sağlayıcı özeti (kotalar, SLA'lar, pencereler, olaylar).
9. Tahmini ipuçları: "Burn- rate↑ + lag↑ - bir PSP feiler hazırlayın".
10. Handover Copilot: Panolardan/biletlerden bir vardiya paketi toplamak.
11. Postmortem Copilot: günlüklerden/ipliklerden kronoloji + taslak Düzeltici/Önleyici Eylemler.
12. Mesajların yerelleştirilmesi/tonu: doğru, tutarlı müşteri güncellemeleri.
3) Çözüm mimarisi (üst düzey)
Kaynaklar: metrikler/günlükler/yollar (Gözlemlenebilirlik), biletler/olaylar, yapılandırmalar/phicheflags, sağlayıcı durumları, SLO/OLA dizini, runbook/SOP.
RAG katmanı (bilgi arama): Belgeleri işaretleme ile indeksleme (etki alanı, sürüm, tarih, sahip). Vyuhi "operatör için".
Araçlar/Eylemler: güvenli işlemler: "ölçeklendirme HPA", "kanarya duraklatma", "güvenli modu etkinleştir", "PSP'yi değiştir", "bilet oluştur", "çizelgeleri topla". "Tüm eylemler bir denetim ile bir broker/orkestratör aracılığıyla yapılır.
Poliçe korkulukları: role göre haklar, HITL onayı, limitler, kuru çalışma, dergi.
Güvenlik: KMS/Sırlar, PII maskeleri, mTLS, veri erişim denetimi.
Arayüzler: NOC'de sohbet/panel, panolardaki widget'lar, gevşek eğik çizgi komutları.
4) UX desenleri (operatörün gördüğü)
Olay kartları: "semptom" hipotezi (sıralı) "önerilen 3 adım" veri "bağlantıları" eylem düğmeleri ".
Tek istemli alan: "Ödemeler için son 4 saatte bir devir paketi oluşturun".
Güven vurgulama/kaynaklar: "dayalı: Grafana, Postgres günlükleri, Runbook v3".
"Dry-Run" düğmesi: Ne yapılacağını ve risklerin nerede olduğunu gösterir.
Karar geçmişi: adımı, sonucu, geri dönüşü/başarıyı kimin onayladığı.
5) Entegrasyonlar ve eylemler (örnekler)
Gözlemlenebilirlik: Hazır PromQL/LogsQL/Trace filtreleri, tuşa basarak grafikler.
Özellik Bayrakları: güvenli modu etkinleştirin/bayrağı geri alın (onaylayarak).
Release-kanarya: duraklat/geri al; Grafikleri not edin.
K8s: HPA öncesi tarama, daemon'u yeniden başlatma, PDB/Spread kontrolü.
Sağlayıcılar: geçiş yolu PSP-X - PSP-Y; kotaları kontrol ediyorum.
İletişim: olay kanalı/durum sayfasına taslak güncelleme.
Biletler: Önceden doldurulmuş bölümlerle bir Jira oluşturmak.
6) Güvenlik ve gizlilik politikaları
Rollere/alanlara göre erişim: Operatör yalnızca "kendi" sistemlerini ve minimum düzeyde yeterli verileri görür.
Eylem günlüğü: kim/ne zaman/ne onaylandı, sonuç, geri alma.
PII/sırlar: cevaplar/günlüklerde maskeleme; "Ham" sırların erişilememesi.
İçerik depolama: TTL ve etiketleme ile çıkarılan eserler (RAG) sürümleri.
Bir eser olarak "akıl yürütme'nin yasaklanması: modelin iç yansımalarını değil, sonuçlara ve kaynaklara yapılan referansları koruyoruz.
Satıcı sınırları: çevreden ayrılan verilerin açık bir listesi (varsayılan olarak sıfır).
7) Kalite ve performans metrikleri
Operasyonel KPI'lar:- MTTD/MTTR ↓, Olay Öncesi Tespit Oranı ↑, Değişim Hatası Oranı ↓, Handoff Kalite Puanı ↑.
- Uyarı Yorgunluk ↓, ilk güncelleme zamanı ↓.
- Kabul Oranı, Kaydedilen Zaman/Kasa, Hassasiyet/Sınıfa göre geri çağırma (örn. P1), Halüsinasyon Oranı, Güvenlik Olayları = 0.
- Geri çağırma (P1) ≥ 0. 7, Hassas ≥ 0. 6, Kabul ≥ 0. 5, Zaman Tasarrufu ≥ %25, Halüsinasyon ≤ %2, kaynaklara zorunlu referanslar.
8) Endüstri Mühendisliği ve Bilgi Yönetimi
Sorgu şablonları: Ifadeleri standartlaştırın (aşağıdaki örnekler).
Bağlam katmanları: (a) sistem kuralları (güvenlik, yanıt stili), (b) kısa anahtar/etki alanı bağlamı, (c) yeni belgeler/zamanlamalar üzerinde RAG araması.
Bilgi sürümü oluşturma: Her çalışma kitabı/SOP'un bir'id @ sürümü've bir tarihi vardır, AI bir bağlantı ve bir sürüm yayınlar.
Yanıtların doğrulanması: tüm gerçek ifadeler için veri kaynaklarına/panolara başvurulması gerekir.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) Süreç gömme (SOP)
Olaylar: AI TL yayınlar; Her N dakikada bir DR, bir sonraki ETA'yı hazırlar, adımlar önerir.
Bültenler: Rapor öncesi ve sonrası özetler; Tahmini risklerde otogat.
Vardiyalar: Devir paketi kontrol listesine göre oluşturulur ve doğrulanır.
Postmortemler: zaman çizelgesine göre taslak + Düzeltici/Önleyici Faaliyetler listesi.
Raporlama: Gürültülü uyarıların ve ayar önerilerinin bir haftalık özeti.
10) Gösterge panoları ve widget'lar (minimum)
AI Ops Genel Bakış: Kabul edilen öneriler, zaman tasarrufu, eylemlerin başarısı/geri dönüşü.
Kaliteyi Deneme: Sınıfa Göre Hassasiyet/Hatırlama, Tartışmalı Durumlar, En İyi Hatalar.
Bilgi Sağlığı: runbook/SOP kapsamı, eski sürümler, alanlar.
Uyarı Hijyeni: gürültü kaynakları, ayar kuralı adayı.
Güvenlik ve Denetim: Eylemlerin günlüğü, başarısız girişimler, kuru çalışma raporları.
11) Anti-desenler
"Sihirli kutu her şeyi çözecek" - RAG ve bağlantılar olmadan, "tahmin" gerçekleriyle.
HITL/roller/limitler olmadan geri döndürülemez eylemleri otomatikleştirin.
Aramada prod/sahne eserlerinin harmanlanması.
Sırlar/PII asistanın cevapları ve günlükleri.
Kalite metrikleri ve fayda sonrası değerlendirme eksikliği.
"Tüm görevler için bir sohbet" - kartlar, durumlar ve eylem düğmeleri olmadan.
12) Uygulama kontrol listesi
- Etki alanları ve komut dosyaları (triyaj, özetler, devir teslim, biletler) tanımlanmıştır.
- RAG yapılandırılmış: runbook/SOP/postmortem/escalation matrix index (sürümleri ile).
- Entegrasyonlar: Gözlemlenebilirlik, Bayraklar, Serbest Bırakma, Biletler, Sağlayıcılar - güvenli araçlar aracılığıyla.
- Politikalar: roller, HITL, günlük, kuru çalışma, PII/gizli maskeleme.
- UX: Olay kartları, eylem düğmeleri, güven ve bağlantılar.
- Metrikler: AI-KPI ve Ops-KPI + panoları.
- Süreçler: AI içeren olaylar/sürümler/vardiyalar/post-mortemler için SOP'ler.
- Operatör eğitim planı ve asistan ile "iletişim kuralları".
13) "Güvenli" otomatik işlem örnekleri
TL yayın; Olay Kanalı'na DR/ETA.
Bir bilet oluşturma/güncelleme, eserleri bağlama.
Okuma metriklerinin ve günlüklerinin oluşturulması/başlatılması (sistemde değişiklik yapılmadan).
Bültenlerin/bayrakların grafiklerdeki ek açıklamaları.
Playbook dry-run hazırlanması (onay üzerine yapılacaktır).
14) Roller ve sorumluluklar
Ops Sahibi: iş sonuçları (MTTR, gürültü), SOP onayı.
Gözlemlenebilirlik/SRE: RAG, entegrasyonlar, güvenlik ve kalite ölçümleri.
Domain Leads: önerilerin doğrulanması, runbook/SOP'un alaka düzeyi.
Eğitim/Etkinleştirme: Onboarding operatörleri, "AI ile nasıl iletişim kurulacağı", sınavlar.
Uyumluluk/Güvenlik: veri politikası, denetim ve günlük depolama.
15) 30/60/90 - başlangıç planı
30 gün:- Bir etki alanında pilot (örneğin, Ödemeler): triyaj, TL; DR, biletler.
- Bilgi İndeksleme (RAG) ve Olay Kartları, dry-run faaliyetleri.
- Temel metrikler: Kabul/Zaman Tasarrufu/Hassasiyet/Geri Çağırma.
- Devir/ölüm sonrası yardımcı pilot, Flags/Release ile entegrasyon ekleyin.
- Tahmini ipuçları (burn-rate, lag) ve uyarı ayarlama önerileri ekleyin.
- Asistanı kullanarak iki oyun günü geçirin.
- Bahisler/Oyunlar/KYC'ye uzatma, şablonların birleştirilmesi.
- SOP'ları AI ile resmileştirin, KPI'ları üç aylık hedeflere girin.
- Ekonomik etki optimizasyonu (maliyet/olay, fazla mesai azaltma).
16) Yardımcı yanıt örnekleri (formatlar)
Olay kartı (örnek):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Devir TL; DR (örnek):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
Postmortem taslak (fragman):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) SSS
S: Önce ne otomatikleştirilir?
C: Briefs/tickets/knowledge search - güvenli ve anında zaman kazandırır. Ardından - HITL ile tahmini ipuçları ve yarı otomatik eylemler.
S: "Halüsinasyonlar'ile nasıl başa çıkılır?
C: Sadece RAG, sadece bağlantılar içeren cevaplar, kaynaksız cevapların yasaklanması, çevrimdışı kalite değerlendirmesi, retro'da işaretlemek ve sökmek için tartışmalı cevaplar.
S: Bir asistana "tuşlara basma" hakkı vermek mümkün mü?
C: Evet - geri dönüşümlü ve düşük riskli adımlar (ek açıklamalar, özetler, kuru çalışma, ön ölçek), gerisi - HITL ve roller aracılığıyla.