Operasyonlar ve Yönetim - Operatörler için AI yardımcıları

Operatörler için <> AI yardımcıları

1) Neden ihtiyacınız var

Operatörler uyarılar, günlükler ve dağınık eserler içinde boğulur. AI asistanı, heterojen sinyalleri anlaşılır önerilere ve hazır eylemlere dönüştürür: daha hızlı triyajlar, daha az manuel rutin, SLO'nun daha yüksek öngörülebilirliği.

Hedefler:

MTTD/MTTR ve uyarı gürültüsünü azaltın.
Devir işlemlerinin ve olay sonrası belgelerin kalitesini artırın.
"Ağır rutini" otomatikleştirin (bağlam, özet, bilet arayın).
Ortak yanıt/iletişim standartlarını kaydedin.

2) Uygulama senaryoları (Top-12)

1. Olayların triyajı: uyarıların gruplandırılması - nedenlerin hipotezleri - öncelik/etki.
2. Eylem İpuçları: Runbook ve başlatma düğmelerine bağlantılar içeren'şimdi ne yapmalı ".
3. Otomatik özetler (Olay TL; DR): Olay Kanalı/Paydaşlar için kısa bir sıkışma.
4. Bilgi Arama (RAG): runbook/SOP/postmortems/escalation matrix ile hızlı cevaplar.
5. Bilet/güncelleme oluşturma: Bir şablon kullanarak Jira/Durum güncellemelerinin taslakları.
6. Uyarı analizi: "gürültülü kuralları" belirleme, önerileri ayarlama.
7. Gözlemlenebilirlik Q&A: "1h'de p99 bahisleri-api göster" - hazır grafikler/istekler.
8. Satıcı bağlamı: sağlayıcı özeti (kotalar, SLA'lar, pencereler, olaylar).
9. Tahmini ipuçları: "Burn- rate↑ + lag↑ - bir PSP feiler hazırlayın".
10. Handover Copilot: Panolardan/biletlerden bir vardiya paketi toplamak.
11. Postmortem Copilot: günlüklerden/ipliklerden kronoloji + taslak Düzeltici/Önleyici Eylemler.
12. Mesajların yerelleştirilmesi/tonu: doğru, tutarlı müşteri güncellemeleri.

3) Çözüm mimarisi (üst düzey)

Kaynaklar: metrikler/günlükler/yollar (Gözlemlenebilirlik), biletler/olaylar, yapılandırmalar/phicheflags, sağlayıcı durumları, SLO/OLA dizini, runbook/SOP.
RAG katmanı (bilgi arama): Belgeleri işaretleme ile indeksleme (etki alanı, sürüm, tarih, sahip). Vyuhi "operatör için".
Araçlar/Eylemler: güvenli işlemler: "ölçeklendirme HPA", "kanarya duraklatma", "güvenli modu etkinleştir", "PSP'yi değiştir", "bilet oluştur", "çizelgeleri topla". "Tüm eylemler bir denetim ile bir broker/orkestratör aracılığıyla yapılır.
Poliçe korkulukları: role göre haklar, HITL onayı, limitler, kuru çalışma, dergi.
Güvenlik: KMS/Sırlar, PII maskeleri, mTLS, veri erişim denetimi.
Arayüzler: NOC'de sohbet/panel, panolardaki widget'lar, gevşek eğik çizgi komutları.

💡 İlke: AI tavsiye eder - hassas faaliyetler için kişi onaylar (HITL). Otomasyon - yalnızca güvenli ve geri dönüşümlü adımlar için (örneğin, bir özet yayınlamak, bir bilet oluşturmak, bir panoya bir istek oluşturmak).

4) UX desenleri (operatörün gördüğü)

Olay kartları: "semptom" hipotezi (sıralı) "önerilen 3 adım" veri "bağlantıları" eylem düğmeleri ".
Tek istemli alan: "Ödemeler için son 4 saatte bir devir paketi oluşturun".
Güven vurgulama/kaynaklar: "dayalı: Grafana, Postgres günlükleri, Runbook v3".
"Dry-Run" düğmesi: Ne yapılacağını ve risklerin nerede olduğunu gösterir.
Karar geçmişi: adımı, sonucu, geri dönüşü/başarıyı kimin onayladığı.

5) Entegrasyonlar ve eylemler (örnekler)

Gözlemlenebilirlik: Hazır PromQL/LogsQL/Trace filtreleri, tuşa basarak grafikler.
Özellik Bayrakları: güvenli modu etkinleştirin/bayrağı geri alın (onaylayarak).
Release-kanarya: duraklat/geri al; Grafikleri not edin.
K8s: HPA öncesi tarama, daemon'u yeniden başlatma, PDB/Spread kontrolü.
Sağlayıcılar: geçiş yolu PSP-X - PSP-Y; kotaları kontrol ediyorum.
İletişim: olay kanalı/durum sayfasına taslak güncelleme.
Biletler: Önceden doldurulmuş bölümlerle bir Jira oluşturmak.

6) Güvenlik ve gizlilik politikaları

Rollere/alanlara göre erişim: Operatör yalnızca "kendi" sistemlerini ve minimum düzeyde yeterli verileri görür.
Eylem günlüğü: kim/ne zaman/ne onaylandı, sonuç, geri alma.
PII/sırlar: cevaplar/günlüklerde maskeleme; "Ham" sırların erişilememesi.
İçerik depolama: TTL ve etiketleme ile çıkarılan eserler (RAG) sürümleri.
Bir eser olarak "akıl yürütme'nin yasaklanması: modelin iç yansımalarını değil, sonuçlara ve kaynaklara yapılan referansları koruyoruz.
Satıcı sınırları: çevreden ayrılan verilerin açık bir listesi (varsayılan olarak sıfır).

7) Kalite ve performans metrikleri

Operasyonel KPI'lar:

MTTD/MTTR ↓, Olay Öncesi Tespit Oranı ↑, Değişim Hatası Oranı ↓, Handoff Kalite Puanı ↑.
Uyarı Yorgunluk ↓, ilk güncelleme zamanı ↓.

AI-KPI:

Kabul Oranı, Kaydedilen Zaman/Kasa, Hassasiyet/Sınıfa göre geri çağırma (örn. P1), Halüsinasyon Oranı, Güvenlik Olayları = 0.

Hedef varsayılanları:

Geri çağırma (P1) ≥ 0. 7, Hassas ≥ 0. 6, Kabul ≥ 0. 5, Zaman Tasarrufu ≥ %25, Halüsinasyon ≤ %2, kaynaklara zorunlu referanslar.

8) Endüstri Mühendisliği ve Bilgi Yönetimi

Sorgu şablonları: Ifadeleri standartlaştırın (aşağıdaki örnekler).
Bağlam katmanları: (a) sistem kuralları (güvenlik, yanıt stili), (b) kısa anahtar/etki alanı bağlamı, (c) yeni belgeler/zamanlamalar üzerinde RAG araması.
Bilgi sürümü oluşturma: Her çalışma kitabı/SOP'un bir'id @ sürümü've bir tarihi vardır, AI bir bağlantı ve bir sürüm yayınlar.
Yanıtların doğrulanması: tüm gerçek ifadeler için veri kaynaklarına/panolara başvurulması gerekir.

İstemi şablonları (parçaları):


Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"

Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"

9) Süreç gömme (SOP)

Olaylar: AI TL yayınlar; Her N dakikada bir DR, bir sonraki ETA'yı hazırlar, adımlar önerir.
Bültenler: Rapor öncesi ve sonrası özetler; Tahmini risklerde otogat.
Vardiyalar: Devir paketi kontrol listesine göre oluşturulur ve doğrulanır.
Postmortemler: zaman çizelgesine göre taslak + Düzeltici/Önleyici Faaliyetler listesi.
Raporlama: Gürültülü uyarıların ve ayar önerilerinin bir haftalık özeti.

10) Gösterge panoları ve widget'lar (minimum)

AI Ops Genel Bakış: Kabul edilen öneriler, zaman tasarrufu, eylemlerin başarısı/geri dönüşü.
Kaliteyi Deneme: Sınıfa Göre Hassasiyet/Hatırlama, Tartışmalı Durumlar, En İyi Hatalar.
Bilgi Sağlığı: runbook/SOP kapsamı, eski sürümler, alanlar.
Uyarı Hijyeni: gürültü kaynakları, ayar kuralı adayı.
Güvenlik ve Denetim: Eylemlerin günlüğü, başarısız girişimler, kuru çalışma raporları.

11) Anti-desenler

"Sihirli kutu her şeyi çözecek" - RAG ve bağlantılar olmadan, "tahmin" gerçekleriyle.
HITL/roller/limitler olmadan geri döndürülemez eylemleri otomatikleştirin.
Aramada prod/sahne eserlerinin harmanlanması.
Sırlar/PII asistanın cevapları ve günlükleri.
Kalite metrikleri ve fayda sonrası değerlendirme eksikliği.
"Tüm görevler için bir sohbet" - kartlar, durumlar ve eylem düğmeleri olmadan.

12) Uygulama kontrol listesi

Etki alanları ve komut dosyaları (triyaj, özetler, devir teslim, biletler) tanımlanmıştır.
RAG yapılandırılmış: runbook/SOP/postmortem/escalation matrix index (sürümleri ile).
Entegrasyonlar: Gözlemlenebilirlik, Bayraklar, Serbest Bırakma, Biletler, Sağlayıcılar - güvenli araçlar aracılığıyla.
Politikalar: roller, HITL, günlük, kuru çalışma, PII/gizli maskeleme.
UX: Olay kartları, eylem düğmeleri, güven ve bağlantılar.
Metrikler: AI-KPI ve Ops-KPI + panoları.
Süreçler: AI içeren olaylar/sürümler/vardiyalar/post-mortemler için SOP'ler.
Operatör eğitim planı ve asistan ile "iletişim kuralları".

13) "Güvenli" otomatik işlem örnekleri

TL yayın; Olay Kanalı'na DR/ETA.
Bir bilet oluşturma/güncelleme, eserleri bağlama.
Okuma metriklerinin ve günlüklerinin oluşturulması/başlatılması (sistemde değişiklik yapılmadan).
Bültenlerin/bayrakların grafiklerdeki ek açıklamaları.
Playbook dry-run hazırlanması (onay üzerine yapılacaktır).

14) Roller ve sorumluluklar

Ops Sahibi: iş sonuçları (MTTR, gürültü), SOP onayı.
Gözlemlenebilirlik/SRE: RAG, entegrasyonlar, güvenlik ve kalite ölçümleri.
Domain Leads: önerilerin doğrulanması, runbook/SOP'un alaka düzeyi.
Eğitim/Etkinleştirme: Onboarding operatörleri, "AI ile nasıl iletişim kurulacağı", sınavlar.
Uyumluluk/Güvenlik: veri politikası, denetim ve günlük depolama.

15) 30/60/90 - başlangıç planı

30 gün:

Bir etki alanında pilot (örneğin, Ödemeler): triyaj, TL; DR, biletler.
Bilgi İndeksleme (RAG) ve Olay Kartları, dry-run faaliyetleri.
Temel metrikler: Kabul/Zaman Tasarrufu/Hassasiyet/Geri Çağırma.

60 gün:

Devir/ölüm sonrası yardımcı pilot, Flags/Release ile entegrasyon ekleyin.
Tahmini ipuçları (burn-rate, lag) ve uyarı ayarlama önerileri ekleyin.
Asistanı kullanarak iki oyun günü geçirin.

90 gün:

Bahisler/Oyunlar/KYC'ye uzatma, şablonların birleştirilmesi.
SOP'ları AI ile resmileştirin, KPI'ları üç aylık hedeflere girin.
Ekonomik etki optimizasyonu (maliyet/olay, fazla mesai azaltma).

16) Yardımcı yanıt örnekleri (formatlar)

Olay kartı (örnek):


Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3

Devir TL; DR (örnek):


SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.

Postmortem taslak (fragman):


Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene

17) SSS

S: Önce ne otomatikleştirilir?
C: Briefs/tickets/knowledge search - güvenli ve anında zaman kazandırır. Ardından - HITL ile tahmini ipuçları ve yarı otomatik eylemler.

S: "Halüsinasyonlar'ile nasıl başa çıkılır?
C: Sadece RAG, sadece bağlantılar içeren cevaplar, kaynaksız cevapların yasaklanması, çevrimdışı kalite değerlendirmesi, retro'da işaretlemek ve sökmek için tartışmalı cevaplar.

S: Bir asistana "tuşlara basma" hakkı vermek mümkün mü?
C: Evet - geri dönüşümlü ve düşük riskli adımlar (ek açıklamalar, özetler, kuru çalışma, ön ölçek), gerisi - HITL ve roller aracılığıyla.

Operasyonlar ve Yönetim - Operatörler için AI yardımcıları

Bizimle iletişime geçin

Hızlı iletişim

Video yakında güncellenecek

Şu anda projelerle çok meşgulüz