GH GambleHub

Operasyonlar ve Yönetim - Operatörler için AI yardımcıları

Operatörler için <> AI yardımcıları

1) Neden ihtiyacınız var

Operatörler uyarılar, günlükler ve dağınık eserler içinde boğulur. AI asistanı, heterojen sinyalleri anlaşılır önerilere ve hazır eylemlere dönüştürür: daha hızlı triyajlar, daha az manuel rutin, SLO'nun daha yüksek öngörülebilirliği.

Hedefler:
  • MTTD/MTTR ve uyarı gürültüsünü azaltın.
  • Devir işlemlerinin ve olay sonrası belgelerin kalitesini artırın.
  • "Ağır rutini" otomatikleştirin (bağlam, özet, bilet arayın).
  • Ortak yanıt/iletişim standartlarını kaydedin.

2) Uygulama senaryoları (Top-12)

1. Olayların triyajı: uyarıların gruplandırılması - nedenlerin hipotezleri - öncelik/etki.
2. Eylem İpuçları: Runbook ve başlatma düğmelerine bağlantılar içeren'şimdi ne yapmalı ".
3. Otomatik özetler (Olay TL; DR): Olay Kanalı/Paydaşlar için kısa bir sıkışma.
4. Bilgi Arama (RAG): runbook/SOP/postmortems/escalation matrix ile hızlı cevaplar.
5. Bilet/güncelleme oluşturma: Bir şablon kullanarak Jira/Durum güncellemelerinin taslakları.
6. Uyarı analizi: "gürültülü kuralları" belirleme, önerileri ayarlama.
7. Gözlemlenebilirlik Q&A: "1h'de p99 bahisleri-api göster" - hazır grafikler/istekler.
8. Satıcı bağlamı: sağlayıcı özeti (kotalar, SLA'lar, pencereler, olaylar).
9. Tahmini ipuçları: "Burn- rate↑ + lag↑ - bir PSP feiler hazırlayın".
10. Handover Copilot: Panolardan/biletlerden bir vardiya paketi toplamak.
11. Postmortem Copilot: günlüklerden/ipliklerden kronoloji + taslak Düzeltici/Önleyici Eylemler.
12. Mesajların yerelleştirilmesi/tonu: doğru, tutarlı müşteri güncellemeleri.

3) Çözüm mimarisi (üst düzey)

Kaynaklar: metrikler/günlükler/yollar (Gözlemlenebilirlik), biletler/olaylar, yapılandırmalar/phicheflags, sağlayıcı durumları, SLO/OLA dizini, runbook/SOP.
RAG katmanı (bilgi arama): Belgeleri işaretleme ile indeksleme (etki alanı, sürüm, tarih, sahip). Vyuhi "operatör için".
Araçlar/Eylemler: güvenli işlemler: "ölçeklendirme HPA", "kanarya duraklatma", "güvenli modu etkinleştir", "PSP'yi değiştir", "bilet oluştur", "çizelgeleri topla". "Tüm eylemler bir denetim ile bir broker/orkestratör aracılığıyla yapılır.
Poliçe korkulukları: role göre haklar, HITL onayı, limitler, kuru çalışma, dergi.
Güvenlik: KMS/Sırlar, PII maskeleri, mTLS, veri erişim denetimi.
Arayüzler: NOC'de sohbet/panel, panolardaki widget'lar, gevşek eğik çizgi komutları.

💡 İlke: AI tavsiye eder - hassas faaliyetler için kişi onaylar (HITL). Otomasyon - yalnızca güvenli ve geri dönüşümlü adımlar için (örneğin, bir özet yayınlamak, bir bilet oluşturmak, bir panoya bir istek oluşturmak).

4) UX desenleri (operatörün gördüğü)

Olay kartları: "semptom" hipotezi (sıralı) "önerilen 3 adım" veri "bağlantıları" eylem düğmeleri ".
Tek istemli alan: "Ödemeler için son 4 saatte bir devir paketi oluşturun".
Güven vurgulama/kaynaklar: "dayalı: Grafana, Postgres günlükleri, Runbook v3".
"Dry-Run" düğmesi: Ne yapılacağını ve risklerin nerede olduğunu gösterir.
Karar geçmişi: adımı, sonucu, geri dönüşü/başarıyı kimin onayladığı.

5) Entegrasyonlar ve eylemler (örnekler)

Gözlemlenebilirlik: Hazır PromQL/LogsQL/Trace filtreleri, tuşa basarak grafikler.
Özellik Bayrakları: güvenli modu etkinleştirin/bayrağı geri alın (onaylayarak).
Release-kanarya: duraklat/geri al; Grafikleri not edin.
K8s: HPA öncesi tarama, daemon'u yeniden başlatma, PDB/Spread kontrolü.
Sağlayıcılar: geçiş yolu PSP-X - PSP-Y; kotaları kontrol ediyorum.
İletişim: olay kanalı/durum sayfasına taslak güncelleme.
Biletler: Önceden doldurulmuş bölümlerle bir Jira oluşturmak.

6) Güvenlik ve gizlilik politikaları

Rollere/alanlara göre erişim: Operatör yalnızca "kendi" sistemlerini ve minimum düzeyde yeterli verileri görür.
Eylem günlüğü: kim/ne zaman/ne onaylandı, sonuç, geri alma.
PII/sırlar: cevaplar/günlüklerde maskeleme; "Ham" sırların erişilememesi.
İçerik depolama: TTL ve etiketleme ile çıkarılan eserler (RAG) sürümleri.
Bir eser olarak "akıl yürütme'nin yasaklanması: modelin iç yansımalarını değil, sonuçlara ve kaynaklara yapılan referansları koruyoruz.
Satıcı sınırları: çevreden ayrılan verilerin açık bir listesi (varsayılan olarak sıfır).

7) Kalite ve performans metrikleri

Operasyonel KPI'lar:
  • MTTD/MTTR ↓, Olay Öncesi Tespit Oranı ↑, Değişim Hatası Oranı ↓, Handoff Kalite Puanı ↑.
  • Uyarı Yorgunluk ↓, ilk güncelleme zamanı ↓.
AI-KPI:
  • Kabul Oranı, Kaydedilen Zaman/Kasa, Hassasiyet/Sınıfa göre geri çağırma (örn. P1), Halüsinasyon Oranı, Güvenlik Olayları = 0.
Hedef varsayılanları:
  • Geri çağırma (P1) ≥ 0. 7, Hassas ≥ 0. 6, Kabul ≥ 0. 5, Zaman Tasarrufu ≥ %25, Halüsinasyon ≤ %2, kaynaklara zorunlu referanslar.

8) Endüstri Mühendisliği ve Bilgi Yönetimi

Sorgu şablonları: Ifadeleri standartlaştırın (aşağıdaki örnekler).
Bağlam katmanları: (a) sistem kuralları (güvenlik, yanıt stili), (b) kısa anahtar/etki alanı bağlamı, (c) yeni belgeler/zamanlamalar üzerinde RAG araması.
Bilgi sürümü oluşturma: Her çalışma kitabı/SOP'un bir'id @ sürümü've bir tarihi vardır, AI bir bağlantı ve bir sürüm yayınlar.
Yanıtların doğrulanması: tüm gerçek ifadeler için veri kaynaklarına/panolara başvurulması gerekir.

İstemi şablonları (parçaları):

Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"

Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"

9) Süreç gömme (SOP)

Olaylar: AI TL yayınlar; Her N dakikada bir DR, bir sonraki ETA'yı hazırlar, adımlar önerir.
Bültenler: Rapor öncesi ve sonrası özetler; Tahmini risklerde otogat.
Vardiyalar: Devir paketi kontrol listesine göre oluşturulur ve doğrulanır.
Postmortemler: zaman çizelgesine göre taslak + Düzeltici/Önleyici Faaliyetler listesi.
Raporlama: Gürültülü uyarıların ve ayar önerilerinin bir haftalık özeti.

10) Gösterge panoları ve widget'lar (minimum)

AI Ops Genel Bakış: Kabul edilen öneriler, zaman tasarrufu, eylemlerin başarısı/geri dönüşü.
Kaliteyi Deneme: Sınıfa Göre Hassasiyet/Hatırlama, Tartışmalı Durumlar, En İyi Hatalar.
Bilgi Sağlığı: runbook/SOP kapsamı, eski sürümler, alanlar.
Uyarı Hijyeni: gürültü kaynakları, ayar kuralı adayı.
Güvenlik ve Denetim: Eylemlerin günlüğü, başarısız girişimler, kuru çalışma raporları.

11) Anti-desenler

"Sihirli kutu her şeyi çözecek" - RAG ve bağlantılar olmadan, "tahmin" gerçekleriyle.
HITL/roller/limitler olmadan geri döndürülemez eylemleri otomatikleştirin.
Aramada prod/sahne eserlerinin harmanlanması.
Sırlar/PII asistanın cevapları ve günlükleri.
Kalite metrikleri ve fayda sonrası değerlendirme eksikliği.
"Tüm görevler için bir sohbet" - kartlar, durumlar ve eylem düğmeleri olmadan.

12) Uygulama kontrol listesi

  • Etki alanları ve komut dosyaları (triyaj, özetler, devir teslim, biletler) tanımlanmıştır.
  • RAG yapılandırılmış: runbook/SOP/postmortem/escalation matrix index (sürümleri ile).
  • Entegrasyonlar: Gözlemlenebilirlik, Bayraklar, Serbest Bırakma, Biletler, Sağlayıcılar - güvenli araçlar aracılığıyla.
  • Politikalar: roller, HITL, günlük, kuru çalışma, PII/gizli maskeleme.
  • UX: Olay kartları, eylem düğmeleri, güven ve bağlantılar.
  • Metrikler: AI-KPI ve Ops-KPI + panoları.
  • Süreçler: AI içeren olaylar/sürümler/vardiyalar/post-mortemler için SOP'ler.
  • Operatör eğitim planı ve asistan ile "iletişim kuralları".

13) "Güvenli" otomatik işlem örnekleri

TL yayın; Olay Kanalı'na DR/ETA.
Bir bilet oluşturma/güncelleme, eserleri bağlama.
Okuma metriklerinin ve günlüklerinin oluşturulması/başlatılması (sistemde değişiklik yapılmadan).
Bültenlerin/bayrakların grafiklerdeki ek açıklamaları.
Playbook dry-run hazırlanması (onay üzerine yapılacaktır).

14) Roller ve sorumluluklar

Ops Sahibi: iş sonuçları (MTTR, gürültü), SOP onayı.
Gözlemlenebilirlik/SRE: RAG, entegrasyonlar, güvenlik ve kalite ölçümleri.
Domain Leads: önerilerin doğrulanması, runbook/SOP'un alaka düzeyi.
Eğitim/Etkinleştirme: Onboarding operatörleri, "AI ile nasıl iletişim kurulacağı", sınavlar.
Uyumluluk/Güvenlik: veri politikası, denetim ve günlük depolama.

15) 30/60/90 - başlangıç planı

30 gün:
  • Bir etki alanında pilot (örneğin, Ödemeler): triyaj, TL; DR, biletler.
  • Bilgi İndeksleme (RAG) ve Olay Kartları, dry-run faaliyetleri.
  • Temel metrikler: Kabul/Zaman Tasarrufu/Hassasiyet/Geri Çağırma.
60 gün:
  • Devir/ölüm sonrası yardımcı pilot, Flags/Release ile entegrasyon ekleyin.
  • Tahmini ipuçları (burn-rate, lag) ve uyarı ayarlama önerileri ekleyin.
  • Asistanı kullanarak iki oyun günü geçirin.
90 gün:
  • Bahisler/Oyunlar/KYC'ye uzatma, şablonların birleştirilmesi.
  • SOP'ları AI ile resmileştirin, KPI'ları üç aylık hedeflere girin.
  • Ekonomik etki optimizasyonu (maliyet/olay, fazla mesai azaltma).

16) Yardımcı yanıt örnekleri (formatlar)

Olay kartı (örnek):

Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Devir TL; DR (örnek):

SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
Postmortem taslak (fragman):

Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene

17) SSS

S: Önce ne otomatikleştirilir?
C: Briefs/tickets/knowledge search - güvenli ve anında zaman kazandırır. Ardından - HITL ile tahmini ipuçları ve yarı otomatik eylemler.

S: "Halüsinasyonlar'ile nasıl başa çıkılır?
C: Sadece RAG, sadece bağlantılar içeren cevaplar, kaynaksız cevapların yasaklanması, çevrimdışı kalite değerlendirmesi, retro'da işaretlemek ve sökmek için tartışmalı cevaplar.

S: Bir asistana "tuşlara basma" hakkı vermek mümkün mü?
C: Evet - geri dönüşümlü ve düşük riskli adımlar (ek açıklamalar, özetler, kuru çalışma, ön ölçek), gerisi - HITL ve roller aracılığıyla.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.