Operacje i zarządzanie → pomocnicy AI dla operatorów
Pomocnicy ds. Sztucznej Inteligencji dla operatorów
1) Dlaczego go potrzebujesz
Operatorzy utonęli w wpisach, dziennikach i rozproszonych artefaktach. Asystent AI zmienia niejednorodne sygnały w zrozumiałe zalecenia i gotowe działania: szybsze triages, mniej rutynowe, większa przewidywalność SLO.
Cele:- Zmniejsz MTTD/MTTR i hałas ostrzegawczy.
- Poprawa jakości rękojeści i dokumentacji powypadkowej.
- Zautomatyzuj „ciężką rutynę” (wyszukiwanie kontekstu, podsumowanie, bilety).
- Rejestrowanie wspólnych standardów reagowania/komunikacji.
2) Scenariusze zastosowania (Top-12)
1. Triage incydentów: grupowanie wpisów → hipotezy przyczyn → priorytet/wpływ.
2. Wskazówki działania: „co teraz zrobić” z linkami do książki startowej i przycisków uruchamiania.
3. Automatyczne podsumowania (Incydent TL; DR): krótkie skrócenie dla kanału incydentalnego/zainteresowanych stron.
4. Search Knowledge (RAG): szybkie odpowiedzi przez runbook/SOP/postmortems/escalation matrix.
5. Generowanie biletów/aktualizacji: projekty aktualizacji Jira/Status przy użyciu szablonu.
6. Analityka alarmowa: identyfikacja „hałaśliwych reguł”, sugestie dostrajające.
7. Obserwowalność Q&A: „pokaż p99 zakłady-api w 1h” → gotowe wykresy/żądania.
8. Kontekst dostawcy: podsumowanie dostawcy (kwoty, SLA, okna, incydenty).
9. Podpowiedzi predykcyjne: "palenisko - szybkość- + lag" → przygotować feiler PSP ".
10. Przekazanie Copilot: zbieranie pakietu zmian z desek rozdzielczych/biletów.
11. Postmortem Copilot: chronologia z kłód/wątków + projekt działań naprawczych/zapobiegawczych.
12. Lokalizacja/ton wiadomości: poprawne, spójne aktualizacje klienta.
3) Architektura rozwiązania (wysoki poziom)
Źródła: mierniki/kłody/ścieżki (Obserwowalność), bilety/incydenty, konfiguracje/ficheflagi, statusy dostawcy, katalog SLO/OLA, runbook/SOP.
Warstwa RAG (wyszukiwanie wiedzy): indeksowanie dokumentów z markupem (domena, wersja, data, właściciel). Vyuhi „dla operatora”.
Narzędzia/Działania: bezpieczne operacje: "scale-up HPA", "canary pause", "enable-safe-mode", "switch PSP", "create ticket", "collect charts. "Wszystkie działania są przez brokera/orkiestra z audytu.
Guardrails: prawa według roli, potwierdzenie HITL, limity, dry-run, magazyn.
Bezpieczeństwo: KMS/Secrets, maski PII, mTLS, audyt dostępu do danych.
Interfejsy: czat/panel w NOC, widżety w deskach rozdzielczych, polecenia slack slash.
4) wzory UX (co operator widzi)
Karty incydentów: „symptom → hipoteza (ranking) → 3 proponowane kroki → linki do danych → przyciski akcji”.
Jedno pole prompt: „Utwórz pakiet przekazania w ciągu ostatnich 4h płatności”.
Podświetlanie zaufania/źródeł: „based on: Grafana, Postgres logs, Runbook v3”.
Przycisk „Dry-Run”: pokaż, co zostanie zrobione i gdzie jest ryzyko.
Historia decyzji: kto potwierdził krok, wynik, zwrot/sukces.
5) Integracja i działania (przykłady)
Obserwowalność: gotowe filtry PromQL/LogsQL/Trace, wykresy przez naciśnięcie.
Flagi funkcji: włącz tryb bezpieczny/cofnij flagę (z potwierdzeniem).
Uwolnienie kanarka: pauza/rolka z powrotem; zapisać wykresy.
K8s: wstępne skanowanie HPA, ponowne uruchomienie demona, sprawdzenie PDB/Spread.
Dostawcy: przełączanie trasy PSP-X → PSP-Y; sprawdzanie kwot.
Komunikaty: projekt aktualizacji do kanału incydentu/strony stanu.
Bilety: Tworzenie Jira z fabrycznie wypełnionych sekcji.
6) Polityka bezpieczeństwa i prywatności
Dostęp przez role/domeny: operator widzi tylko „swoje” systemy i minimalnie wystarczające dane.
Dziennik akcji: kto/kiedy/co potwierdzone, wynik, rollback.
PII/secrets: maskowanie w odpowiedziach/dziennikach; niedostępność „surowych” tajemnic.
Przechowywanie treści: Wersje ekstrahowanych artefaktów (RAG) z TTL i etykietowaniem.
Zakaz „rozumowania” jako artefakt: zachowujemy wnioski i odniesienia do źródeł, a nie wewnętrzne odbicia modelu.
Granice sprzedawcy: jasna lista danych opuszczających obwód (domyślnie zero).
7) Wskaźniki jakości i wydajności
KPI operacyjne:- MTTD/MTTR, szybkość wykrywania przed incydentem, zmiana wskaźnika awarii, wynik jakości Handoff.
- Alert zmęczenie, czas na pierwszą aktualizację.
- Wskaźnik akceptacji, czas zaoszczędzony/sprawa, precyzja/wycofanie według klasy (np. P1), wskaźnik omamy, zdarzenia związane z bezpieczeństwem = 0.
- Przypomnieć (P1) ≥ 0. 7, Dokładność ≥ 0. 6, Akceptacja ≥ 0. 5, Czas Saved ≥ 25%, halucynacje ≤ 2% z obowiązkowymi odniesieniami do źródeł.
8) Inżynieria przemysłowa i zarządzanie wiedzą
Szablony zapytań: ujednolicić brzmienie (przykłady poniżej).
Warstwy kontekstowe: a) zasady systemu (bezpieczeństwo, styl odpowiedzi), b) krótki przełącznik/kontekst domeny, c) wyszukiwanie RAG na świeżych dokumentach/harmonogramach.
Weryfikacja wiedzy: każdy runbook/SOP ma 'id @ version' i datę, AI wydaje link i wersję.
Walidacja odpowiedzi: wymagać odniesienia do źródeł danych/desek rozdzielczych dla wszystkich stwierdzeń faktycznych.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) Osadzanie procesów (SOP)
Incydenty: AI publikuje TL; DR co N minut, przygotowuje następny ETA, sugeruje kroki.
Publikacje: streszczenia wstępne i pokontrolne; autogate na ryzyko prognostyczne.
Zmiany: Przekazywanie pakietu jest formowane i zatwierdzane zgodnie z listą kontrolną.
Postmortems: projekt według linii czasowej + lista działań naprawczych/zapobiegawczych.
Raportowanie: Tygodniowy trawienie hałaśliwych wpisów i sugestie dostrajające.
10) Deski rozdzielcze i widżety (minimum)
AI Ops Przegląd: przyjęte zalecenia, czas zaoszczędzony, sukces/zwrot działań.
Triaging Jakość: Precision/Recall by Class, Kontrowersyjne przypadki, Top Bugs.
Wiedza Zdrowie: runbook/SOP coverage, legacy wersje, spacje.
Higiena alarmu: źródła hałasu, kandydat na zasadę dostrajania.
Bezpieczeństwo i audyt: dziennik działań, nieudane próby, raporty na sucho.
11) Anty-wzory
„Magiczne pudełko rozwiąże wszystko” - bez RAG i linków, z faktami „zgadywania”.
Zautomatyzuj nieodwracalne działania bez HITL/ról/limitów.
Mieszanie prod/scenicznych artefaktów w poszukiwaniu.
Sekrety/PII w odpowiedziach i dziennikach asystenta.
Brak wskaźników jakości i ocena po świadczeniach.
„Jeden czat dla wszystkich zadań” - bez kart, statusów i przycisków akcji.
12) Lista kontrolna wdrażania
- Domeny i skrypty (triage, streszczenia, przekazanie, bilety) są zdefiniowane.
- Konfiguracja RAG: runbook/SOP/postmortem/escalation matrix index (z wersjami).
- Integracje: Obserwability, Flags, Release, Bilety, Dostawcy - poprzez bezpieczne narzędzia.
- Zasady: role, HITL, log, dry-run, PII/secret masking.
- UX: Karty incydentów, przyciski akcji, zaufanie i linki.
- Wskaźniki: deski rozdzielcze AI-KPI i Ops-KPI +.
- Procesy: operacje SOP w przypadku incydentów/uwolnień/przesunięć/pośmiertnych z udziałem AI.
- Plan szkolenia operatora i „zasady komunikacji” z asystentem.
13) Przykłady „bezpiecznych” akcji automatycznych
Publikacja TL; DR/ETA do Incydent Channel.
Tworzenie/aktualizacja biletu, łącząc artefakty.
Generowanie/uruchamianie mierników i dzienników odczytu (bez zmian w systemie).
Adnotacje wydań/flag na wykresach.
Przygotowanie playbook suchy-run (który zostanie wykonany po potwierdzeniu).
14) Role i obowiązki
Ops Owner: wyniki biznesowe (MTTR, hałas), zatwierdzenie SOP.
Obserwowalność/SRE: RAG, integracje, wskaźniki bezpieczeństwa i jakości.
Prowadzenie domeny: walidacja zaleceń, adekwatność runbooka/SOP.
Szkolenie/możliwość: operatorzy pokładowi, „jak komunikować się z AI”, egzaminy.
Zgodność/Bezpieczeństwo: polityka danych, audyt i przechowywanie dzienników.
15) 30/60/90 - plan rozruchu
30 dni:- Pilot w jednej domenie (na przykład Płatności): triage, TL; DR, bilety.
- Indeksowanie wiedzy (RAG) i karty incydentów, działania na sucho.
- Podstawowe wskaźniki: Akceptacja/Czas Saved/Precision/Recall.
- Dodaj handover/postmortem copilot, integracja z Flags/Release.
- Uwzględnij wskazówki predykcyjne (szybkość spalania, opóźnienie) i wskazówki dotyczące dostrajania alarmu.
- Spędzić dwa dni z pomocą asystenta.
- Rozszerzenie do zakładów/gier/KYC, ujednolicenie szablonów.
- Formalizować SOP z AI, wprowadzić KPI w kwartalnych celów.
- Optymalizacja efektu ekonomicznego (koszt/incydent, redukcja nadgodzin).
16) Przykłady odpowiedzi asystenta (formaty)
Karta incydentu (przykład):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Przekazanie TL; DR (przykład):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
Projekt postmortem (fragment):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
P: Co najpierw zautomatyzować?
Odp.: Majtki/bilety/wyszukiwanie wiedzy - bezpieczne i natychmiast oszczędza czas. Następnie - wskazówki prognostyczne i półautomatyczne działania z HITL.
P: Jak radzić sobie z „halucynacjami”?
Odp.: Tylko RAG, tylko odpowiedzi z linkami, zakaz odpowiedzi bez źródeł, ocena jakości offline, kontrowersyjne odpowiedzi na znak i demontaż w retro.
P: Czy można dać asystentowi prawo do „naciśnięcia przycisków”?
Odp.: Tak - dla etapów odwracalnych i niskiego ryzyka (adnotacje, podsumowania, suchy bieg, skala wstępna), reszta - poprzez HITL i role.