운영자를위한 운영 및 관리 → AI 도우미
운영자를위한 AI 도우미
1) 왜 필요한가
작업자는 경고, 통나무 및 흩어져있는 인공물에 빠졌습니다. AI 어시스턴트는 이기종 신호를 이해할 수있는 권장 사항 및 기성품 작업 (빠른 심사, 수동 루틴 감소, SLO의 높은 예측 가능성) 으로 전환합니다.
목표:- MTTD/MTTR을 줄이고 노이즈를 경고합니다.
- 핸드 오버 및 사후 문서의 품질을 향상시킵니다.
- "무거운 루틴" (컨텍스트, 요약, 티켓 검색) 을 자동화하십시오.
- 공통 응답/통신 표준을 기록하십시오
2) 응용 프로그램 시나리오 (Top-12)
1. 사고 심사: 경고 그룹 → 원인 가설 → 우선 순위/영향.
2. 액션 힌트: 런북 및 런칭 버튼에 대한 링크를 사용하여 "지금해야 할 일".
3. 자동 요약 (Incident TL; DR): 사건 채널/이해 관계자를위한 간단한 압박.
4. RAG (Knowledge Search): runbook/SOP/postmortems/escaption 행렬에 의한 빠른 답변.
5. 티켓/업데이트 생성: 템플릿을 사용하여 Jira/Status 업데이트 초안.
6. 경고 분석: "잡음 규칙" 식별, 제안 조정.
7. 관찰 가능성 Q&A: "1 시간에 p99 베팅-api 표시" → 기성품 그래프/요청.
8. 공급 업체 컨텍스트: 공급자 요약 (쿼터, SLA, 창, 사건).
9. 예측 힌트: "번 레이트 Z + 시차 → PSP 페일러를 준비하십시오".
10. 핸드 오버 코파일럿: 대시 보드/티켓에서 교대 패키지 수집.
11. 사후 카파일럿: 로그/스레드의 연대기 + 교정/예방 조치 초안.
12. 메시지의 현지화/톤: 올바르고 일관된 클라이언트 업데이트.
3) 솔루션 아키텍처 (고급)
출처: 메트릭/로그/트레일 (관찰 가능성), 티켓/사건, 구성 요소/피체 플래그, 공급자 상태, SLO/OLA 디렉토리, 런북/SOP.
RAG 계층 (지식 검색): 마크 업 (도메인, 버전, 날짜, 소유자) 이있는 문서 색인. Vyuhi "운영자를위한".
도구/작업: 안전한 작업: "스케일 업 HPA", "카나리아 일시 정지", "안전 모드 활성화", "스위치 PSP", "티켓 생성", "차트 수집". "모든 조치는 감사를받는 브로커/오케 스트레이터를 통한 것입니다.
정책 가드 레일: 역할 별 권리, HITL 확인, 제한, 드라이 런, 잡지.
보안: KMS/Secrets, PII 마스크, mSL, 데이터 액세스 감사.
인터페이스: NOC의 채팅/패널, 대시 보드의 위젯, 슬랙 슬래시 명령.
4) UX 패턴 (운영자가 보는 것)
사건 카드: "증상 → 가설 (순위) → 3 제안 된 단계 → 데이터 → 동작 단추에 링크".
단일 프롬프트 필드: "지불 마지막 4 시간 동안 핸드 오버 패킷을 만듭니다".
자신감/출처 강조: "기반: Grafana, Postgres 로그, Runbook v3".
"드라이 런" 버튼: 수행 할 작업과 위험 위치를 보여줍니다.
결정 이력: 단계, 결과, 롤백/성공을 확인한 사람.
5) 통합 및 작업 (예)
관찰 가능성: 기성품 PromQL/LogsQL/Trace 필터, 누르면 그래프.
기능 플래그: 안전 모드/롤백 플래그 활성화 (확인 포함).
릴리스 카나리아: 일시 정지/롤백; 그래프에 주석을 달았습니다.
K8: 사전 스캔 HPA, 데몬 재시작, PDB/스프레드 확인.
제공자: 경로 PSP-X → PSP-Y 전환; 할당량 확인.
커뮤니케이션: 사건 채널/상태 페이지에 대한 초안 업데이트.
티켓: 미리 채워진 섹션으로 지라 만들기.
6) 보안 및 개인 정보 보호 정책
역할/도메인 별 액세스: 운영자는 "그의" 시스템과 최소한의 충분한 데이터 만 볼 수 있습니다.
동작 로그: 누가/언제/무엇을 확인했는지, 결과, 롤백.
PII/비밀: 답변/로그에 마스킹; "원시" 비밀의 접근성이 없습니다.
컨텐츠 저장: TTL 및 라벨링이있는 추출 된 아티팩트 (RAG) 버전.
인공물로서의 "추론" 금지: 우리는 모델의 내부 반영이 아니라 결론과 출처에 대한 언급을 보존합니다.
공급 업체 경계: 경계를 떠나는 명확한 데이터 목록 (기본적으로 0).
7) 품질 및 성능 지표
운영 KPI:- MTTD/MTTR 텍스트, 사전 사고 탐지 속도, 변경 실패율 컨테이너, 핸드 오프 품질 점수 RAM.
- 알림 피로그를 선택하십시오.
- 수락률, 시간 절약/사례, 수업 별 정밀/리콜 (예: P1), 환각률, 안전 사고 = 0.
- 리콜 (P1) 7, 정밀 6, 수락률 0입니다. 5, 시간은 25% 이상 절약되었고, 환각은 소스에 대한 필수 참조로 2% 입니다.
8) 산업 공학 및 지식 관리
쿼리 템플릿: 문구를 표준화합니다 (아래 예).
컨텍스트 계층: (a) 시스템 규칙 (보안, 응답 스타일), (b) 간단한 스위치/도메인 컨텍스트, (c) 새로운 문서/일정에 대한 RAG 검색.
지식 버전: 각 런북/SOP에는 'id @ 버전' 과 날짜가 있으며 AI는 링크와 버전을 발행합니다.
응답 검증: 모든 사실 진술에 대한 데이터 소스/대시 보드에 대한 참조가 필요합니다.
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) 공정 임베딩 (SOP)
사건: AI는 TL을 출판합니다. N 분마다 DR, 다음 ETA를 준비하고 단계를 제안합니다.
릴리스: 보고 전 및 사후 요약; 예측 위험을 자동화하십시오.
시프트: 핸드 오버 패키지는 체크리스트에 따라 구성되고 검증됩니다.
사후 조사: 타임 라인 별 초안 + 수정/예방 조치 목록.
보고: 일주일 동안 시끄러운 경고 및 튜닝 제안을 소화합니다.
10) 대시 보드 및 위젯 (최소)
AI Ops 개요: 허용 된 권장 사항, 시간 절약, 성공/행동 롤백.
심사 품질: 클래스 별 정밀/리콜, 논란의 여지가있는 사례, 최고 버그.
지식 건강: 런북/SOP 범위, 레거시 버전, 공간.
경보 위생: 소음 소스, 튜닝 규칙 후보.
안전 및 감사: 행동 기록, 실패한 시도, 드라이 런 보고서.
11) 반 패턴
"매직 박스는 모든 것을 해결할 것입니다" -RAG없이 "추측" 사실과 연결됩니다.
HITL/역할/제한없이 돌이킬 수없는 행동을 자동화하십시오.
검색에서 prod/stage 아티팩트의 혼합.
조수의 답변과 기록에있는 비밀/PII.
품질 지표 부족 및 혜택 후 평가.
"모든 작업에 대한 하나의 채팅" -카드, 상태 및 동작 버튼이 없습니다.
12) 구현 점검표
- 도메인 및 스크립트 (심사, 요약, 핸드 오버, 티켓) 가 정의됩니다.
- RAG 구성: 런북/SOP/사후/에스컬레이션 행렬 지수 (버전 포함).
- 통합: 안전한 도구를 통한 관찰 가능성, 깃발, 출시, 티켓, 공급자.
- 정책: 역할, HITL, 로그, 드라이 런, PII/비밀 마스킹.
- UX: 인시던트 카드, 액션 버튼, 자신감 및 링크.
- 메트릭: AI-KPI 및 Ops-KPI + 대시 보드.
- 프로세스: AI와 관련된 사건/릴리스/시프트/사후 모템에 대한 SOP.
- 조수와의 운영자 교육 계획 및 "통신 규칙".
13) "안전한" 자동 동작의 예
TL 간행물; DR/ETA-Incident Channel.
티켓 작성/업데이트, 아티팩트 연결
읽기 지표 및 로그의 생성/시작 (시스템의 변경없이).
그래프에서 릴리스/플래그의 주석.
플레이 북 드라이 런 준비 (확인시 수행).
14) 역할과 책임
Ops 소유자: 비즈니스 성과 (MTTR, 노이즈), SOP 승인.
관찰 가능성/SRE: RAG, 통합, 안전 및 품질 지표.
도메인 리드: 권장 사항 검증, 런북/SOP의 관련성.
교육/지원: 온 보드 운영자, "AI와 의사 소통하는 방법", 시험.
준수/보안: 데이터 정책, 감사 및 로그 스토리지.
15) 30/60/90-시작 계획
30 일:- 하나의 도메인 (예: 지불) 에있는 파일럿: 심사, TL; DR, 티켓.
- RAG (Knowledge Indexing) 및 사건 카드, 드라이 런 활동.
- 기본 지표: 수락/시간 저장/정밀/리콜.
- 핸드 오버/사후 부조종사 추가, 플래그/릴리스와의 통합.
- 예측 힌트 (연소율, 지연) 및 경고 튜닝 제안을 포함하십시오.
- 조수를 사용하여 이틀 동안 보내십시오.
- Bets/Games/KYC 로의 확장, 템플릿 통일.
- AI로 SOP를 공식화하고 분기 별 대상으로 KPI를 입력하십시오.
- 경제 효과 최적화 (비용/사고, 초과 근무 감소).
16) 보조 응답의 예 (형식)
인시던트 카드 (예):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
핸드 오버 TL; DR (예):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
사후 초안 (조각):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
Q: 먼저 무엇을 자동화해야합니까?
A: 브리프/티켓/지식 검색-안전하고 즉시 시간을 절약합니다. 그런 다음 HITL을 사용한 예측 단서 및 반자동 동작.
Q: "환각" 을 다루는 방법?
A: RAG 만 링크로만 답변, 소스가없는 답변 금지, 오프라인 품질 평가, 복고풍으로 표시 및 분해에 대한 논란의 여지가있는 답변.
Q: 조수에게 "버튼을 누를" 권리를 부여 할 수 있습니까?
A: HITL과 역할을 통한 가역적 및 저 위험 단계 (주석, 요약, 드라이 런, 프리 스케일), 나머지는.