Վիրահատություններ և AI օգնականներ օպերատորների համար
AI օգնականները օպերատորների համար
1) Ինչո՞ ւ է դա անհրաժեշտ
Օպերատորները խեղդվում են ալերտներում, լոգարաններում և արտեֆակտներում։ AI-օգնականը տարբեր ազդանշաններ է վերածում հասկանալի առաջարկությունների և պատրաստի գործողությունների 'ավելի արագ եռակի, ավելի քիչ ձեռքով, քան SLO կանխատեսելիությունը։
Նպատակները
Նվազեցնել MTTD/MTTR-ը և ալերտների աղմուկը։
Բարձրացնել հանդովերների որակը և հետպատերազմյան փաստաթղթերը։
Ավտոմատիզացնել «ծանր ռուտինը» (ենթատեքստի, կամարների, հյուսվածքների որոնում)։
Ամրագրել պատասխանների/հաղորդակցությունների միասնական ստանդարտները։
2) Օգտագործման սցենարները (Top-12)
1. Մրցույթի եռյակը 'Ալերտերի խմբավորումը, պատճառների վարկածները, որոնք ցույց են տալիս գերակայությունը/ազդեցությունը։
2. Գործողությունների առաջարկությունները (Action Hinault). «Ի՞ նչ անել հիմա» 'հղում runbook-ի և գործարկման կոճակների վրա։
3. Avto-կամարները (Incident TL; DR), կարճ գոյատևումը 2019/սթեյքհոլդերի ջրանցքի համար։
4. Գիտելիքի որոնում (RAG) 'արագ պատասխաններ runbook/SOP/հետմորտեմներ/էսկալացիայի մատրիցա։
5. Tikets/apdeits-ի արտադրությունը 'Jira/Status-apdeits-ը ձևաչափով։
6. Ալերտների վերլուծությունը '«աղմկոտ կանոնների» հայտնաբերումը, թյունինգի առաջարկները։
7. Observability Q&A: «Ցույց տվեք p99 bets-api 1-ի համար» պատրաստի գրաֆիկներ/հարցումներ։
8. Վենդոր կոնտեքստը 'պրովայդերի (քվոտաներ, SLA, պատուհաններ, միջադեպեր)։
9. Նախապատերազմական հուշումներ. «Burn-rate no + lag) նախատեսվում է պատրաստել PSA-ի ֆեյլերը»։
10. Handover Copilot-ը dashbords/tikets-ի սկզբնական հերթափոխի հավաքումն է։
11. Postmortem Copilot: տարեգրություն լոգերից/տրեդներից + Chernovive/Corventive Actions։
12. Հաղորդագրությունների տեղայնացումը/տոնն է 'ճիշտ, կոնսիստենտ հաճախորդների ապդեյտներ։
3) Լուծման ճարտարապետությունը (բարձր մակարդակի)
Աղբյուրները ՝ մետրիկներ/լոգներ/թրեյսներ (Observability), tikets/պատահականություն, դելեգներ/ֆիչեֆլագներ, պրովայդեր կարգավիճակներ, SLO/OLA, runbook/SOP։
RAG շերտը (գիտելիքների որոնում) 'փաստաթղթերի ինդեքսավորումը գծանշմամբ (տիրույթը, տարբերակը, ամսաթիվը, սեփականատերը)։ Վյուխի «օպերատորի համար»։
Գործիքները (Toome/Actions) 'անվտանգ վիրահատություններ ՝ «scale-up HPA», «Կանարեյկայի դադար», «միացրեք safe-mode», «անցնել PFC», «ստեղծել ticet», «հավաքել գրաֆիկները»։ Բոլոր գործողությունները 'բրոքեր/նվագարկիչ աուդիտի միջոցով։
Policy-guardrails-ը 'դերերի իրավունքները, HITL-ապացույցը, լիմիտները, չոր գոթոնը (www.y-run), ամսագիրը։
Անվտանգություն ՝ KFC/Secrets, PII դիմակներ, mTSA, տվյալների հասանելիության աուդիտ։
Ինտերֆեյսներ ՝ chat/վահանակ MSC-ում, տեսանելի են dashbords-ում, սլաքային թիմերում։
4) UX-pattern (ինչ տեսնում է օպերատորը)
Քարտերը նշում են. <<ռուսական հիպոթեզների ախտանիշը (դասակարգված) 383 առաջարկված կոդեր են, որոնք հղում են ռուսական գործողությունների կոճակի տվյալներին>>։
Միակ պրոմպտ դաշտը '«Ձևավորեք handover փաթեթը վերջին 4ch համար Payments-ի համար»։
Վստահության/աղբյուրների լուսավորությունը '«հիմնված է Grafana, Postgres logs, Runbook v3»։
«Disy-Run» կոճակը ցույց տվեք, թե ինչ է արվելու և որտեղ ռիսկերը։
Որոշումների պատմությունը 'ով է քայլը, արդյունքը, արձագանքը/հաջողությունը։
5) Մոսկվան և գործողությունները (examples)
Observability: պատրաստ PromQL/LogsQL/Trace ֆիլտրեր, սեղմման գրաֆիկներ։
Feature Flags: միացնել safe-mode/նետել դրոշը (հաստատմամբ)։
Releault-canareica: Կասեցնել/վրիպել; ավելացնել իմիտացիա գրաֆիկայի վրա։
K8s 'HPA-ի նախկին սկեյլը, վերագործարկումը, PDB/Spread ստուգումը։
Պրովայդերներ 'PMS-X no PMS-Y; քվոտաների ստուգում։
Հաղորդակցություն 'ապդեյթի չեռնովիկոս 2019/կարգավիճակի էջ։
Tickets 'Jira-ի ստեղծումը նախապատերազմական հատվածներով։
6) Անվտանգության և գաղտնիության քաղաքականությունը
Դերերի/թողարկումների հասանելիությունը 'օպերատորը տեսնում է միայն «իր» համակարգերը և նվազագույն բավարար տվյալները։
Գործողությունների ամսագիրը 'ով/երբ/ինչ, արդյունքը, կպատասխանի։
PII/գաղտնիքները 'դիմակավորում պատասխաններում/լոգարաններում; «հում» գաղտնիքների անհասանելիությունը։
Բովանդակության պահպանումը 'արտեֆակտների (RAG) տարբերակները TTL-ի և մակնշման հետ։
«Տրամաբանությունների» արգելքը որպես արտեֆակտա, մենք պահպանում ենք եզրակացություններ և հղում աղբյուրներին, ոչ թե մոդելի ներքին մտածողություններին։
Գենդոր սահմաններ 'հստակ տվյալներ, որոնք թողնում են պարիմետրը (լռելյայն ՝ զրո)։
7) Արդյունավետության որակը և չափումը
Վիրահատական KPI
MTTD/MTTR ↓, Pre-Incident Detect Rate ↑, Change Failure Rate ↓, Handoff Quality Score ↑.
Alts Fatigue-ը (ալտերտեր օպերատորի/հերթափոխի վրա), ժամանակը մինչև առաջին դեղաչափը։
AI-KPI:- Acceptics Rate (ընդունումը), Time Saved/Cast, Precision/Recall դասարաններում (օրինակ, P1), Hallucination Rate (սխալ հայտարարություններ առանց աղբյուրների), Safety Incidents = 0։
Ռուսական դեֆոլտները
Recall(P1) ≥ 0. 7, Precision ≥ 0. 6, Acceptance ≥ 0. 5, Time Saved-ը 25 տոկոսն է, Hallucination-ը ՝ 2 տոկոսը աղբյուրների պարտադիր հղումով։
8) Պրոփտ-ինժեներինգը և գիտելիքների կառավարումը
Հարցման ձևանմուշները 'ստանդարտացնում ենք ձևակերպումները (ներքևում' օրինակներ)։
Ենթատեքստի շերտերը '(a) ստանդարտ կանոնները (անվտանգությունը, պատասխանների ոճը), (b) փոփոխման/տիրույթի կարճ համատեքստը, (b) RAG-ի որոնումը թարմ փաստաթղթերի/սահմանների միջոցով։
Գիտելիքների տարբերակումը 'յուրաքանչյուր runbook/SOP ունի «id @ version» և ամսաթիվը, AI-ն տալիս է հղում և տարբերակը։
Պատասխանների վալիդացիա. Մենք պահանջում ենք հղում տվյալների աղբյուրներին/dashbords բոլոր ռուսական հայտարարությունների համար։
Պրոմպտի ձևանմուշները (բեկորներ)
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) Կառուցվածք գործընթացներում (SOP)
Միջադեպերը ՝ AI-ն հրապարակում է TL-ը։ DR-ն յուրաքանչյուր N րոպե է պատրաստում հաջորդ ETA-ը, առաջարկում է քայլեր։
Ալգորիթմներ ՝ նախնիները և հետպատերազմյան խոռոչները։ ինքնագնաց ռիսկի ժամանակ։
Հերթափոխը 'Handover փաթեթը ձևավորվում է և վալիդացվում է չեկի տերևով։
Postmortems: Timline + Systrective/Medventive Actions ցուցակը։
Հաշվետվություններ ՝ շաբաթական աղմկոտ ալտերտերի և թյունինգի առաջարկների համար։
10) Dashbords և vijets (նվազագույն)
AI Ops Overview: Ռուսական առաջարկություններ, խնայված ժամանակը, հաջողությունը/գործողությունների արձագանքը։
Triaging Quality: Precision/Recall դասարաններում, վիճահարույց, Top-սխալները։
Knowledge Health 'runbook/SOP ծածկույթը, հնացած տարբերակները, օրինագծերը։
Alts Hygiene: աղմուկի աղբյուրներ, թյունինգի թեկնածուի կանոնները։
Safety & Audit: Գործողությունների լոգ, ձախողված փորձեր, www.y-run հաշվետվություններ։
11) Anti-patterna
«Կախարդական արկղը կլուծի ամեն ինչ» 'առանց RAG-ի և հղումների, փաստերի «գուշակության» հետ։
Անդառնալի գործողությունների ավտոմատացումը առանց HITL/դերերի/լիմիտների։
Պրոդ/սթեյջ արտեֆակտների խառնուրդը որոնման մեջ է։
Գաղտնիքները/PII-ը օգնականի պատասխաններում և լոգարաններում։
Որակի մետրի և օգուտների գնահատման բացակայությունը։
«Մեկ զրույց բոլոր առաջադրանքների համար» 'առանց քարտերի, կարգավիճակների և գործողությունների կոճակների։
12) Ներդրման չեկի ցուցակ
- Որոշված են օրինագծերը և սցենարները (եռյակը, կամարները, handover, ticets)։
- RAG: runbook/SOP/հետմորտեմներ/շարժասանդուղքների մատրիցներ (տարբերակներով)։
- Քաղաքական գործիչներ 'դերեր, HITL, ամսագիր, www.y-run, PII/գաղտնիքների դիմակավորում։
- UX 'քարտեր, գործողությունների կոճակներ, վստահություն և հղում։
- Metriki: AI-KPI և Ops-KPI + dashbords։
- Գործընթացներ ՝ SOP միջադեպերի/ֆորումների/հերթափոխերի/հետմորտեմների վրա AI-ի մասնակցությամբ։
- Օպերատորների ուսուցման պլանը և «հաղորդակցության կանոնները» օգնականի հետ։
[Windows: Observability, Flags, Rele.ru, Tickets, Providers - անվտանգ toom միջոցով։
13) «անվտանգ» մեքենաների օրինակները
TL հրատարակությունը; DR/ETA-ը պատահականության ալիքի մեջ։
Թիկետի ստեղծումը/նորարարությունը, արտեֆակտների կապումը։
Գեներիա/մեթրիկի և լոգարանների կարդալու մեկնարկը (առանց համակարգի փոփոխության)։
Օրինագծերի/դրոշների ծանոթությունները գծապատկերներում։
Windy-run pleybuck-ի պատրաստումը (ինչ կլինի ապացուցման ժամանակ)։
14) Դերեր և պատասխանատվություն
Ops Owner: բիզնես արդյունքներ (MTTR, աղմուկ), SOP հայտարարությունը։
Observability/MSE: RAG, ռուսական, անվտանգություն և որակի չափումներ։
Domain Leads: valivation runbook/SOP։
Training/Enablect: Օպերատորների ուռուցքաբանը, "ինչպես հաղորդակցվել AI-ի հետ, քննությունները։
Compli.ru/Lenta.ru: Տվյալների քաղաքականությունը, աուդիտը և լոգարանների պահպանումը։
15) 30/60/90 - գործարկման պլանը
30 օր
Օդաչուն մեկ կիսագունդում (օրինակ ՝ Payments) 'եռյակը, TL; DR, թիկետներ։
Գիտելիքների ինդեքսավորումը (RAG) և մրցույթի քարտերը, www.y-run գործողությունները։
Հիմնական գծերը ՝ Accept.ru/Time Saved/Precision/Recall։
60 օր
Ավելացնել handover/postmortem copilot, որը կապված է Flags/Releam-ի հետ։
Միացրեք նախատիպային հուշումները (burn-rate, lag) և ալտերի թյունինգի առաջարկները։
Երկու game-day անցկացնել օգնականի միջոցով։
90 օր
Ընդլայնումը Bets/Games/KYC-ում, ձևանմուշների միավորումը։
Ձևավորել SOP-ը AI-ի հետ, KPI-ը տեղադրել թաղային նպատակներում։
Տնտեսական էֆեկտի օպտիմիզացումը (արժեքը/պատահականությունը, արտաժամյա նվազումը)։
16) Օգնական պատասխանների օրինակներ (108)
Մրցույթի քարտը (օրինակ)
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
Handover TL; DR (օրինակ)
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
Postmortem (հատված)։
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) FAQ
Q 'Ի՞ նչ ավտոմատիզացնել առաջինը։
A 'Ծափահարություններ/տիկետներ/գիտելիքների որոնումը անվտանգ է և անմիջապես խնայում է ժամանակը։ Ապա 'նախնական հուշումներ և HITL-ի հետ սեռական-ավտոմատ գործողություններ։
Q 'Ինչպե՞ ս պայքարել հալյուցինացիաների դեմ։
A 'Միայն RAG-ն, միայն հղումների պատասխանները, պատասխանների արգելքը առանց աղբյուրների, որակի ակնարկ, հակասական պատասխաններ նշելու և ռետրոյի վրա բաժանելու համար։
Q 'Կարո՞ ղ է օգնականին իրավունք տալ «կոճակներ ապրել»։
A: Այո, շրջադարձային և ցածր պահանջների համար (ծանոթագրություններ, կամարներ, www.y-run, scail), մնացածը 'HITL-ի և դերի միջոցով։