GH GambleHub

Վիրահատություններ և AI օգնականներ օպերատորների համար

AI օգնականները օպերատորների համար

1) Ինչո՞ ւ է դա անհրաժեշտ

Օպերատորները խեղդվում են ալերտներում, լոգարաններում և արտեֆակտներում։ AI-օգնականը տարբեր ազդանշաններ է վերածում հասկանալի առաջարկությունների և պատրաստի գործողությունների 'ավելի արագ եռակի, ավելի քիչ ձեռքով, քան SLO կանխատեսելիությունը։

Նպատակները

Նվազեցնել MTTD/MTTR-ը և ալերտների աղմուկը։

Բարձրացնել հանդովերների որակը և հետպատերազմյան փաստաթղթերը։

Ավտոմատիզացնել «ծանր ռուտինը» (ենթատեքստի, կամարների, հյուսվածքների որոնում)։

Ամրագրել պատասխանների/հաղորդակցությունների միասնական ստանդարտները։

2) Օգտագործման սցենարները (Top-12)

1. Մրցույթի եռյակը 'Ալերտերի խմբավորումը, պատճառների վարկածները, որոնք ցույց են տալիս գերակայությունը/ազդեցությունը։

2. Գործողությունների առաջարկությունները (Action Hinault). «Ի՞ նչ անել հիմա» 'հղում runbook-ի և գործարկման կոճակների վրա։

3. Avto-կամարները (Incident TL; DR), կարճ գոյատևումը 2019/սթեյքհոլդերի ջրանցքի համար։

4. Գիտելիքի որոնում (RAG) 'արագ պատասխաններ runbook/SOP/հետմորտեմներ/էսկալացիայի մատրիցա։

5. Tikets/apdeits-ի արտադրությունը 'Jira/Status-apdeits-ը ձևաչափով։

6. Ալերտների վերլուծությունը '«աղմկոտ կանոնների» հայտնաբերումը, թյունինգի առաջարկները։

7. Observability Q&A: «Ցույց տվեք p99 bets-api 1-ի համար» պատրաստի գրաֆիկներ/հարցումներ։

8. Վենդոր կոնտեքստը 'պրովայդերի (քվոտաներ, SLA, պատուհաններ, միջադեպեր)։

9. Նախապատերազմական հուշումներ. «Burn-rate no + lag) նախատեսվում է պատրաստել PSA-ի ֆեյլերը»։

10. Handover Copilot-ը dashbords/tikets-ի սկզբնական հերթափոխի հավաքումն է։

11. Postmortem Copilot: տարեգրություն լոգերից/տրեդներից + Chernovive/Corventive Actions։

12. Հաղորդագրությունների տեղայնացումը/տոնն է 'ճիշտ, կոնսիստենտ հաճախորդների ապդեյտներ։

3) Լուծման ճարտարապետությունը (բարձր մակարդակի)

Աղբյուրները ՝ մետրիկներ/լոգներ/թրեյսներ (Observability), tikets/պատահականություն, դելեգներ/ֆիչեֆլագներ, պրովայդեր կարգավիճակներ, SLO/OLA, runbook/SOP։

RAG շերտը (գիտելիքների որոնում) 'փաստաթղթերի ինդեքսավորումը գծանշմամբ (տիրույթը, տարբերակը, ամսաթիվը, սեփականատերը)։ Վյուխի «օպերատորի համար»։

Գործիքները (Toome/Actions) 'անվտանգ վիրահատություններ ՝ «scale-up HPA», «Կանարեյկայի դադար», «միացրեք safe-mode», «անցնել PFC», «ստեղծել ticet», «հավաքել գրաֆիկները»։ Բոլոր գործողությունները 'բրոքեր/նվագարկիչ աուդիտի միջոցով։

Policy-guardrails-ը 'դերերի իրավունքները, HITL-ապացույցը, լիմիտները, չոր գոթոնը (www.y-run), ամսագիրը։

Անվտանգություն ՝ KFC/Secrets, PII դիմակներ, mTSA, տվյալների հասանելիության աուդիտ։

Ինտերֆեյսներ ՝ chat/վահանակ MSC-ում, տեսանելի են dashbords-ում, սլաքային թիմերում։

💡 Սկզբունքը 'AI խորհուրդ է տալիս, մարդը ապացուցում է (HITL) զգայուն գործողությունների համար։ Ավտոմատիկան միայն անվտանգ և շրջադարձային քայլերի համար է (օրինակ, կամարի հրապարակումը, տիկետի ստեղծումը, տաշբորդի դիմումի ձևավորումը)։

4) UX-pattern (ինչ տեսնում է օպերատորը)

Քարտերը նշում են. <<ռուսական հիպոթեզների ախտանիշը (դասակարգված) 383 առաջարկված կոդեր են, որոնք հղում են ռուսական գործողությունների կոճակի տվյալներին>>։

Միակ պրոմպտ դաշտը '«Ձևավորեք handover փաթեթը վերջին 4ch համար Payments-ի համար»։

Վստահության/աղբյուրների լուսավորությունը '«հիմնված է Grafana, Postgres logs, Runbook v3»։

«Disy-Run» կոճակը ցույց տվեք, թե ինչ է արվելու և որտեղ ռիսկերը։

Որոշումների պատմությունը 'ով է քայլը, արդյունքը, արձագանքը/հաջողությունը։

5) Մոսկվան և գործողությունները (examples)

Observability: պատրաստ PromQL/LogsQL/Trace ֆիլտրեր, սեղմման գրաֆիկներ։

Feature Flags: միացնել safe-mode/նետել դրոշը (հաստատմամբ)։

Releault-canareica: Կասեցնել/վրիպել; ավելացնել իմիտացիա գրաֆիկայի վրա։

K8s 'HPA-ի նախկին սկեյլը, վերագործարկումը, PDB/Spread ստուգումը։

Պրովայդերներ 'PMS-X no PMS-Y; քվոտաների ստուգում։

Հաղորդակցություն 'ապդեյթի չեռնովիկոս 2019/կարգավիճակի էջ։

Tickets 'Jira-ի ստեղծումը նախապատերազմական հատվածներով։

6) Անվտանգության և գաղտնիության քաղաքականությունը

Դերերի/թողարկումների հասանելիությունը 'օպերատորը տեսնում է միայն «իր» համակարգերը և նվազագույն բավարար տվյալները։

Գործողությունների ամսագիրը 'ով/երբ/ինչ, արդյունքը, կպատասխանի։

PII/գաղտնիքները 'դիմակավորում պատասխաններում/լոգարաններում; «հում» գաղտնիքների անհասանելիությունը։

Բովանդակության պահպանումը 'արտեֆակտների (RAG) տարբերակները TTL-ի և մակնշման հետ։

«Տրամաբանությունների» արգելքը որպես արտեֆակտա, մենք պահպանում ենք եզրակացություններ և հղում աղբյուրներին, ոչ թե մոդելի ներքին մտածողություններին։

Գենդոր սահմաններ 'հստակ տվյալներ, որոնք թողնում են պարիմետրը (լռելյայն ՝ զրո)։

7) Արդյունավետության որակը և չափումը

Վիրահատական KPI

MTTD/MTTR ↓, Pre-Incident Detect Rate ↑, Change Failure Rate ↓, Handoff Quality Score ↑.

Alts Fatigue-ը (ալտերտեր օպերատորի/հերթափոխի վրա), ժամանակը մինչև առաջին դեղաչափը։

AI-KPI:
  • Acceptics Rate (ընդունումը), Time Saved/Cast, Precision/Recall դասարաններում (օրինակ, P1), Hallucination Rate (սխալ հայտարարություններ առանց աղբյուրների), Safety Incidents = 0։

Ռուսական դեֆոլտները

Recall(P1) ≥ 0. 7, Precision ≥ 0. 6, Acceptance ≥ 0. 5, Time Saved-ը 25 տոկոսն է, Hallucination-ը ՝ 2 տոկոսը աղբյուրների պարտադիր հղումով։

8) Պրոփտ-ինժեներինգը և գիտելիքների կառավարումը

Հարցման ձևանմուշները 'ստանդարտացնում ենք ձևակերպումները (ներքևում' օրինակներ)։

Ենթատեքստի շերտերը '(a) ստանդարտ կանոնները (անվտանգությունը, պատասխանների ոճը), (b) փոփոխման/տիրույթի կարճ համատեքստը, (b) RAG-ի որոնումը թարմ փաստաթղթերի/սահմանների միջոցով։

Գիտելիքների տարբերակումը 'յուրաքանչյուր runbook/SOP ունի «id @ version» և ամսաթիվը, AI-ն տալիս է հղում և տարբերակը։

Պատասխանների վալիդացիա. Մենք պահանջում ենք հղում տվյալների աղբյուրներին/dashbords բոլոր ռուսական հայտարարությունների համար։

Պրոմպտի ձևանմուշները (բեկորներ)


Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"

Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"

9) Կառուցվածք գործընթացներում (SOP)

Միջադեպերը ՝ AI-ն հրապարակում է TL-ը։ DR-ն յուրաքանչյուր N րոպե է պատրաստում հաջորդ ETA-ը, առաջարկում է քայլեր։

Ալգորիթմներ ՝ նախնիները և հետպատերազմյան խոռոչները։ ինքնագնաց ռիսկի ժամանակ։

Հերթափոխը 'Handover փաթեթը ձևավորվում է և վալիդացվում է չեկի տերևով։

Postmortems: Timline + Systrective/Medventive Actions ցուցակը։

Հաշվետվություններ ՝ շաբաթական աղմկոտ ալտերտերի և թյունինգի առաջարկների համար։

10) Dashbords և vijets (նվազագույն)

AI Ops Overview: Ռուսական առաջարկություններ, խնայված ժամանակը, հաջողությունը/գործողությունների արձագանքը։

Triaging Quality: Precision/Recall դասարաններում, վիճահարույց, Top-սխալները։

Knowledge Health 'runbook/SOP ծածկույթը, հնացած տարբերակները, օրինագծերը։

Alts Hygiene: աղմուկի աղբյուրներ, թյունինգի թեկնածուի կանոնները։

Safety & Audit: Գործողությունների լոգ, ձախողված փորձեր, www.y-run հաշվետվություններ։

11) Anti-patterna

«Կախարդական արկղը կլուծի ամեն ինչ» 'առանց RAG-ի և հղումների, փաստերի «գուշակության» հետ։

Անդառնալի գործողությունների ավտոմատացումը առանց HITL/դերերի/լիմիտների։

Պրոդ/սթեյջ արտեֆակտների խառնուրդը որոնման մեջ է։

Գաղտնիքները/PII-ը օգնականի պատասխաններում և լոգարաններում։

Որակի մետրի և օգուտների գնահատման բացակայությունը։

«Մեկ զրույց բոլոր առաջադրանքների համար» 'առանց քարտերի, կարգավիճակների և գործողությունների կոճակների։

12) Ներդրման չեկի ցուցակ

  • Որոշված են օրինագծերը և սցենարները (եռյակը, կամարները, handover, ticets)։
  • RAG: runbook/SOP/հետմորտեմներ/շարժասանդուղքների մատրիցներ (տարբերակներով)։
  • Քաղաքական գործիչներ 'դերեր, HITL, ամսագիր, www.y-run, PII/գաղտնիքների դիմակավորում։
  • UX 'քարտեր, գործողությունների կոճակներ, վստահություն և հղում։
  • Metriki: AI-KPI և Ops-KPI + dashbords։
  • Գործընթացներ ՝ SOP միջադեպերի/ֆորումների/հերթափոխերի/հետմորտեմների վրա AI-ի մասնակցությամբ։
  • Օպերատորների ուսուցման պլանը և «հաղորդակցության կանոնները» օգնականի հետ։
[Windows: Observability, Flags, Rele.ru, Tickets, Providers - անվտանգ toom միջոցով։

13) «անվտանգ» մեքենաների օրինակները

TL հրատարակությունը; DR/ETA-ը պատահականության ալիքի մեջ։
Թիկետի ստեղծումը/նորարարությունը, արտեֆակտների կապումը։
Գեներիա/մեթրիկի և լոգարանների կարդալու մեկնարկը (առանց համակարգի փոփոխության)։
Օրինագծերի/դրոշների ծանոթությունները գծապատկերներում։
Windy-run pleybuck-ի պատրաստումը (ինչ կլինի ապացուցման ժամանակ)։

14) Դերեր և պատասխանատվություն

Ops Owner: բիզնես արդյունքներ (MTTR, աղմուկ), SOP հայտարարությունը։
Observability/MSE: RAG, ռուսական, անվտանգություն և որակի չափումներ։
Domain Leads: valivation runbook/SOP։
Training/Enablect: Օպերատորների ուռուցքաբանը, "ինչպես հաղորդակցվել AI-ի հետ, քննությունները։
Compli.ru/Lenta.ru: Տվյալների քաղաքականությունը, աուդիտը և լոգարանների պահպանումը։

15) 30/60/90 - գործարկման պլանը

30 օր

Օդաչուն մեկ կիսագունդում (օրինակ ՝ Payments) 'եռյակը, TL; DR, թիկետներ։
Գիտելիքների ինդեքսավորումը (RAG) և մրցույթի քարտերը, www.y-run գործողությունները։
Հիմնական գծերը ՝ Accept.ru/Time Saved/Precision/Recall։

60 օր

Ավելացնել handover/postmortem copilot, որը կապված է Flags/Releam-ի հետ։
Միացրեք նախատիպային հուշումները (burn-rate, lag) և ալտերի թյունինգի առաջարկները։
Երկու game-day անցկացնել օգնականի միջոցով։

90 օր

Ընդլայնումը Bets/Games/KYC-ում, ձևանմուշների միավորումը։
Ձևավորել SOP-ը AI-ի հետ, KPI-ը տեղադրել թաղային նպատակներում։
Տնտեսական էֆեկտի օպտիմիզացումը (արժեքը/պատահականությունը, արտաժամյա նվազումը)։

16) Օգնական պատասխանների օրինակներ (108)

Մրցույթի քարտը (օրինակ)

Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3

Handover TL; DR (օրինակ)


SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.

Postmortem (հատված)։


Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene

17) FAQ

Q 'Ի՞ նչ ավտոմատիզացնել առաջինը։

A 'Ծափահարություններ/տիկետներ/գիտելիքների որոնումը անվտանգ է և անմիջապես խնայում է ժամանակը։ Ապա 'նախնական հուշումներ և HITL-ի հետ սեռական-ավտոմատ գործողություններ։

Q 'Ինչպե՞ ս պայքարել հալյուցինացիաների դեմ։

A 'Միայն RAG-ն, միայն հղումների պատասխանները, պատասխանների արգելքը առանց աղբյուրների, որակի ակնարկ, հակասական պատասխաններ նշելու և ռետրոյի վրա բաժանելու համար։

Q 'Կարո՞ ղ է օգնականին իրավունք տալ «կոճակներ ապրել»։

A: Այո, շրջադարձային և ցածր պահանջների համար (ծանոթագրություններ, կամարներ, www.y-run, scail), մնացածը 'HITL-ի և դերի միջոցով։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։