ऑपरेटरों के लिए संचालन और प्रबंधन - एआई सहायक
ऑपरेटरों के लिए एआई सहायक
1) आपको इसकी आवश्यकता क्यों है
ऑपरेटर अलर्ट, लॉग और बिखरी हुई कलाकृतियों में डूब जाते हैं। एआई सहायक विषम संकेतों को समझने योग्य सिफारिशों और तैयार किए गए कार्यों में बदल देता है: तेज ट्राइएज, कम मैनुअल रूटीन, एसएलओ की उच्च भविष्यवाणी।
उद्देश्य:- MTTD/MTTR को कम करें और सतर्क शोर करें।
- हैंडओवर और पोस्ट-इवेंट प्रलेखन की गुणवत्ता में सुधार।
- स्वचालित "भारी दिनचर्या" (संदर्भ, सारांश, टिकट की खोज)।
- सामान्य प्रतिक्रिया/संचार मानकों को
2) अनुप्रयोग परिदृश्य (Top-12)
1. घटनाओं की त्रिगुट: अलर्ट का समूहन - कारणों की परिकल्पना - प्राथमिकता/प्रभाव।
2. एक्शन संकेत: रनबुक और लॉन्च बटन के लिंक के साथ "अब क्या करना है"।
3. ऑटो-सारांश (हादसा टीएल; DR): हादसे चैनल/हितधारकों के लिए एक संक्षिप्त निचोड़।
4. ज्ञान खोज (आरएजी): रनबुक/एसओपी/पोस्टमॉर्टम/एस्केलेशन मैट्रिक्स द्वारा त्वरित उत्तर।
5. टिकट/अद्यतन उत्पन्न करना: एक टेम्पलेट का उपयोग करके जीरा/स्थिति अद्यतन के ड्राफ्ट।
6. अलर्ट एनालिटिक्स: "शोर नियमों" की पहचान करना, ट्यूनिंग सुझाव।
7. ऑब्जर्वेबिलिटी क्यू एंड ए: "1h में p99 दांव-एपी दिखाएं" - रेडी-मेड ग्राफ/अनुरोध।
8. विक्रेता संदर्भ: प्रदाता सारांश (कोटा, एसएलए, खिड़कियां, घटनाएँ)।
9. भविष्यवाणी संकेत: "बर्न- + rate↑ lag↑ → PSP फीलर तैयार करें।"
10. हैंडओवर कोपिलॉट: डैशबोर्ड/टिकट से एक शिफ्ट पैकेज एकत्र करना।
11. पोस्टमॉर्टम कोपिलॉट: लॉग/थ्रेड्स + ड्राफ्ट सुधारात्मक/निवारक क्रियाओं से कालक्रम।
12. संदेशों का स्थानीयकरण/स्वर: सही, सुसंगत क्लाइंट अद्यतन।
3) समाधान वास्तुकला (उच्च-स्तरीय)
स्रोत: मैट्रिक्स/लॉग/ट्रेल्स (ऑब्जर्वेबिलिटी), टिकट/घटनाएं, कॉन्फ़िग/फ़िचफ्लैग, प्रदाता स्टेटस, एसएलओ/ओएलए निर्देशिका, रनबुक/एसओपी।
आरएजी परत (ज्ञान खोज): मार्कअप (डोमेन, संस्करण, तिथि, स्वामी) के साथ दस्तावेजों का अनुक्रमण। व्युही "ऑपरेटर के लिए"।
उपकरण/क्रियाएं: सुरक्षित संचालन: "स्केल-अप एचपीए", "कैनरी ठहराव", "सुरक्षित-मोड", "स्विच पीएसपी", "टिकट बनाएं", "चार्ट एकत्र करें। "सभी कार्य एक ऑडिट के साथ एक दलाल/ऑर्केस्ट्रेटर के माध्यम से होते हैं।
नीति-रेल: भूमिका, HITL पुष्टि, सीमा, सूखी दौड़, पत्रिका द्वारा अधिकार।
सुरक्षा: केएमएस/सीक्रेट, पीआईआई मास्क, एमटीएलएस, डेटा एक्सेस ऑडिट।
इंटरफेस: एनओसी में चैट/पैनल, डैशबोर्ड में विजेट, स्लैक स्लैश कमांड।
4) यूएक्स पैटर्न (ऑपरेटर क्या देखता है)
हादसा कार्ड: "लक्षण परिकल्पना (रैंक) 3 प्रस्तावित कदम - डेटा एक्शन बटन के लिंक।"
एकल संकेत क्षेत्र: "भुगतान के लिए अंतिम 4 एच में एक हैंडओवर पैकेट बनाएं।"
आत्मविश्वास/स्रोतों पर प्रकाश डालते हुए: "पर आधारित: ग्राफाना, पोस्टग्रेस लॉग्स, रनबुक v3"।
"ड्राई-रन" बटन: दिखाएं कि क्या किया जाएगा और जोखिम कहां हैं।
निर्णय इतिहास: जिसने कदम की पुष्टि की, परिणाम, रोलबैक/सफलता।
5) एकीकरण और कार्रवाई (उदाहरण)
अवलोकन: तैयार PromQL/LogsQL/ट्रेस फ़िल्टर, दबाकर रेखांकन।
फ्लैग्स: सुरक्षित मोड/फ्लैग को वापस रोल करें (पुष्टि के साथ).
रिलीज-कैनरी: ठहराव/रोल बैक; रेखांकन एनोट करें।
K8s: प्री-स्कैन एचपीए, पुनः आरंभ डेमन, पीडीबी/स्प्रेड चेक।
प्रदाता: स्विचिंग मार्ग PSP-X → PSP-Y; कोटा की जाँच कर रहा है।
संचार: घटना चैनल/स्थिति पृष्ठ के लिए मसौदा अद्यतन
टिकट: पूर्व-भरे वर्गों के साथ एक जीरा बनाना।
6) सुरक्षा और गोपनीयता नीतियां
भूमिकाओं/डोमेन द्वारा प्रवेश: ऑपरेटर केवल "अपने" सिस्टम और न्यूनतम पर्याप्त डेटा देखता है
एक्शन लॉग: कौन/कब/क्या पुष्टि, परिणाम, रोलबैक।
PII/रहस्य: उत्तर/लॉग में मास्किंग; "कच्चे" रहस्यों की दुर्गमता।
सामग्री भंडारण: टीटीएल और लेबलिंग के साथ निकाली गई कलाकृतियों (आरएजी) के संस्करण।
एक कलाकृति के रूप में "तर्क" का निषेध: हम स्रोतों के निष्कर्ष और संदर्भों को संरक्षित करते हैं, न कि मॉडल के आंतरिक प्रतिबिंब।
वेंडर-सीमाएँ: परिधि छोड़ ने वाले डेटा की एक स्पष्ट सूची (डिफ़ॉल्ट रूप से शून्य)।
7) गुणवत्ता और प्रदर्शन मैट्रिक्स
परिचालन केपीआई:- MTTD/MTTR , प्री-इंसीडेंट डिटेक्ट रेट , फेल्योर रेट बदलें, हैंडऑफ क्वालिटी स्कोर ।
- अलर्ट थकान ↓, पहले अपडेट करने का समय ↓।
- स्वीकृति दर, समय सहेजा/केस, वर्ग द्वारा परिशुद्धता/रिकॉल (उदा। पी 1), मतिभ्रम दर, सुरक्षा घटनाएं = 0।
- रिकॉल (P1) ≥ 0। 7, परिशुद्धता ≥ 0। 6, स्वीकृति ≥ 0। 5, समय बचाया ≥ 25%, स्रोतों के लिए अनिवार्य संदर्भों के साथ मतिभ्रम ≤ 2%।
8) औद्योगिक इंजीनियरिंग और ज्ञान प्रबंधन
क्वैरी टेम्पलेट: शब्द का मानकीकरण करें (नीचे उदाहरण)।
संदर्भ परतें: (ए) सिस्टम नियम (सुरक्षा, प्रतिक्रिया शैली), (बी) संक्षिप्त स्विच/डोमेन संदर्भ, (सी) आरएजी नए दस्तावेजों/अनुसूचियों पर खोज।
ज्ञान संस्करण: प्रत्येक रनबुक/एसओपी में एक 'आईडी @ संस्करण' और एक तारीख है, एआई एक लिंक और एक संस्करण जारी करता है।
प्रतिक्रियाओं का सत्यापन: सभी तथ्यात्मक बयानों के लिए डेटा स्रोतों/डैशबोर्ड के संदर्भ की आवश्यक
शीघ्र टेम्पलेट (टुकड़े):
Triage:
"You are an SRE operator. Based on [Grafana: payments, Logs:psp_x, Incidents: last 24h]
group alerts into 3-5 hypotheses with probability, effect on SLO, and brief validation steps.
Answer: hypothesis cards + links"
Handover:
"Collect handover packet in last 4h for Payments domain:
SLO, incidents (ETA), releases/canaries, providers/quotas, risks/observations, action items.
Add links to panels and tickets"
9) प्रक्रिया एम्बेडिंग (एसओपी)
घटनाएं: एआई टीएल प्रकाशित करता है; डीआर हर एन मिनट, अगले ईटीए तैयार करता है, कदम सुझाता है।
रिलीज़: प्री- और पोस्ट-रिपोर्ट सारांश; पूर्वानुमानित जोखिमों पर ऑटोगेट करें।
शिफ्ट: हैंडओवर पैकेज चेकलिस्ट के अनुसार बनाया और मान्य किया जाता है।
पोस्टमॉर्टम: समयरेखा + सुधारात्मक/निवारक क्रियाओं की सूची द्वारा मसौदा।
रिपोर्टिंग: शोर अलर्ट और ट्यूनिंग सुझावों का एक सप्ताह का पाचन।
10) डैशबोर्ड और विजेट (न्यूनतम)
एआई ऑप्स अवलोकन: स्वीकृत सिफारिशें, समय बचाया, सफलता/कार्रवाई का रोलबैक।
ट्राइजिंग क्वालिटी: क्लास द्वारा सटीक/रिकॉल, विवादास्पद मामले, टॉप कीड़े।
ज्ञान स्वास्थ्य: रनबुक/एसओपी कवरेज, विरासत संस्करण, रिक्त स्थान।
अलर्ट स्वच्छता: शोर स्रोत, ट्यूनिंग नियम उम्मीदवार।
सुरक्षा और लेखा परीक्षा: कार्रवाई का लॉग, असफल प्रयास, शुष्क चलाने वाली रिपोर्ट।
11) एंटी-पैटर्न
"मैजिक बॉक्स सब कुछ हल कर देगा" - आरएजी और लिंक के बिना, "अनुमान" तथ्यों के साथ।
HITL/भूमिकाओं/सीमाओं के बिना अपरिवर्तनीय क्रियाओं को स्वचालित करें।
खोज में प्रोड/चरण कलाकृतियों का सम्मिश्रण।
सहायक के उत्तरों और लॉग में रहस्य/पीआईआई।
गुणवत्ता मैट्रिक्स की कमी और लाभ के बाद का आकलन।
"सभी कार्यों के लिए एक चैट" - कार्ड, स्टेटस और एक्शन बटन के बिना।
12) कार्यान्वयन चेकलिस्ट
- डोमेन और स्क्रिप्ट (ट्राइएज, सारांश, हैंडओवर, टिकट) परिभाषित किए गए हैं।
- आरएजी कॉन्फ़िगर किया गया: रनबुक/एसओपी/पोस्टमॉर्टम/एस्केलेशन मैट्रिक्स इंडेक्स (संस्करणों के साथ)।
- एकीकरण: सुरक्षित उपकरणों के माध्यम से अवलोकन, झंडे, रिलीज, टिकट, प्रदाता।
- नीतियां: भूमिकाएँ, HITL, लॉग, ड्राई-रन, PII/सीक्रेट मास्किंग।
- UX: हादसा कार्ड, एक्शन बटन, आत्मविश्वास और लिंक।
- मेट्रिक्स: एआई-केपीआई और ऑप्स-केपीआई + डैशबोर्ड।
- प्रक्रियाएं: एआई से जुड़ी घटनाओं/रिलीज/शिफ्टों/पोस्टमार्टम के लिए एसओपी।
- ऑपरेटर प्रशिक्षण योजना और सहायक के साथ "संचार नियम"।
13) "सुरक्षित" ऑटो-क्रियाओं के उदाहरण
टीएल प्रकाशन; डीआर/ईटीए टू इंसीडेंट चैनल।
टिकट बनाना/अद्यतन करना, कलाकृतियों को जोड़ ना।
मैट्रिक्स और लॉग पढ़ ने का उत्पादन/प्रक्षेपण (सिस्टम में परिवर्तन के बिना)।
रेखांकन पर रिलीज/झंडे की एनोटेशन।
प्लेबुक ड्राई-रन तैयार करना (जो पुष्टि पर किया जाएगा)।
14) भूमिकाएँ और जिम्मेदारियाँ
ऑप्स मालिक: व्यावसायिक परिणाम (एमटीटीआर, शोर), एसओपी अनुमोदन।
अवलोकन/एसआरई: आरएजी, एकीकरण, सुरक्षा और गुणवत्ता मैट्रिक्स।
डोमेन लीड्स: सिफारिशों की मान्यता, रनबुक/एसओपी की प्रासंगिकता।
प्रशिक्षण/सक्षमता: ऑनबोर्डिंग ऑपरेटर, "एआई के साथ संवाद कैसे करें", परीक्षा।
अनुपालन/सुरक्षा: डेटा नीति, लेखा परीक्षा और लॉग भंडारण।
15) 30/60/90 - स्टार्ट-अप योजना
30 दिन:- एक डोमेन पर पायलट (उदाहरण के लिए, भुगतान): ट्राइएज, टीएल; डीआर, टिकट।
- ज्ञान अनुक्रमण (आरएजी) और हादसा कार्ड, सूखी गतिविधियाँ।
- बेसिक मैट्रिक्स: स्वीकृति/समय सहेजा/परिशुद्धता/रिकॉल।
- हैंडओवर/पोस्टमॉर्टम कॉपिलॉट जोड़ें, फ्लैग्स/रिलीज के साथ एकीकरण।
- भविष्यवाणी संकेत (बर्न-रेट, लैग) और अलर्ट ट्यूनिंग सुझाव शामिल करें।
- सहायक का उपयोग करके दो खेल-दिन बिताएं।
- दांव/खेल/केवाईसी का विस्तार, टेम्पलेट का एकीकरण।
- SOPs को AI के साथ औपचारिक करें, त्रैमासिक लक्ष्यों में KPI दर्ज करें।
- आर्थिक प्रभाव अनुकूलन (लागत/घटना, ओवरटाइम कमी)।
16) सहायक प्रतिक्रियाओं के उदाहरण (प्रारूप)
हादसा कार्ड (उदाहरण):
Symptom: p99 payments-api ↑ up to 420 ms (+ 35%) in 15 minutes
Hypotheses:
1) PSP-X timeouts (probable 0. 62) - outbound_error_rate growth, quota 88%
2) DB-connections (0. 22) — active/max=0. 82
3) Cash evikshens (0. 16) — evictions>0
Steps:
[Open PSP-X panel] [Check quota] [Enable safe-mode deposit]
[Payments-api canary pause]
References: Grafana (payments p99), Logs (psp-x), Runbook v3
हैंडओवर टीएल; डीआर (उदाहरण):
SLO OK/Degraded, incidents: INC-457 ETA 18:30, canary bets-api 10%, PSP-X quota 85%.
Action items: @ squad-payments check out the feilover before 7 p.m.
पोस्टमॉर्टम ड्राफ्ट (टुकड़ा):
Impact: deposit conversion − 3. 2% at 5pm-5.25pm
Timeline: 16:58 alert p99; 17:04 canary pause; 17:08 PSP- X→Y
Root cause: slow PSP-X responses when 90% quota is reached
Actions now: breaker tuning, auto-predictor quota> 0. 85, alert hygiene
17) एफएक्यू
प्रश्न: पहले स्वचालित क्या करें?
A: ब्रीफ/टिकट/ज्ञान खोज - सुरक्षित और तुरंत समय बचाता है। फिर - HITL के साथ पूर्वानुमानित सुराग और अर्ध-स्वचालित कार्रवाई।
प्रश्न: "मतिभ्रम" से कैसे निपटें?
A: केवल RAG, केवल लिंक के साथ उत्तर, स्रोतों के बिना उत्तर का निषेध, ऑफलाइन गुणवत्ता मूल्यांकन, रेट्रो में चिह्नित करने और असंतुष्ट करने के लिए विवादास्पद उत्तर।
प्रश्न: क्या सहायक को "प्रेस बटन" का अधिकार देना संभव है?
A: हाँ - प्रतिवर्ती और कम जोखिम वाले चरणों (एनोटेशन, सारांश, ड्राई-रन, प्री-स्केल) के लिए, बाकी - HITL और भूमिकाओं के माध्यम से।