संचालन और → प्रबंधन लेखा परीक्षा और एसएलए
मेट्रिक्स और एसएलए का लेखा परीक्षण
1) आपको इसकी आवश्यकता क्यों है
यदि मैट्रिक्स गलत हैं - निर्णय गलत होंगे, तो समस्याओं को छिपाने के लिए एसएलए का "कागज पर" या इसके विपरीत उल्लंघन किया जाएगा। मैट्रिक्स और एसएलए का ऑडिटिंग यह सुनिश्चित करता है कि उपयोगकर्ताओं और भागीदारों से वादा तुलनीय, विश्वसनीय और कानूनी रूप से सुरक्षित हो।
उद्देश्य:- एक एकल "सत्य का स्रोत" (SSOT) और प्रजनन योग्य गणना प्रदान करें।
- डैशबोर्ड/रिपोर्ट/बिलिंग के बीच विसंगतियों को कम करें।
- SLAs साक्ष्य-आधारित बनाएं।
- सेवाओं में जल्दी से जल्दी माप में गिरावट का पता लगाएं।
2) जिम्मेदारी की बुनियादी अवधारणाएं और सीमाएँ
मीट्रिक: मापा मात्रा (आरपीएस, पी 95, सीआर, जीजीआर, सफलता दर)।
केपीआई/ओकेआर: लक्ष्य जिसमें मेट्रिक्स जुड़े हुए हैं।
SLO: सेवा की लक्ष्य गुणवत्ता (उदाहरण के लिए, "p99 ≤ 400 ms 99। समय का 9%")।
एसएलए: बाहरी वादा; कानूनी रूप से महत्वपूर्ण, SLO पर आधारित
ओएलए: टीमों/विक्रेताओं के बीच आंतरिक समझौता, एसएलए का समर्थन करता है।
SSOT: सिस्टम/भंडारण जिसका डेटा रिपोर्टिंग के लिए एक संदर्भ माना जाता है।
3) मैट्रिक्स की वर्गीकरण (परतें)
1. बुनियादी ढांचा: सीपीयू/मेमोरी/आईओ/नेट, पॉड्स/नोड्स, एचपीए/वीपीए।
2. प्लेटफ़ॉर्म: कतारें/धाराएँ (लैग, थ्रूपुट), डीबी/कैश (कनेक्शन, हिट), एपीआई (p95/p99, 5xx)।
3. व्यापार प्रवाह: जमा/निकासी, दांव, गेम लॉन्च, प्राधिकरण, केवाईसी।
4. उत्पाद/विपणन: रूपांतरण, ARPPU/LTV, अभियान।
5. प्रक्रियाओं की गुणवत्ता: MTTA/MTTR, विफलता दर बदलें, सूची कवरेज की जांच करें।
नियम: प्रत्येक मीट्रिक में एक परत, मालिक और सूत्र होना चाहिए।
4) डेटा स्रोत और "सच"
ऑनलाइन टेलीमेट्री: प्रोमेथियस/ओटीएल, लॉग (ईएलके/क्लिकहाउस), निशान।
घटनाएँ और लेखांकन: काफ्का/आउटबॉक्स, DWH/डेटा मार्ट (BigQuery/ClickHouse)।
मैनुअल कलाकृतियां: पोस्टमार्टम, टिकट, घटना रजिस्टर।
बाहरी रजिस्ट्रियां: प्रदाता रिपोर्ट (PSP/KYC/स्टूडियो), बिलिंग।
संघर्ष समाधान: विसंगतियों के मामले में "ऑनलाइन बनाम डीडब्ल्यूएच", प्राथमिकता विनियमन लागू होता है (उदाहरण के लिए, एसएलए के लिए - स्रोत ट्रेसेबिलिटी के साथ डीडब्ल्यूएच से समुच्चय)।
5) मेट्रिक्स ऑडिट प्रक्रिया (नियंत्रण लूप)
1. इन्वेंट्री: मेट्रिक्स कैटलॉग/एसएलओ/एसएलए (नाम, स्वामी, परत, सूत्र, स्रोत, गणना आवृत्ति)।
2. सूत्र सत्यापन: परिभाषा के साथ SQL/प्रोमो प्रश्नों का सामंजस्य (गणना की इकाई परीक्षण)।
3. नमूना और पुनर्जाँच: नमूना घटना/लॉग लाइन और मैनुअल सामंजस्य।
4. कंटूर मैपिंग: ऑनलाइन डैशबोर्ड और डीडब्ल्यूएच रिपोर्ट की तुलना।
5. नियंत्रण बदलें: स्कीमा/तर्क रिलीज के लिए सूत्र समीक्षा।
6. SLA ऑडिट: विधानसभाओं और अपवादों की शुद्धता का सत्यापन (नियोजित रखरखाव, बल राजसी)।
7. रिपोर्ट और सुधार: समय सीमा के साथ पता लगाई गई विसंगतियों और सुधारों की एक सूची।
6) परिभाषाएँ और सूत्र (नमूने)
सफलता दर (एपीआई):- 'success = अनुरोध - (5xx + timeouts + circuit_open)'
- 'success _ rate = सफलता/अनुरोध'
- SSOT विंडो (रोलिंग 5m/1h) और एकत्रीकरण (HDR/TDigest) की एकल परिभाषा रिकॉर्ड करता है।
- 'SLO _ उपलब्धता _ महीना = (अपटाइम - स्वीकार्य _ अपवाद )/कुल _ समय'
- 'एसएलए _ महीना = 99। यूटीसी विंडो द्वारा 90% अपटाइम, नियोजित खिड़कियों (T-48 अधिसूचना) को छोड़ कर, पारगमन ऑपरेटरों (दस्तावेजों) पर सिद्ध दुर्घटनाएं। '
7) डेटा गुणवत्ता: चेक और अलर्ट
गुणवत्ता जाँच:- Полнота (पूर्णता): 'प्राप्त _ events/ expected_events ≥ 0। 99`.
- समयबद्धता: लैग ≤ N मिनट लोड करें।
- विशिष्टता: डुप्लिकेट कुंजियों के बिना (idempotency-key)।
- स्थिरता-मात्रा/मुद्रा/वर्ण।
- रैखिकता - काउंटर "वापस लुढ़का हुआ नहीं है।"
ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m
ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m
ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2
8) SLA/OLA ऑडिट: कार्यप्रणाली
1. अपवादों का एक कैलेंडर इकट्ठा करें: नियोजित खिड़कियां, सहमत गिरावट, विक्रेताओं के कार्य।
2. अपटाइम की गणना: SSOT पर आधारित एकल समय क्षेत्र के अनुसार।
3. घटनाओं के साथ सुलह: समयरेखा, टिकट, पोस्टमार्टम।
4. एट्रिब्यूशन: स्वयं की विफलताएं, प्रदाता, पारगमन, डीडीओएस, नियमित रखरखाव।
5. एसएलए परिधि: उपयोगकर्ता अनुभव (E2E) बनाम एक विशिष्ट एपीआई।
6. रिपोर्टिंग: मासिक/त्रैमासिक रिपोर्ट: वास्तविक, विचलन, मुआवजा (यदि लागू हो), सुधारात्मक उपाय।
9) गणना प्रजनन की जाँच करें
फॉर्मूला वर्शनिंग: SQL/PromQL/डॉक स्पेसिफिकेशन के साथ Git रिपॉजिटरी।
मैट्रिक्स की इकाई परीक्षण: सिंथेटिक डेटा पर (किनारे के मामले: अंतराल, डुप्लिकेट, तिथि सीमाएं)।
डेटा वंश: डैशबोर्ड से स्रोत तालिकाओं और घटनाओं तक।
स्नैपशॉट: कटऑफ के लिए ठंड डेटा ताकि पुन: गणना तुलनीय हो।
10) नमूना लेना
दैनिक: कुंजी प्रवाह (जमा/दर/सीसीएल) द्वारा 10-20 घटनाएं - DWH का ट्रेसिंग का मैनुअल सत्यापन।
साप्ताहिक: 1% नमूना समुच्चय में "ऑनलाइन बनाम डीडब्ल्यूएच" की तुलना करने के लिए।
मासिक: एसएलए प्रभाव के साथ घटनाओं का सेट - विस्तृत पुनर्निर्माण।
नमूना रिपोर्ट टेम्पलेट (संक्षिप्त):
Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability
11) डैशबोर्ड और अलर्ट की ऑडिट
मैट्रिक्स का एकीकृत शब्दकोश: डैशबोर्ड पर शब्दावली सही।
रिलीज/घटनाओं की घोषणा: विचलन का कारण देखने के लिए।
प्री/पोस्ट रिलीज तुलना: स्वचालित प्रतिगमन पैनल।
डुप्लिकेट/विसंगतियाँ: "दो अलग-अलग p99s" की पहचान करना - सूत्र/विंडो संपादित करना।
पैनल उपलब्धता: अधिकार, आरक्षित, लिंक/संस्करण नियंत्रण।
12) मीट्रिक परिवर्तन प्रबंधन
आरएफसी प्रक्रिया - एसएलए/रिपोर्टिंग प्रभाव मूल्यांकन के साथ आरएफसी के माध्यम से फॉर्मूला/विंडो/स्रोत बदलें
प्रवासन "विस्तार → माइग्रेट → अनुबंध": अस्थायी रूप से दोनों संस्करणों को रखें, तुलना करें, फिर पुराने को बंद करें।
संचार: उत्पाद/व्यवसाय को "नई विधि के अनुसार" मूल्यों में बदलाव से पहले सूचित करें।
13) विशिष्ट iGaming/fintech
मांग चोटियों: मैट्रिक्स को विस्फोटक भार का सामना करना चाहिए (एकत्रीकरण "छड़ी" नहीं करते हैं)।
प्रदाता: एसएलए ओएलए विक्रेताओं पर निर्भर करता है - अपनी रिपोर्ट, घटना स्थिति और कोटा को संग्रहीत करें।
लागत: 'लागत _ per _ 1k _ कॉल' और 'सफलता की लागत' अनिवार्य पैनल हैं।
एंटीफ्राड/जोखिम: देरी के प्रति संवेदनशीलता और मेट्रिक्स की "झूठी सकारात्मकता"।
14) ऑडिट डैशबोर्ड (न्यूनतम सेट)
मेट्रिक्स हेल्थ: पूर्णता/समयबद्धता/डुप्लिकेट्स, इनगेस्ट-लैग, ошибки ETL।
SLO/SLA साक्ष्य: गणना SLO, वास्तविक SLA, अपवाद, घटनाओं/कृत्यों के संदर्भ।
ऑनलाइन बनाम DWH तुलना: p95/p99/Success दर, विचलन और रुझान।
विक्रेता एसएलए: प्रदाता द्वारा अपटाइम/कोटा/टाइमआउट/लागत।
रिलीज़ इम्पैक्ट: गणना/सुविधाओं को शामिल करने के बाद मैट्रिक्स का प्रतिगमन।
15) ऑडिट चेकलिस्ट (परिचालन)
- मालिकों और सूत्रों के साथ मैट्रिक्स/एसएलओ/एसएलए निर्देशिका आज तक है।
- SSOT प्रत्येक रिपोर्ट/पैनल के लिए परिभाषित किया गया है।
- सूत्रों के यूनिट परीक्षण हरे रंग के होते हैं, गणना पाइपलाइनों को प्रलेखित किया जाता है।
- डेटा गुणवत्ता अलर्ट सक्रिय हैं (पूर्णता/समयरेखा/डुप्लिकेट)।
- "ऑनलाइन बनाम डीडब्ल्यूएच" विसंगति - स्वीकार्य सीमा (जैसे %)।
- सहमत एसएलए अपवादों को प्रलेखित और रिपोर्ट से जुड़ा हुआ है।
- नियंत्रण नमूने लिए गए और प्रमाण पत्र तैयार किए गए।
- सभी सूत्र परिवर्तनों ने RFC और प्रवास पारित किया है।
16) उदाहरण (टुकड़े)
PromQL - प्री-/पोस्ट-रिलीज p99 तुलना:
api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
एसक्यूएल - घटना पूर्णता नियंत्रण:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanager नियम - समोच्च विचलन:
ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}
17) एंटी-पैटर्न
विभिन्न पैनलों पर दो अलग-अलग "समान" मीट्रिक सूत्र।
प्रवासन और अधिसूचना के बिना मीट्रिक को बदलना - OKR/SLA में "कूदता है"।
स्थानीय एक्सेल में "सच" (गैर-प्रजनन योग्य) के रूप में रिपोर्ट।
एसएलए गणना में समय क्षेत्र और कैलेंडर मिलाना।
एसएलए अपवाद प्रलेखित नहीं हैं।
माप की गुणवत्ता पर कोई अलर्ट नहीं हैं।
18) मापन परिपक्वता केपीआई
बहाव दर Online↔DWH (लक्ष्य ≤2%)।
मेट्रिक्स हेल्थ अपटाइम।
टाइम-टू-फिक्स फॉर्मूला।
एसएलए विवाद दर।
कवरेज एसएलओ/एसएलए (औपचारिक रूप से वर्णित एसएलओ/एसएलए के साथ महत्वपूर्ण रास्तों का अनुपात)।
19) भूमिकाएँ और जिम्मेदारियाँ
मीट्रिक/सेवा के मालिक: सूत्र, स्रोत, डैशबोर्ड, अलर्ट।
अवलोकन/एसआरई: एसएसओटी/प्लेटफ़ॉर्म, सूत्र परीक्षण, डेटा गुणवत्ता अलर्ट।
डेटा/द्वितीय: DWH, रिपोर्ट प्रजनन योग्यता, वंश।
वकील/साझेदार प्रबंधक: एसएलए समझौते और अपवाद।
हादसा प्रबंधक: एसएलए घटनाओं को दर्शाता है और जोड़ ता है।
20) त्वरित शुरुआत (30 दिन)
सप्ताह 1: इन्वेंटरी मेट्रिक्स/एसएलओ/एसएलए और मालिक; एक SSOT असाइन करें।
सप्ताह 2: डेटा गुणवत्ता अलर्ट और "ऑनलाइन बनाम डीडब्ल्यूएच" पैनल शामिल करें।
सप्ताह 3: नियंत्रण नमूनों का संचालन करें, p95/p99 खिड़की को संरेखित करें।
सप्ताह 4: सूत्रों के लिए RFC प्रक्रिया को औपचारिक रूप दें, संलग्नक के साथ एक मासिक SLA रिपोर्ट तैयार करें।
21) एफएक्यू
प्रश्न: SLA के लिए SSOT क्या है?
A: प्रजनन योग्य गणना (DWH) और पूर्ण वंश के साथ भंडारण; ऑनलाइन पैनल - परिचालन नियंत्रण के लिए, कानूनी कृत्यों के लिए नहीं।
प्रश्न: "दो p99" से कैसे निपटें?
A: मेट्रिक्स निर्देशिका में विंडो/एकत्रीकरण विधि को ठीक करें, पैनल को माइग्रेट करें, बहाव के लिए अलर्ट जोड़ें।
प्रश्न: नियोजित कार्यों पर कैसे विचार करें
A: अपवादों का एक कैलेंडर बनाए रखें और अनुबंध के नियमों के अनुसार SLA से स्वचालित रूप से कटौती करें; स्टोर पुष्टिकरण कलाकृतियों।