संचालन और → प्रबंधन प्रदर्शन मेट्रिक्स
प्रदर्शन मेट्रिक्स
1) प्रदर्शन मैट्रिक्स क्यों
प्रदर्शन प्रतिक्रिया समय में लक्ष्य एसएलओ प्रदान करने की प्रणाली की क्षमता है और किसी दिए गए लागत पर थ्रूपुट। मैट्रिक्स के बिना यह असंभव है:- घटनाओं से पहले गिरावट का पता लगाएं,
- क्षमता और बजट की भविष्यवाणी करें,
- विकल्पों की तुलना करें (कैश बनाम डीबी, जीआरपीसी बनाम आरईएस),
- पोस्ट-रिलीज़ regression प्रबंधित क
सिद्धांत: मेट्रिक्स का एक शब्दकोश, प्रतिशत द्वारा एकत्रीकरण (p50/p90/p95/p99), "हॉट" और "कोल्ड" पथ, संदर्भ (संस्करण, क्षेत्र, प्रदाता, डिवाइस) के लिए अलग लेखांकन।
2) मैट्रिक्स का वर्गीकरण
2. 1 बेसिक एसआरई फ्रेम
चार सुनहरे संकेत: विलंबता, यातायात, त्रुटियां, संतृप्ति।
RED (microservices के लिए): दर, त्रुटियाँ, अवधि।
उपयोग करें (हार्डवेयर के लिए): उपयोग, संतृप्ति, त्रुटियाँ।
2. 2 स्तर
अवसंरचना: सीपीयू, रैम, डिस्क, नेटवर्क, कंटेनर, नोड्स।
प्लेटफ़ॉर्म/सेवाएं: एपीआई एंडपॉइंट, कतारें, कैश, डेटाबेस, इवेंट बसें।
ग्राहक अनुभव: वेब विटल्स, मोबाइल एसडीके, स्ट्रीमिंग, सीडीएन।
डेटा प्लेटफॉर्म: ईटीएल/ईएलटी, स्ट्रीम, स्टोरफ्रंट, बीआई देरी।
व्यवसाय महत्वपूर्ण प्रवाह: प्राधिकरण, केवाईसी, जमा/भुगतान, गेम राउंड।
3) कुंजी मैट्रिक्स और सूत्रों की सूची
3. 1 एपीआई और माइक्रोसर्विसेस
आरपीएस (अनुरोध प्रति सेकंड)।
लेटेंसी p50/p95/p99 (ms) - अधिमानतः "एंड-टू-एंड" और "बैकेंड-ओनली"।
त्रुटि दर (%) = 5xx + 4xx मान्य/सभी निवेदन।
संतृप्ति: औसत कार्यकर्ता कतार की लंबाई, इन-फ्लाइट अनुरोध।
कोल्ड स्टार्ट रेट (FaaS के लिए)।
थ्रॉटलिंग/गिराए गए अनुरोध।
SLO उदाहरण: यूरोपीय संघ-पूर्व क्षेत्र में 2k तक RPS के साथ p95 विलंबता ≤ 250 ms; त्रुटियां ≤ 0। 5%.
3. 2 डेटाबेस
QPS/लेनदेन/s, avg/midian क्वेरी टाइम, p95 क्वेरी टाइम।
लॉक वेट/डेडलॉक, रो/इंडेक्स हिट अनुपात, बफर कैश मिस%।
RepLag (प्रतिकृति), चेकपॉइंट/फ्लश समय, ऑटोवाकुम अंतराल।
लोड द्वारा गर्म कुंजियाँ/तिरछा - ऊपरी एन कुंजियाँ।
"कोर अनुरोध" का सूत्र: QPS/ vCPU_core_count → शार्डिंग के लिए एक संकेत।
3. 3 कैश और सीडीएन
हिट अनुपात (%), निष्कासन/एस, लेटेंसी पी 95, आइटम आकार प्रतिशत।
ओरिजिनल ऑफ़ लोड (%) для सीडीएन, टीटीएफबी, स्टेल-जबकि-पुनर्नवीनीकरण% हिट।
3. 4 कतारें/धाराएँ
इंग्रेस/एग्रेस msg/s, कंज्यूमर लैग, रिबालेंस दर।
प्रसंस्करण समय p95, DLQ दर।
3. 5 बुनियादी ढांचा/कंटेनर
सीपीयू उपयोग%, सीपीयू थ्रॉटल%, रन क्यू लंबाई।
मेमोरी आरएसएस/वर्किंग सेट, ओओएम मारता है, पृष्ठ दोष।
डिस्क आईओपीएस/लेटेंसी/थ्रूपुट, नेटवर्क आरटीटी/रेट्रांसमिट।
नोड संतृप्ति: फली लंबित, दबाव (सीपीयू/मेमोरी/आईओ)।
3. 6 वेब क्लाइंट (UX)
कोर वेब विटल्स: एलसीपी, आईएनपी, सीएलएस।
टीटीएफबी, एफसीपी, टीटीआई, रिसोर्स टाइमिंग (डीएनएस, टीएलएस, टीटीएफबी, डाउनलोड)।
त्रुटि दर (JS), लंबे कार्य, SPA मार्ग समय बदलते हैं।
सीडीएन जियो-लेटेंसी (प्रतिशत)।
3. 7 मोबाइल ग्राहक
ऐप स्टार्ट टाइम (कोल्ड/वार्म), एएनआर दर, क्रैश-फ्री सत्र%।
नेटवर्क राउंड-ट्रिप/सत्र, पेलोड आकार, बैटरी नाली/सत्र।
ऑफ़ लाइन सफलता दर।
3. 8 डेटा प्लेटफॉर्म और रिपो
फ्रेशनेस लैग (टी-अब → витрина), थ्रूपुट पंक्तियों/एस, जॉब सक्सेस%।
प्रति टीबी संसाधित लागत, पार्टी द्वारा तिरछा, देर से घटनाओं%।
प्रमुख डैशबोर्ड के लिए BI टाइम-टू-रेंडर p95।
3. 9 डोमेन-क्रिटिकल फ्लो (एक उदाहरण के रूप में iGaming)
Auth p95, KYC TTV (टाइम-टू-वेरिफाई), डिपॉजिट/विदड्रॉअल p95।
गेम राउंड अवधि p95, RNG कॉल लेटेंसी, प्रदाता RTT p95।
भुगतान PSP सफलता दर, चार्जबैक जांच SLA।
4) सामान्यीकरण, प्रतिशत और अटेंशन
Percentiles बनाम औसत: p50/p90/p95/p99 को ठीक करें - औसत शिखर दर्द को चिकना करता है।
अनुभाग: एप्लिकेशन संस्करण, क्षेत्र, प्रदाता, नेटवर्क चैनल (4G/Wi-Fi), डिवाइस।
सहसंबंध: हम कारण श्रृंखलाओं के लिए "बैकेंड-ओनली" और "वास्तविक-उपयोगकर्ता" मैट्रिक्स को जोड़ ते हैं।
उदाहरण/निशान: निशान के साथ चरम प्रतिशत को जोड़ें।
5) थ्रेसहोल्ड और अलर्ट (अनुमानित ग्रिड)
विलंबता p95 (कोर एपीआई): चेतावनी> 250 एमएस, गंभीर> एक पंक्ति में 400 एमएस 5 मिनट।
त्रुटि दर: चेतावनी> 0। 5%, महत्वपूर्ण> 2% (समापन बिंदु, वैश्विक नहीं)।
DB RepLag: चेतावनी> 2 s, गंभीर> 10 s.
काफ्का उपभोक्ता अंतराल (समय): चेतावनी> 30 s, महत्वपूर्ण> 2 मिनट।
वेब LCP (p75): चेतावनी> 2. 5 s, गंभीर> 4 s।
मोबाइल ANR: चेतावनी> 0। 5%, महत्वपूर्ण> 1%।
ईटीएल फ्रेशनेस: चेतावनी> + 15 मिनट, महत्वपूर्ण> + 60 मिनट от एसएलए।
हम सेवाओं/रिलीज द्वारा स्थैतिक + अनुकूली थ्रेसहोल्ड (मौसमी, दिन के पैटर्न), कमी और अलर्ट के समूह का उपयोग करते हैं।
6) प्रदर्शन परीक्षण
प्रकार: आधारभूत, तनाव, लंबे समय तक (सोख), अराजकता (अपमानित लिंक/पीएसपी)।
लोड प्रोफाइल: वास्तविक लेनदेन (वितरण-आधारित), "फटता है", क्षेत्रीय चोटियों के लिए।
उद्देश्य: लक्ष्य आरपीएस और मिश्रण संचालन, बैकप्रेशर सत्यापन के साथ एसएलओ उपलब्धि।
मैट्रिक्स चलाएं: थ्रूपुट, त्रुटि%, p95 विलंबता, जीसी ठहराव, सीपीयू थ्रॉटल, कतार लैग, लागत/रन।
प्रतिगमन नियम: रिलीज को सफल माना जाता है यदि p95 को एक समान प्रोफ़ाइल के साथ अपमानित नहीं किया जाता है> 10%, और अनुरोध की लागत (सीपीयू-एमएस/अनुरोध)> 15% नहीं बढ़ी है।
7) क्षमता नियोजन और मूल्य/निष्पादन
मांग मॉडल: आरपीएस घंटे × औसत कार्य/अनुरोध (सीपीयू-एमएस, आईओ-ऑप्स) द्वारा।
हेडरूम: महत्वपूर्ण रास्तों के लिए 30-50% मार्जिन, P95 द्वारा ऑटो-स्केलिंग।
लागत केपीआई: प्रति 1k अनुरोध लागत, प्रति जीबी लागत, $ प्रति 1 पी। एलसीपी सुधार।
Caching/denormalization: "कैश ROI" = (CPU-ms बचत − कैश लागत) पढ़ें।
गर्म और ठंडे क्षेत्र: सीडीएन/किनारे पर उतार दें, केवल पढ़ें।
8) अवलोकन और प्रोफाइलिंग प्रथाएं
ट्रेस: सभी हॉप्स में वितरित ट्रेस-आईडी; नमूना स्मार्ट (पूंछ-आधारित) है।
मेट्रिक्स: प्रोमेथियस/ओपनटेलीमेट्री, नाम और लेबल का एकल संकेतन।
लॉग: ट्रेस सहसंबंध/अवधि के साथ, लॉग टू शोर, पीआईआई संपादन के लिए बजट।
प्रोफाइलर: सीपीयू/हीप/एलोक/लॉक प्रोफाइल, निरंतर प्रोफाइलिंग (ईबीपीएफ)।
नमूना उदाहरण: सहयोगी p99 एक विशिष्ट अवधि/SQL/PSP कॉल के साथ फटता है।
9) रिलीज और टीम मैट्रिक्स (पूर्णता के लिए)
डोरा: तैनाती आवृत्ति, लीड टाइम, परिवर्तन विफलता दर, एमटीटीआर।
अंतरिक्ष: संतुष्टि, प्रदर्शन, गतिविधि, संचार, दक्षता।
ये मैट्रिक्स लोहे के बारे में नहीं हैं, लेकिन सीधे प्रदर्शन की स्थिरता को प्रभावित करते हैं।
10) एंटी-पैटर्न
चेसिंग औसत: p95/p99 की अनदेखी।
"ग्लोबल" त्रुटि दर: दर्दनाक समापन बिंदुओं को छिपाता है।
संस्करणों के बिना: क्लाइंट रीग्रेशन को पकड़ ना असंभव है।
अलर्ट स्पैम: हिस्टेरिसिस और मौसमी सुधार के बिना थ्रेसहोल्ड।
अंधा अनुकूलन: कोई ग्रेडिंग या निशान नहीं।
UX और बैकेंड विलंबता का मिश्रण: ग्राहक अनुभव से गलत निष्कर्ष।
11) चेकलिस्ट
एकीकृत मीट्रिक मानक
- सूत्रों, इकाइयों, मालिकों के साथ मेट्रिक्स का शब्दकोश
- अनिवार्य प्रतिशत p50/p90/p95/p99
- ट्रेस सहसंबंध और लॉग सहसंबंध
- टैग: क्षेत्र, संस्करण, प्रदाता, उपकरण, नेटवर्क चैनल
- हिस्टेरिसिस और डीडुप्लिकेशन के साथ थ थ्रेसहोल्ड
रिलीज से पहले
- मंच पर बेसलाइन p95/p99 और प्रोड
- कैनरी ट्रैफिक + ए/बी मीट्रिक तुलना
- फास्ट रोलबैक फ्लैग फीचर
- अवलोकन रनबुक
नियमित रूप से
- सबसे धीमा शीर्ष एन क्वेरी/SQL समीक्षा
- ऑडिट कैश पॉलिसी और टीटीएल
- ताजगी और डेटाबेस प्रतिकृति की जाँच
- बाहरी प्रदाता गिरावट परीक्षण (पीएसपी, केवाईसी)
12) मिनी प्लेबुक (उदाहरण)
गिरावट p95/api/भुगतान
1. त्रुटि% और PSP बाहरी समय की जाँच करें।
2. उपभोक्ता अंतराल कतार की जाँच करें।
3. देखें p99 उदाहरण SQL/HTTP अड़ चन ट्रेस?
4. निर्देशिका/सीमा कैश सक्षम करें, N + 1 को कम करें।
5. बजट: अस्थायी रूप से श्रमिक संसाधनों को 20% तक बढ़ाएं, ऑटोस्केल शामिल करें।
6. पोस्ट-फिक्स: इंडेक्स द्वारा (psp_id, स्थिति, created_at), रिट्रे-जिटर।
DB में RepLag वृद्धि
1. "भारी" अनुरोध और लंबे लेनदेन की जाँच करें।
2. प्रतिकृति संगामिति बढ़ाएं, ट्यून चेकपॉइंट।
3. रीड- ओनली कैश/प्रतिकृति ऑफलोड करें।
4. चरम खिड़कियों पर - आंशिक डेनोर्म + बैच।
13) सूत्रों/SQL के उदाहरण (सरलीकृत)
एंडपॉइंट द्वारा त्रुटि दर
sql
SELECT endpoint,
100. 0 SUM(CASE WHEN status >= 500 THEN 1 ELSE 0 END) / COUNT() AS error_pct
FROM http_logs
WHERE ts >= now() - interval '5 minutes'
GROUP BY 1
HAVING COUNT() > 500;
लेटेंसी p95 (TDigest/लगभग)
sql
SELECT endpoint, approx_percentile(latency_ms, 0. 95) AS p95_ms
FROM http_metrics
WHERE ts >= date_trunc('hour', now())
GROUP BY 1;
उपभोक्ता लैग (समय)
sql
SELECT topic, consumer_group,
max(produced_ts) - max(consumed_ts) AS lag_interval
FROM stream_offsets
GROUP BY 1,2;
वेब LCP p75
sql
SELECT approx_percentile(lcp_ms, 0. 75) AS lcp_p75
FROM web_vitals
WHERE country = 'UA' AND device IN ('mobile','tablet')
AND ts >= current_date;
14) डैशबोर्ड और रिपोर्टिंग में एम्बेडिंग
केपीआई कार्ड: p95 विलंबता, त्रुटि%, आरपीएस, WoW/DoD रुझानों के साथ संतृप्ति।
शीर्ष एन "सबसे खराब" एंडपॉइंट/एसक्यूएल/संसाधन, क्लिकेबल ड्रिल-डाउन → ट्रेस।
क्लाइंट संस्करण सहसंबंध: कॉलम "संस्करण → p95 LCP/INP → रूपांतरण"।
विश्व मानचित्र: भू-विलंबता (सीडीएन), क्षेत्र द्वारा पीएसपी विलंबता।
SLO पैनल: SLO में समय साझा, SLO से क्रैश, "त्रुटि बजट।"
15) कुल
प्रदर्शन मैट्रिक्स एक प्रणाली अनुशासन है: एकल शब्दावली, प्रतिशत, एट्रिब्यूशन, अच्छी अवलोकन और सख्त एसएलओ। तकनीकी (विलंबता, लैग, कैश हिट) और उत्पाद संकेतों (केवाईसी समय, पी 95 जमा, एलसीपी) के संयोजन से, आप अनुभव की गुणवत्ता और इसे वितरित करने की लागत का प्रबंधन करते हैं - पूर्वानुमानित और स्केलेबल।