प्रदाताओं के साथ SLA/OLA
1) शर्तें और सीमाएँ
SLI - औसत दर्जे का संकेतक (उपलब्धता, p99 विलंबता, सफलतापूर्वक संसाधित वेबहूक, RPO/RTO)।
SLO - माप विंडो प्रति SLI मान लक्षित करें (उदाहरण के लिए, 99। 9 %/30 दिन)।
SLA - कानूनी रूप से बाध्यकारी दस्तावेज़ (SLO + प्रक्रियाएँ + प्रतिपूर्ति)।
ओएलए - आंतरिक लक्ष्य और प्रक्रियाएं जो एसएलए का अनुपालन सुनिश्चित करती हैं।
यूसी (अंडरपिनिंग कॉन्ट्रैक्ट) - तीसरे पक्ष (चैनल, डेटा सेंटर, सीडीएन, आदि) के साथ "सब्सट्रेट"।
सीमाएँ: अपने क्षेत्र (कोड, कॉन्फिग, क्लाइंट सेटिंग्स) से प्रदाता के जिम्मेदारी क्षेत्र (क्लाउड/WAF/CDN/भुगतान प्रदाता/KYC प्रदाता) को स्पष्ट रूप से अलग करें।
2) आलोचना मैट्रिक्स और मॉडल चयन
व्यावसायिक प्रभाव से खंड प्रदाता:मैट्रिक्स एसएलए की गहराई, चेक की गुंजाइश और ओएलए/यूसी की आवश्यकताओं को निर्धारित करता है।
3) मेट्रिक्स और माप खिड़कियां
उपलब्धता - समय का वह प्रतिशत जो सेवा सहिष्णुता के अनुसार प्रश्नों को निष्पादित करती है।
लेटेंसी: प्रमुख संचालन के लिए p95/p99; "धीमी सफलता" मायने रखती है।
डेटा विश्वसनीयता: आरपीओ (अधिकतम स्वीकार्य डेटा हानि) और आरटीओ (वसूली समय)।
बैंडविड्थ/लिमिट: गारंटीकृत कोटा (आरपीएस/एमबीपी)।
एकीकरण की गुणवत्ता: वितरित वेबहूक का हिस्सा - एक्स मिनट, 2xx प्रतिक्रियाओं का हिस्सा, दोहराव और कमी।
माप खिड़की: सीमा के साथ मासिक/रोलिंग 30 दिन, अपवाद (नियोजित गतिविधियां)।
"बाहरी उपलब्धता" सूत्र (उदाहरण):- 'उपलब्धता _ ext = 1 − (Downtime_confirmed_outages/ Total_minutes_in_window)'
- जहां आउटेज बाहरी निगरानी द्वारा अनुपलब्ध स्थिति है, न कि केवल प्रदाता की स्थिति पृष्ठ द्वारा।
4) एसएलए सामग्री (खंड टेम्पलेट)
1. विषय और गुंजाइश (सेवाएं, क्षेत्र, एपीआई संस्करण)।
2. परिभाषाएँ (SLI/SLO, "घटना", "नियोजित कार्य", "बल राजसी")।
3. अनुरोध श्रेणी और क्षेत्र द्वारा सेवा उद्देश्य (एसएलओ)।
4. निगरानी और साक्ष्य आधार: किस तरह से, किसके सेंसर, किस आवृत्ति के साथ।
5. घटनाएं और वृद्धि: चैनल, प्रतिक्रिया/अपडेट समय, भूमिकाएं।
6. रिफंड: क्रेडिट/जुर्माना/बोनस, थ्रेसहोल्ड, सूत्र।
7. सुरक्षा और गोपनीयता: डीपीए, एन्क्रिप्शन, लॉग, उल्लंघन सूचनाएं।
8. सेवा परिवर्तन: पदावनत, अधिसूचना विंडो, संगतता।
9. निरंतरता और डीआर: आरपीओ/आरटीओ, वसूली परीक्षण।
10. लेखा परीक्षा और अनुपालन: ऑडिट, रिपोर्टिंग, प्रमाणन का अधिकार।
11. निकास योजना: डेटा निर्यात, तिथि, प्रारूप, प्रवासन सहायता।
12. कानूनी प्रावधान: अधिकार क्षेत्र, बल राजसी, गोपनीयता, वैधता अवधि।
5) शब्दों के उदाहरण (टुकड़े)
5. 1 उपलब्धता और माप
"प्रदाता 99 प्रदान करता है। प्रत्येक कैलेंडर महीने में 95% उपलब्धता। उपलब्धता को ≥3 मिनट के अंतराल पर ≤1 क्षेत्रों से ग्राहक की बाहरी सिंथेटिक निगरानी द्वारा मापा जाता है। ≥2 क्षेत्रों में दर्ज अनुपलब्धता को एक साथ एक स्तर SEV2 घटना माना जाता है और डाउनटाइम में गिना जाता है। "
5. 2 कुंजी API विलंबता
महीने के 95% दिनों में "p99 प्रतिक्रिया समय 'POST/भुगतान/अधिकृत" ≤ 450 ms। सीमा से अधिक अनुरोधों के प्रतिशत के लिए एक कारण विश्लेषण रिपोर्ट प्रदान की जाती है"
5. 3 घटनाएं और वृद्धि
"S1: ack ≤ 15 मिनट, प्रत्येक ≤ 30 मिनट को अपडेट करता है, लक्ष्य वसूली ≤ 2 एच; S2: ack ≤ 30 मिनट, अपडेट ≤ 60 मिनट; S3: अगला व्यापार दिवस। चैनल: फोन 24 × 7, चैट ब्रिज, ईमेल"
5. 4 रिफंड (क्रेडिट)
If Availability_ext <99. 95% → credit 10% monthly fee
< 99. 9% → 25%
< 99. 5% → 50%
ऋण घोर लापरवाही में क्षतिपूर्ति के अन्य तरीकों को शामिल नहीं करते हैं।
5. 5 पदावनत और संगतता
"संगतता को तोड़ ने वाले परिवर्तनों के लिए कम से कम 180 दिनों की सूचना। VN और vN + 1 के लिए कम से कम 90 दिनों के लिए समवर्ती समर्थन"
5. 6 बाहर निकलें
"समाप्ति के 30 दिनों के भीतर, प्रदाता Parquet/JSON + प्रारूपों में मुफ्त में डेटा का पूर्ण निर्यात प्रदान करता है; अतिरिक्त प्रवासन सेवाएं - टैरिफ X. प्रतियों के विनाश की पुष्टि अधिनियम द्वारा की जाती है"
6) ओएलए: बाहरी एसएलए के लिए आंतरिक समर्थन
"प्लेटफ़ॉर्म" और "पेमेंट टीम" के बीच उदाहरण ओएलए:- लक्ष्य: p99 गेटवे ≤ 200 एमएस, त्रुटि दर ≤ 0। 3%, डीआर: आरपीओ 0, आरटीओ 30 मिनट।
- जिम्मेदारी: एसआरई-ऑन-कॉल, 24 × 7; आम डैशबोर्ड और अलर्ट।
- प्रक्रियाएं: रिलीज में अराजकता-धुआं, पीआर पर पर्फ-स्मोक, छायांकन के अनुमान।
- गेट्स: SLO/xaoc परीक्षण विफल होने पर ब्लॉक तैनात करें; अनिवार्य रनबुक अद्यतन।
7) निगरानी और साक्ष्य
सिंथेटिक्स: बाहरी जांच (HTTP/TCP), उपयोगकर्ता पथ, "धीमी सफलता"।
RUM: प्रभाव की पुष्टि करने के लिए वास्तविक उपयोगकर्ता निगरानी।
सहसंबंध: 'प्रदाता', 'क्षेत्र', 'api _ methy', 'घटना _ id' लेबल।
कलाकृतियाँ: स्क्रीनशॉट/ट्रेल्स/लॉग, केपीआई निर्यात, वृद्धि समयरेखा।
सीआई/सीडी (छद्म-रेगो) में मिनी नीति:rego package policy. sla deny["Release blocked: provider SLO risk"] {
input. release. affects_providers[_] == p input. slo. forecast[p].breach == true
}
8) घटनाएं और बातचीत
प्लेबुक:1. एसईवी वर्गीकरण, युद्ध-कक्ष खोलना, आईसी उद्देश्य।
2. "हॉट चैनल" के माध्यम से प्रदाता की अधिसूचना, कलाकृतियों का प्रसारण।
3. बाईपास मोड/फीचर फ्लैग्स (बासी, छायांकन, दर-टोपी)।
4. साझा समयरेखा, वसूली।
5. पोस्टमॉर्टम + क्रियाएँ: कॉन्फिग सीमा, कुंजी, बैकअप मार्ग अद्यतन करना।
6. एसएलए ऋण की शुरुआत, बिलिंग में फिक्सिंग।
9) सुरक्षा और डीपीए
डीपीए/गोपनीयता: नियंत्रक/प्रोसेसर भूमिकाएं, डेटा श्रेणियां, वैधता आधार, प्रसंस्करण समय सीमा/उद्देश्य, उप-प्रोसेसर और उनके एसएलए।
एनक्रिप्शन: TLS1। 2 +, पीएफएस; डेटा "आराम पर", कुंजी प्रबंधन (KMS/HSM), रोटेशन।
ऑडिट: एक्सेस लॉग, उल्लंघन सूचनाएं ≤ 72 घंटे, अनुरोध पर पेन्टेस्ट रिपोर्ट।
स्थानीयकरण: भंडारण क्षेत्र, बिना सहमति के निर्यात पर प्रतिबंध।
10) आपूर्ति श्रृंखला और अंतर
SBOM/कमजोरियां: CVSS थ्रेशोल्ड पॉलिसी और फिक्स टाइम (आलोचना की ≤ 7 दिन, उच्च ≤ 14)।
एपीआई संगतता: अनुबंध परीक्षण, सैंडबॉक्स और स्थिर जुड़ नार।
प्रदाता परिवर्तन: प्रारंभिक रिलीज नोट्स, पूर्वावलोकन/बीटा विंडो, पिछड़े संगतता।
11) मल्टी-प्रदाता और फीलओवर
सक्रिय/सक्रिय: कठिन और अधिक महंगा, लेकिन उच्च उपलब्धता (स्थिरता पर विचार करें)।
सक्रिय/निष्क्रिय: कोल्ड/वार्म रिजर्व, डीआर। नियमित वर्कआउट
सार/एडाप्टर: एकल अनुबंध, स्वास्थ्य/लागत/कार्बन रूटिंग (यदि प्रासंगिक हो)।
लाइसेंस/वाणिज्यिक शर्तें: पोर्टेबिलिटी, डेटा आउटपुट पर सीमा, लागत।
12) निकास योजना और आवधिक रिहर्सल
डेटा/आरेख कैटलॉग और वॉल्यूम।
एसडीके/एपीआई पोर्टेबिलिटी स्क्रिप्ट (न्यूनतम - द्वितीय स्रोत)।
ड्राई एक्जिट जांच: निर्यात/आयात, पुनर्स्थापित, अपरिवर्तनीय की जाँच करें
रिहाई के बाद कानूनी प्रतिधारण/निपटान अवधि।
13) अनुबंध परीक्षण और अनुरूपता
एपीआई नमूने: सकारात्मक/नकारात्मक, सीमाएँ, त्रुटियां और रिट्रेज़।
घटनाओं/वेबहूकों की डिलीवरी: हस्ताक्षर/समय/दादा/पुनरावृत्ति।
पर्फ बेसलाइन: p99, बैंडविड्थ; प्रदाता के रिलीज नोट्स पर प्रतिगमन परीक्षण।
क्रॉस-क्षेत्र: एक क्षेत्र के क्षरण को वैश्विक स्तर पर एसएलओ का उल्लंघन नहीं करना चाहिए
14) एंटी-पैटर्न
एसएलए "स्टेटस पेज पर" बाहरी माप के बिना।
सभी क्षेत्रों/समापन बिंदुओं के लिए समान लक्ष्य।
लेखा परीक्षा के अधिकारों का अभाव और विस्तृत घटना लॉग।
कोई OLA/UC - अंदर बाहरी दायित्वों को पूरा करने वाला कोई नहीं है।
अपरिभाषित निकास योजना - आपूर्तिकर्ता बंधक।
व्यवस्थित उल्लंघन के मामले में समाप्त करने के अधिकार के बिना "केवल ऋण द्वारा जुर्माना"।
संक्रमण विंडो के बिना पदावनत करता है।
15) आर्किटेक्ट चेकलिस्ट
1. कुंजी प्रवाह और क्षेत्रों के लिए पारिभाषित SLI/SLO?
2. चयनित बाहरी निगरानी विधि और साक्ष्य आधार?
3. क्या एसएलए में घटनाएं, वृद्धि, नियोजित कार्य खिड़कियां और अपवाद सीमा है?
4. क्रेडिट स्केल/दंड और एन उल्लंघन के लिए समाप्ति का अधिकार है?
5. डीपीए/सुरक्षा: एन्क्रिप्शन, लॉग, सूचनाएं, उप-प्रोसेसर, स्थानीयकरण?
6. पाइपलाइन में अनुबंध परीक्षण और सैंडबॉक्स?
7. आंतरिक ओएलए/यूसी बाहरी एसएलओ सक्षम करते हैं?
8. डीआर: आरपीओ/आरटीओ घोषित, प्रशिक्षण आयोजित, उपलब्ध रिपोर्ट?
9. निकास योजना: निर्यात प्रारूप, समय, शुष्क निकास अभ्यास?
10. क्या सीआई/सीडी ब्लॉकिंग रिलीज में गेट हैं जो एसएलए उल्लंघन के जोखिम को बढ़ाते हैं?
16) मिनी-उदाहरण (रेखाचित्र)
16. प्रदाता जोखिम पर 1 तैनाती-गेट नीति
yaml gate: provider-slo-risk checks:
- name: forecasted-slo-breach input: slo_forecast/providers. json deny_if: any(.providers[].breach == true)
action_on_deny: "block-release"
16. 2 "घटना के सबूत" का निर्यात
bash curl -s https://probe. example. com/export? from=2025-10-01&to=2025-10-31 \
jq '. {region, endpoint, status, latency_ms, trace_id, ts}' > evidence. jsonl
16. 3 अनुबंध वेबहुक टेस्ट (स्यूडोकोड)
python evt = sign(make_event(id=uuid4(), ts=now()))
res = post(provider_url, evt)
assert res. status in (200, 202)
assert replay(provider_url, evt). status = = 200 # idempotency
निष्कर्ष
SLA/OLA न केवल एक "कानूनी पत्र" है, बल्कि जोखिम और गुणवत्ता के प्रबंधन के लिए एक वास्तुशिल्प तंत्र है। सही मैट्रिक्स और खिड़कियां, बाहरी निगरानी, स्पष्ट घटना और प्रतिपूर्ति प्रक्रियाएं, आंतरिक ओएलए/यूसी, पाइपलाइनेटेड गेट, बहु-विक्रेताओं, और एक वास्तविक निकास योजना प्रदाता निर्भरता को आपके मंडल में बदल देती है।