Ապթայմի հետևելը
1) Ինչո՞ ւ վերահսկել դեղատները
Aptaim-ը ժամանակի մասն է, երբ ծառայությունը հասանելի է օգտագործողին։ Սա դիտարկման առաջին գիծն է 'անմիջապես տեսնել անհասանելիությունը, ցանցի դեգրադացիան, CSA/TSA-ի ձախողումը, ուղեղի կամ CDN-ի խնդիրները։ Բարձր բեռնված և կարգավորվող համակարգերի համար (fintech, iGaming) դեղայքը ուղղակիորեն ազդում է եկամուտների, SLA-ի կատարման և տուգանային ռիսկերի վրա։
2) Տերմիններ և բանաձևեր
SLI հասանելիությունը '«SLI = (հաջողակ ստուգումներ/բոլոր ստուգումներ) 3,100%»։
SLO 'պատուհանի համար նպատակային հասանելիությունը (սովորաբար 28-30 օր), օրինակ 99։ 9%.
SLA 'արտաքին պարտավորություն; միշտ գտնվում է ներքին SLO-ում։
MTBF/MTTR 'միջին ժամանակը ձախողումների/վերականգնման միջին ժամանակի միջև։
«Աղջիկների» քարտեզը (մեկ ամսվա ընթացքում, 3,43 200 րոպե)
99. 0% 432 րոպե անհասանելի
99. 9 տոկոսը 2443 մղոն է
99. 99% → ~4. 3 րոպե
99. 999% 2426 վայրկյան
3) Ի՞ նչ ստուգումներ են անհրաժեշտ (սև արկղ)
Սկսում են արտաքին կետերից (տարբեր տարածաշրջաններ/պրովայդերներ), որպեսզի տեսնեն ծառայությունը «հաճախորդի աչքերով»։
1. ICSA (ping) - ցանցի/հանգույցի հասանելիությունը։ Արագ, բայց չի արտահայտում բիզնեսի հաջողությունը։
2. TCP connect - պորտ լսում է։ Օգտակար է բրոկերների/BD/SMTP-ի համար։
3. HTTP/HTTPS - կարգավիճակ-կոդ, վերնագրեր, չափսեր, ռեդիրետներ, ժամանակը մինչև առաջին բայթ։
4. TFC/հավաստագրեր - գործողության, շղթայի, ալգորիթմների, MSI-ի, արձանագրության ժամանակահատվածը։
5. III - A/AAAA/CNAME, NS առողջություն, տարածումը, DNSSEC։
6. GRPC-ը զանգի, deadom-ի, մետատվողների կարգավիճակ է։
7. Express Socket/SSE-ը ձեռագործություն է, կապի պահպանումը, հաղորդագրությունը-էխոն։
8. Express/CDN-ը տարբեր PoP-ն է, քեշի հեշ թեստը, գեո տարբերակները։
9. Գործարքային սինթետիկ սցենարները (տեսահոլովակներ/ձևեր). <<լոգինը բացատրում է ռուսական ավանդի որոնումը>>։
10. Heartbeat/cast-2019 - ծառայությունը պարտավոր է «պուլսիզացնել» (huk անգամ N րոպեում); ազդանշան չկա 'անհանգստություն։
Խորհուրդ
Տեղադրեք թայմաուտները ավելի մոտ իրական UX-ին (օրինակ, TTFB 35300 մզ, total 352 s)։
Ստուգեք ասերտի բովանդակությունը (հիմնական բառը/JSON դաշտը), որպեսզի «200 OK» -ը ձախողվի։
Կրկնօրինակեք ստուգումները պրովայդերների և ցանցի միջոցով (մուլտֆիլմ-հոփ, տարբեր ASN)։
4) Սպիտակ արկղը և առողջությունը
Liveness/Readiness թեստերը նվագախմբի համար (կենդանի գործընթացներ։ պատրա՞ ստ են ընդունել։)
Կախվածության առողջությունը 'BD, kes, իրադարձությունների բրոքեր, արտաքին API (վճարումներ/KYC/AML)։
Ֆիչա դրոշը/դեգրադացիան, խնդիրների դեպքում, փափուկ անջատենք ոչ կրիտիկական ճանապարհները։
Սպիտակ փորձարկումները չեն փոխարինում արտաքին ստուգումները. Ծառայությունը կարող է լինել «ներսում առողջ», բայց հասանելի է օգտագործողին RF/TFC/2019 պատճառով։
5) Երկրագրությունը և բազմազանությունը
Սկսեք սինթեզիկան հիմնական տարածաշրջաններից և կրիտիկական կախվածության պրովայդերների կողքին։
Քվորում 'պատահարը գրանցվում է, եթե ձախողումը նշված N շրջաններում (օրինակ, 3-ից 2-ը), որպեսզի կտրվի տեղական անոմալիաները։
Կոորդինատների շեմն 'առանձին SLI/SLO կարևոր հատվածների համար (երկրներ, VIP, հեռահաղորդակցման օպերատորներ)։
6) Ալերտների քաղաքականությունը (նվազագույն աղմուկ)
Multi-տարածաշրջանը + multi-թեստը 'լանդշաֆտը միայն համաձայնեցված ձախողման ժամանակ (օրինակ, HTTP և TLS միաժամանակ, 242 տարածք)։
Դեբաունս 'N հետևողական ձախողումներ կամ պատուհան 2-3 րոպե առաջ։
Էսկալացիա
L1: on-call (վաճառական-ծառայություններ)։
L2: Ցանցը/պլատֆորմը/անվտանգությունը կախված ձախողման ազդանշանից։
Avto-2019 'կայուն M հաջողակ ստուգումներից հետո։
Հանգիստ ժամացույցներ/զիջումներ 'ոչ քննադատական ներքին ծառայությունների համար միայն հյուսետներ, առանց լանդշաֆտի։
7) Կարգավիճակ-էջ և հաղորդակցություն
Հանրային (հաճախորդ) և մասնավոր (ներքին) կարգավիճակը։
Ավտոմատ պատահարներ սինթեզիկայից + ձեռքով։
Հաղորդագրությունների ձևանմուշները 'հայտնաբերվում են, հայտնաբերվում է, ազդեցությունը' շրջանցիկ ճանապարհը 'ETA-ը, որոշվել է' փոստ-մորդեմը։
Պլանավորված պատուհաններ 'նախապես հայտարարել, բացառություններ հաշվի առնել SLO-ից։
8) Արտաքին կախվածության կարգավորումը
Յուրաքանչյուր պրովայդերի համար (վճարումները, KYC, հաղորդագրությունները, CDN, ամպերը) - իրենց ստուգումները մի քանի տարածաշրջաններից։
Failover-երթուղիները 'ավտոմեքենաների տեղափոխումը այլընտրանքային պրովայդերի վրա սինթետիկ ազդանշանի վրա։
Առանձին SLO-ն պրովայդերի մակարդակում և ինտեգրալ e2e-SLO-ի մակարդակում։
Համաձայնվել SLA-ի հետ պրովայդերների հետ (կարգավիճակ-վեբհուկի, աջակցության գերակայություն)։
9) Դաշբորդներն ու հիմնական տեսիլքները
Աշխարհի քարտեզը ստուգման վիճակով (HTTP, RF, TSA)։
Թայմլայնը համագործակցում է առյուծների/դրոշների սենսացիաների հետ։
P50/P95/P99 TTFB/TTL/latency տարածաշրջաններում։
Գորտերի հասանելիությունը (երկիր/պրովայդեր/սարք)։
MTTR/MTBF-ը, «րոպե» և «burn-down» մեկ ամսվա հասանելիության բյուջեի միտումները։
Ձախողումների լավագույն պատճառները (TIM-expiry, RF-resolving, 5xx, timeouts)։
10) Մրցույթի գործընթացը (արագ սցենարը)
1. Աշխատում է մուլտֆիլմ-տարածաշրջանը/մուլտֆիլմի տեսակը։
2. Հերթապահը հաստատում է, ներառում է օրինագծերի սառեցում, տեղեկացնում է սեփականատերերին։
3. Արագ ախտորոշումը 'RF/TMS/CDN, վերջին ալգորիթմները, սխալների գրաֆիկը։
4. Շրջանցիկ ՝ փոփոխությունը, ֆոլբեկ բովանդակությունը/պրովայդերը, դեգրադացիայի ռեժիմի լուծումը։
5. Վերականգնումը 'ստուգում, որ սինթեզիկան/իրական կոորդինատները կանաչ են։
6. Հաղորդակցությունը կարգավիճակի էջի վրա; Ռուս կոմպոզիտորները։
7. RCA-ը և action items-ը 'ուղղումներ, թեստեր, ալերտներ, պլեյբուսներ։
11) SLA/SLO հաշվետվությունները
Ամսական հաշվետվությունները 'ծառայության/տարածքների ապթայմ, մի րոպե անցնելով, MTTR, պատճառներ։
Համեմատությունը SLA-ի հետ 'վարկեր/փոխհատուցում, եթե կիրառելի է։
Եռամսյակային հեղափոխություն 'շեմերի արդիականացում, սինթետիկայի բաշխում, կախվածության բարձրացում։
12) Ստուգման ձևանմուշները (օրինակ)
HTTP ստուգում API
Մեթոդը '«GET/healthz/public» (առանց գաղտնիքների)։
Թայմաութ ՝ 2 s, retry: 1։
Հաջողությունը '«2xx», «X-App-Version» վերնագիրը ներկա է, JSON-դաշտը' «status»։
TFC-ստուգումը
Ժամանակահատվածը> 14 օր, վալիդային շղթան, «TFC 1» -ի արձանագրությունները։ 2 + ", ճիշտ PPI։
RF-ստուգում
Պատասխան ժամանակը 100 մզ է, A/AAA ձայնագրությունները համապատասխանում են պլանին, չկա SERVAIL/REFUSED։
Heartbeat:- Webhuk '/beat/+ www.com '5 րոպե; երկու ազդանշանների բացակայությունը alert L2 (ֆոնային առաջադրանքներ/ETL) է։
13) Ներդրման չեկի ցուցակ
- Multi-տարածաշրջանային արտաքին ստուգումներ (HTTP/TCP/TSA/խորը սցենարներ)։
- Սպիտակ փորձարկումներ readiness/liveness նվագախմբի համար։
- Քննադատական/ոչ ռիթմիկ ճանապարհների բաժանումը, ֆիչի դրոշը դեգրադացիայի։
- Քվորումը և դեբաունսը Ալերտերում, էսկալացիայի և մեքենայի փակման մեջ։
- Հանրային և ներքին կարգավիճակը, հաղորդագրությունների ձևանմուշները։
- Առանձին ստուգումներ և SLO արտաքին պրովայդերների համար + ավտոմատ failover։
- Dashbords: Քարտեզը, թայմլինը, գրեցին, մի րոպե անցնելով, MTTR/MTBF։
- SLA/SLO զեկույցները և RCA-ը։
14) Հաճախակի սխալներ
Միայն ping/պորտը առանց NTTR/բովանդակության '«կանաչ» իրական անհասանելիության դեպքում։
Մոնիտորինգի մի կետ կեղծ դրական/բացասական եզրակացություններ է։
TFC/RF-ի վերահսկողության բացակայությունը հանկարծակի պրոթեզներ է 'ուշացման/միսկոնֆիգի պատճառով։
Լրացուցիչ աղմուկ 'ալտերտեր մեկ տարածաշրջանից/ստուգման տեսակից։
Ոչ մի կապ չկա փոփոխությունների հետ, բացակայում են ֆորումների և դրոշների ծանոթությունները։
Անթույլատրելի կախվածությունը 'մետրոպոլիտենի պրովայդերը ընկավ, իսկ «կանաչ» ընդհանուր կարգավիճակը։
15) Արդյունքը
Ապթայմի հետևելը միայն URL-ն չէ։ Սա իրական տարածքներից սինթետիկ ստուգումների համակարգ է, խելացի ալտերտեր առանց աղմուկի, թափանցիկ հաղորդակցություն կարգավիճակի էջերի, արտաքին կախվածության և խիստ հաշվետվությունների միջոցով։ Aptaima-ի ճիշտ կառուցվածքը նվազեցնում է MTTR-ը, պաշտպանում SLA-ը և պահպանում է ռուսական փորձի կանխատեսելիությունը։