GH GambleHub

Ապթայմի հետևելը

1) Ինչո՞ ւ վերահսկել դեղատները

Aptaim-ը ժամանակի մասն է, երբ ծառայությունը հասանելի է օգտագործողին։ Սա դիտարկման առաջին գիծն է 'անմիջապես տեսնել անհասանելիությունը, ցանցի դեգրադացիան, CSA/TSA-ի ձախողումը, ուղեղի կամ CDN-ի խնդիրները։ Բարձր բեռնված և կարգավորվող համակարգերի համար (fintech, iGaming) դեղայքը ուղղակիորեն ազդում է եկամուտների, SLA-ի կատարման և տուգանային ռիսկերի վրա։

2) Տերմիններ և բանաձևեր

SLI հասանելիությունը '«SLI = (հաջողակ ստուգումներ/բոլոր ստուգումներ) 3,100%»։

SLO 'պատուհանի համար նպատակային հասանելիությունը (սովորաբար 28-30 օր), օրինակ 99։ 9%.

SLA 'արտաքին պարտավորություն; միշտ գտնվում է ներքին SLO-ում։

MTBF/MTTR 'միջին ժամանակը ձախողումների/վերականգնման միջին ժամանակի միջև։

«Աղջիկների» քարտեզը (մեկ ամսվա ընթացքում, 3,43 200 րոպե)

99. 0% 432 րոպե անհասանելի

99. 9 տոկոսը 2443 մղոն է

99. 99% → ~4. 3 րոպե

99. 999% 2426 վայրկյան

3) Ի՞ նչ ստուգումներ են անհրաժեշտ (սև արկղ)

Սկսում են արտաքին կետերից (տարբեր տարածաշրջաններ/պրովայդերներ), որպեսզի տեսնեն ծառայությունը «հաճախորդի աչքերով»։

1. ICSA (ping) - ցանցի/հանգույցի հասանելիությունը։ Արագ, բայց չի արտահայտում բիզնեսի հաջողությունը։

2. TCP connect - պորտ լսում է։ Օգտակար է բրոկերների/BD/SMTP-ի համար։

3. HTTP/HTTPS - կարգավիճակ-կոդ, վերնագրեր, չափսեր, ռեդիրետներ, ժամանակը մինչև առաջին բայթ։

4. TFC/հավաստագրեր - գործողության, շղթայի, ալգորիթմների, MSI-ի, արձանագրության ժամանակահատվածը։

5. III - A/AAAA/CNAME, NS առողջություն, տարածումը, DNSSEC։

6. GRPC-ը զանգի, deadom-ի, մետատվողների կարգավիճակ է։

7. Express Socket/SSE-ը ձեռագործություն է, կապի պահպանումը, հաղորդագրությունը-էխոն։

8. Express/CDN-ը տարբեր PoP-ն է, քեշի հեշ թեստը, գեո տարբերակները։

9. Գործարքային սինթետիկ սցենարները (տեսահոլովակներ/ձևեր). <<լոգինը բացատրում է ռուսական ավանդի որոնումը>>։

10. Heartbeat/cast-2019 - ծառայությունը պարտավոր է «պուլսիզացնել» (huk անգամ N րոպեում); ազդանշան չկա 'անհանգստություն։

Խորհուրդ

Տեղադրեք թայմաուտները ավելի մոտ իրական UX-ին (օրինակ, TTFB 35300 մզ, total 352 s)։

Ստուգեք ասերտի բովանդակությունը (հիմնական բառը/JSON դաշտը), որպեսզի «200 OK» -ը ձախողվի։

Կրկնօրինակեք ստուգումները պրովայդերների և ցանցի միջոցով (մուլտֆիլմ-հոփ, տարբեր ASN)։

4) Սպիտակ արկղը և առողջությունը

Liveness/Readiness թեստերը նվագախմբի համար (կենդանի գործընթացներ։ պատրա՞ ստ են ընդունել։)

Կախվածության առողջությունը 'BD, kes, իրադարձությունների բրոքեր, արտաքին API (վճարումներ/KYC/AML)։

Ֆիչա դրոշը/դեգրադացիան, խնդիրների դեպքում, փափուկ անջատենք ոչ կրիտիկական ճանապարհները։

Սպիտակ փորձարկումները չեն փոխարինում արտաքին ստուգումները. Ծառայությունը կարող է լինել «ներսում առողջ», բայց հասանելի է օգտագործողին RF/TFC/2019 պատճառով։

5) Երկրագրությունը և բազմազանությունը

Սկսեք սինթեզիկան հիմնական տարածաշրջաններից և կրիտիկական կախվածության պրովայդերների կողքին։

Քվորում 'պատահարը գրանցվում է, եթե ձախողումը նշված N շրջաններում (օրինակ, 3-ից 2-ը), որպեսզի կտրվի տեղական անոմալիաները։

Կոորդինատների շեմն 'առանձին SLI/SLO կարևոր հատվածների համար (երկրներ, VIP, հեռահաղորդակցման օպերատորներ)։

6) Ալերտների քաղաքականությունը (նվազագույն աղմուկ)

Multi-տարածաշրջանը + multi-թեստը 'լանդշաֆտը միայն համաձայնեցված ձախողման ժամանակ (օրինակ, HTTP և TLS միաժամանակ, 242 տարածք)։

Դեբաունս 'N հետևողական ձախողումներ կամ պատուհան 2-3 րոպե առաջ։

Էսկալացիա

L1: on-call (վաճառական-ծառայություններ)։

L2: Ցանցը/պլատֆորմը/անվտանգությունը կախված ձախողման ազդանշանից։

Avto-2019 'կայուն M հաջողակ ստուգումներից հետո։

Հանգիստ ժամացույցներ/զիջումներ 'ոչ քննադատական ներքին ծառայությունների համար միայն հյուսետներ, առանց լանդշաֆտի։

7) Կարգավիճակ-էջ և հաղորդակցություն

Հանրային (հաճախորդ) և մասնավոր (ներքին) կարգավիճակը։

Ավտոմատ պատահարներ սինթեզիկայից + ձեռքով։

Հաղորդագրությունների ձևանմուշները 'հայտնաբերվում են, հայտնաբերվում է, ազդեցությունը' շրջանցիկ ճանապարհը 'ETA-ը, որոշվել է' փոստ-մորդեմը։

Պլանավորված պատուհաններ 'նախապես հայտարարել, բացառություններ հաշվի առնել SLO-ից։

8) Արտաքին կախվածության կարգավորումը

Յուրաքանչյուր պրովայդերի համար (վճարումները, KYC, հաղորդագրությունները, CDN, ամպերը) - իրենց ստուգումները մի քանի տարածաշրջաններից։

Failover-երթուղիները 'ավտոմեքենաների տեղափոխումը այլընտրանքային պրովայդերի վրա սինթետիկ ազդանշանի վրա։

Առանձին SLO-ն պրովայդերի մակարդակում և ինտեգրալ e2e-SLO-ի մակարդակում։

Համաձայնվել SLA-ի հետ պրովայդերների հետ (կարգավիճակ-վեբհուկի, աջակցության գերակայություն)։

9) Դաշբորդներն ու հիմնական տեսիլքները

Աշխարհի քարտեզը ստուգման վիճակով (HTTP, RF, TSA)։

Թայմլայնը համագործակցում է առյուծների/դրոշների սենսացիաների հետ։

P50/P95/P99 TTFB/TTL/latency տարածաշրջաններում։

Գորտերի հասանելիությունը (երկիր/պրովայդեր/սարք)։

MTTR/MTBF-ը, «րոպե» և «burn-down» մեկ ամսվա հասանելիության բյուջեի միտումները։

Ձախողումների լավագույն պատճառները (TIM-expiry, RF-resolving, 5xx, timeouts)։

10) Մրցույթի գործընթացը (արագ սցենարը)

1. Աշխատում է մուլտֆիլմ-տարածաշրջանը/մուլտֆիլմի տեսակը։

2. Հերթապահը հաստատում է, ներառում է օրինագծերի սառեցում, տեղեկացնում է սեփականատերերին։

3. Արագ ախտորոշումը 'RF/TMS/CDN, վերջին ալգորիթմները, սխալների գրաֆիկը։

4. Շրջանցիկ ՝ փոփոխությունը, ֆոլբեկ բովանդակությունը/պրովայդերը, դեգրադացիայի ռեժիմի լուծումը։

5. Վերականգնումը 'ստուգում, որ սինթեզիկան/իրական կոորդինատները կանաչ են։

6. Հաղորդակցությունը կարգավիճակի էջի վրա; Ռուս կոմպոզիտորները։

7. RCA-ը և action items-ը 'ուղղումներ, թեստեր, ալերտներ, պլեյբուսներ։

11) SLA/SLO հաշվետվությունները

Ամսական հաշվետվությունները 'ծառայության/տարածքների ապթայմ, մի րոպե անցնելով, MTTR, պատճառներ։

Համեմատությունը SLA-ի հետ 'վարկեր/փոխհատուցում, եթե կիրառելի է։

Եռամսյակային հեղափոխություն 'շեմերի արդիականացում, սինթետիկայի բաշխում, կախվածության բարձրացում։

12) Ստուգման ձևանմուշները (օրինակ)

HTTP ստուգում API

Մեթոդը '«GET/healthz/public» (առանց գաղտնիքների)։

Թայմաութ ՝ 2 s, retry:

Հաջողությունը '«2xx», «X-App-Version» վերնագիրը ներկա է, JSON-դաշտը' «status»։

TFC-ստուգումը

Ժամանակահատվածը> 14 օր, վալիդային շղթան, «TFC 1» -ի արձանագրությունները։ 2 + ", ճիշտ PPI։

RF-ստուգում

Պատասխան ժամանակը 100 մզ է, A/AAA ձայնագրությունները համապատասխանում են պլանին, չկա SERVAIL/REFUSED։

Heartbeat:
  • Webhuk '/beat/+ www.com '5 րոպե; երկու ազդանշանների բացակայությունը alert L2 (ֆոնային առաջադրանքներ/ETL) է։

13) Ներդրման չեկի ցուցակ

  • Multi-տարածաշրջանային արտաքին ստուգումներ (HTTP/TCP/TSA/խորը սցենարներ)։
  • Սպիտակ փորձարկումներ readiness/liveness նվագախմբի համար։
  • Քննադատական/ոչ ռիթմիկ ճանապարհների բաժանումը, ֆիչի դրոշը դեգրադացիայի։
  • Քվորումը և դեբաունսը Ալերտերում, էսկալացիայի և մեքենայի փակման մեջ։
  • Հանրային և ներքին կարգավիճակը, հաղորդագրությունների ձևանմուշները։
  • Առանձին ստուգումներ և SLO արտաքին պրովայդերների համար + ավտոմատ failover։
  • Dashbords: Քարտեզը, թայմլինը, գրեցին, մի րոպե անցնելով, MTTR/MTBF։
  • SLA/SLO զեկույցները և RCA-ը։

14) Հաճախակի սխալներ

Միայն ping/պորտը առանց NTTR/բովանդակության '«կանաչ» իրական անհասանելիության դեպքում։

Մոնիտորինգի մի կետ կեղծ դրական/բացասական եզրակացություններ է։

TFC/RF-ի վերահսկողության բացակայությունը հանկարծակի պրոթեզներ է 'ուշացման/միսկոնֆիգի պատճառով։

Լրացուցիչ աղմուկ 'ալտերտեր մեկ տարածաշրջանից/ստուգման տեսակից։

Ոչ մի կապ չկա փոփոխությունների հետ, բացակայում են ֆորումների և դրոշների ծանոթությունները։

Անթույլատրելի կախվածությունը 'մետրոպոլիտենի պրովայդերը ընկավ, իսկ «կանաչ» ընդհանուր կարգավիճակը։

15) Արդյունքը

Ապթայմի հետևելը միայն URL-ն չէ։ Սա իրական տարածքներից սինթետիկ ստուգումների համակարգ է, խելացի ալտերտեր առանց աղմուկի, թափանցիկ հաղորդակցություն կարգավիճակի էջերի, արտաքին կախվածության և խիստ հաշվետվությունների միջոցով։ Aptaima-ի ճիշտ կառուցվածքը նվազեցնում է MTTR-ը, պաշտպանում SLA-ը և պահպանում է ռուսական փորձի կանխատեսելիությունը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։