Suivi de l'aptyme

1) Pourquoi surveiller l'aptame

Aptame - une fraction du temps où le service est disponible pour l'utilisateur. C'est la « première ligne » d'observation : remarquer instantanément une indisponibilité, une dégradation sur le réseau, une défaillance DNS/TLS, des problèmes de routage ou de CDN. Pour les systèmes hautement chargés et réglementés (fintech, iGaming), l'aptyme affecte directement les revenus, l'exécution des SLA et les risques de pénalité.

2) Termes et formules

SLI de disponibilité : 'SLI = (vérifications réussies/toutes les vérifications) × 100 %'.
SLO : disponibilité cible par fenêtre (généralement 28-30 jours), par exemple 99. 9%.
SLA : engagement externe ; toujours ≤ un SLO interne.
MTBF/MTR : temps moyen entre les pannes et le temps moyen de récupération.

Carte « 9 » (par mois, ~ 43 200 minutes) :

99. 0 % → ~ 432 min d'indisponibilité

99. 9 % → ~ 43 min

99. 99% → ~4. 3 min

99. 999 % → ~ 26 secondes

3) Quelles vérifications sont nécessaires (boîte noire)

Ils sont lancés à partir de points externes (différentes régions/fournisseurs) pour voir le service avec les « yeux du client ».

1. ICMP (ping) est le réseau de base/disponibilité du nœud. Rapide, mais ne reflète pas le succès de l'entreprise.
2. TCP connect - le port écoute ? Utile pour les courtiers/OBD/SMTP.
3. HTTP/HTTPS est le code d'état, les en-têtes, la taille, les radiés, l'heure jusqu'au premier octet.
4. TLS/certificats - durée de validité, chaîne, algorithmes, SNI, protocoles.
5. DNS - A/AAAA/CNAME, santé NS, distribution, DNSSEC.
6. gRPC - état de l'appel, deadline, métadonnées.
7. WebSocket/SSE - poignée de main, maintien de la connexion, message-écho.
8. Proxy/routage/CDN - différents PoP, hachage de cache, géo-options.
9. Scripts synthétiques transactionnels (clics/formulaires) : « login → recherche → dépôt (bac à sable) ».
10. Heartbeat/cron-monitoring - le service est tenu de « pulser » (crook une fois par N minutes) ; pas de signal - alarme.

Conseils :

Rapprochez-vous de l'UX réel (par exemple, TTFB ≤ 300 ms, total ≤ 2 s).
Vérifiez le contenu assert (mot-clé/champ JSON) afin que « 200 OK » avec une erreur ne soit pas considéré comme un succès.
Dupliquez les vérifications via des fournisseurs et des réseaux indépendants (multi-hop, ASN différents).

4) La boîte blanche et la santé du service

Liveness/Lecture d'échantillons pour orchestrateur (les processus sont-ils vivants ? prêt à accepter le trafic ?).
Santé des dépendances : OBD, cache, courtier d'événements, API externes (paiements/KYC/AML).
Drapeaux de ficha/dégradation : en cas de problèmes, nous coupons doucement les voies non critiques.

Les échantillons blancs ne remplacent pas les contrôles externes : le service peut être « sain à l'intérieur », mais l'utilisateur n'est pas disponible en raison du DNS/TLS/route.

5) Géographie et multirégionalité

Exécutez des synthétiques à partir de régions clés du trafic et à proximité des fournisseurs de dépendances critiques.
Quorum : on enregistre un incident en cas d'échec dans les régions N ≥ (par exemple 2 sur 3) afin de couper les anomalies locales.
Seuil par cohorte : SLI/SLO distincts pour les segments importants (pays, VIP, opérateurs de télécommunications).

6) Politique d'alerte (minimum de bruit)

Multi-région + multi-échantillon : pager uniquement en cas d'échec négocié (par exemple HTTP et TLS simultanément, ≥ 2 régions).
Debounce : N échecs consécutifs ou fenêtre 2-3 minutes avant la page.

Escalade :

L1 : on-call (services de production).
L2 : réseau/plateforme/sécurité en fonction de la signature du défaut.
Auto-fermeture : après des contrôles stables M réussis.
Heures silencieuses/concessions : pour les services internes non critiques - seulement des tiquets, pas de pager.

7) Statut-page et communication

Page de statut publique (client) et privée (interne).
Incidents automatiques de synthétiques + annotations manuelles.
Modèles de messages : détecté - identifié - impact - contournement - ETA - résolu - post-musem.
Fenêtres planifiées : annoncer à l'avance, tenir compte des exceptions séparément de SLO.

8) Prise en compte des dépendances externes

Pour chaque fournisseur (paiements, KYC, newsletters, CDN, cloud) - leurs vérifications de plusieurs régions.
Itinéraires de failover : Passage automatique à un fournisseur alternatif par signal synthétique.
SLO séparé au niveau du fournisseur et du e2e-SLO intégré.
Négocier un SLA avec les fournisseurs (status webhooks, priorité de support).

9) Dashboards et widgets clés

Carte du monde avec état des vérifications (par type : HTTP, DNS, TLS).
Incidents temporels avec annotations de sortie/drapeaux.
P50/P95/P99 TTFB/TTL/latitude par région.
Disponibilité par cohorte (pays/fournisseur/appareil).
MTTR/MTBF, tendances « minutes d'inactivité » et « burn-down » budget de disponibilité par mois.
Les principales causes des échecs (TLS-expiry, DNS-resolving, 5xx, timeouts).

10) Processus d'incident (scénario rapide)

1. Multi-région/multi-type alert est déclenché.
2. Le préposé confirme, inclut le gel des sorties, avertit les propriétaires.
3. Diagnostic rapide : statut DNS/TLS/CDN, dernières versions, graphique des erreurs.
4. Contournement : changement d'itinéraire, contenu folback/fournisseur, activation du mode de dégradation.
5. Récupération : vérifiez que le trafic synthétique/réel est vert.
6. Communication sur la page de statut ; clôture de l'incident.
7. RCA et items d'action : corrections, tests, alertes, playbooks.

11) Rapports sur les SLA/SLO

Rapports mensuels : aptyme par service/région, minutes d'inactivité, MTR, raisons.
Comparaison avec SLA : crédits/compensations, le cas échéant.
Revues trimestrielles : actualisation des seuils, distribution des synthétiques, liste des dépendances.

12) Modèles de vérification (exemple)

Vérification HTTP de l'API :

Méthode : 'GET/healthz/public' (pas de secrets).
Timaut : 2 s, retry : 1.
Succès : '2xx', le titre 'X-App-Version' est présent, le champ JSON 'status' : 'ok'.

Test TLS :

Délai> 14 jours, chaîne de validation, protocoles 'TLS 1. 2 + ', SNI correct.

Vérification DNS :

Temps de réponse ≤ 100 ms, les entrées A/AAAA sont conformes au plan, pas SERVFAIL/REFUSED.

Heartbeat:

Webhook '/beat/{ service} 'une fois toutes les 5 minutes ; l'absence de 2 signaux consécutifs est alert L2 (tâches de fond/ETL).

13) Chèque de mise en œuvre

Vérifications externes multi-régionales (HTTP/TCP/DNS/TLS/scripts profonds).
Échantillons blancs de lecture/liveness pour orchestrateur.
Séparation des voies critiques/non critiques, drapeau ficha de dégradation.
Quorum et débonds en alertes, escalade et auto-fermeture.
Pages de statut public et interne, modèles de messages.
Contrôles séparés et SLO pour les fournisseurs externes + failover automatique.
Dashboards : carte, temporelle, percentiles, minutes d'inactivité, MTTR/MTBF.
Rapports réguliers sur les SLA/SLO et les RCA post-incidents.

14) Erreurs fréquentes

Seul le ping/port sans NTTR/contenu est « vert » en cas d'indisponibilité réelle.
Un point de contrôle est la conclusion faussement positive/négative.
L'absence de contrôle TLS/DNS est une interruption soudaine due au retard/misconfigh.
Bruit superflu : alertes par échecs isolés d'une même région/type de vérification.
Aucun lien avec les modifications - il n'y a pas d'annotations des versions et des drapeaux dans les dashboards.
Les dépendances non comptabilisées - le fournisseur de paiement a chuté et le statut général « vert ».

15) Résultat

Le suivi de l'aptame n'est pas seulement « piquer l'URL ». C'est un système de contrôles synthétiques des régions réelles, des alertes raisonnables sans bruit, une communication transparente à travers les pages de statut, la prise en compte des dépendances extérieures et un rapport strict. Une surveillance d'aptame correctement construite réduit le MTTR, protège le SLA et préserve la prévisibilité de l'expérience utilisateur.

Suivi de l'aptyme

Prendre contact

Contact rapide

La vidéo sera bientôt mise à jour

Nous sommes actuellement très occupés par des projets