Système de notification et d'alerte
(Section : Opérations et gestion)
1) Désignation et principes
L'objectif est de livrer peu, mais avec précision : seulement des signaux pertinents, en temps opportun et à l'homme/robot responsable avec une next-step compréhensible.
Principes :- Activable par défaut : chaque alerte a un propriétaire, une priorité, une date limite de réaction et un bouton d'action.
- SLO-first : les alertes sont construites autour de SLI/SLO, pas autour de métriques arbitraires.
- Noise-control : dedup, corrélations, suppression de la tempête.
- Context-rich : métadonnées (région, tenant, version, trace_id) et lien vers runbook.
- Audit-ready : toutes les alertes et réactions sont entrecoupées et sauvegardées dans un journal inchangé.
2) Sources de signaux
Ceux-là. télémétrie : disponibilité, p95/p99, taux d'erreur, file d'attente, limites de ressources.
Entreprises : PriceMismatch, WebhookLag, RTP Drift, signaux frod.
Sécurité/conformité : Violations SoD, accès PII, exportation de clés/certificats.
Planificateur : SLA en retard des tâches, DLQ-avalanches, retry-storms.
3) Classification et priorités
Guardrails : les alertes sont formulées par rapport au budget SLO/Error (burn rate).
4) Routage et escalade 24 × 7
Itinérance par contexte : 'region/tenant/product/provider/severity'.
Escalier d'escalade : ingénieur en ligne → ligne de commande → Duty Manager → Exec/Legal (pour PII/Finance).
Service : rotation par rôle (SRE, App, Data, Security, Payments), contacts redondants (chat/voix/SMS).
Fenêtres de silence : nuit, sortie, marketing ; exceptions pour P1.
5) Réduction du bruit et corrélations
Déduplication : par '(fingerprint, region, tenant, route)' et 'trace _ id'.
Suppression de la « tempête » : suppression temporaire des doublons avec P1 actif.
Corrélations : groupement des signaux autour de la cause racine (sortie/ficha/fournisseur).
Hystérésis : l'entrée/sortie du seuil est différente pour éviter la « scie ».
6) Contenu d'alerte (modèle)
Titre : brièvement et sur le fond - « EU/Checkout : p95> 250ms (SLO breach) ».
Champs clés : priorité, heure, région, tenant, version, trace_id, affected %, quiz. la raison.
Que faire maintenant : 1-3 premières étapes + lien vers runbook/boutons (Re-route, Rollback, Pause Promo).
Prochaine communication : après N minutes, propriétaire (IC/on-call).
7) Canaux de livraison
Chat/messager : canal principal de triage (carte de bot avec boutons).
Pager/voix/SMS : pour P1.
Courrier : rapports et non-urgence (P3/Info).
Webhooks : intégrations avec tiketing/orchestrateurs.
Status Page : Notification externe aux clients et partenaires.
8) Intégrations et « boutons d'action »
Incident-bot : crée une carte, attribue un IC, ouvre un message vidéo, démarre les minuteries.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Droits : le lancement des runes est limité aux rôles ; toutes les actions sont signées et logées.
9) Multi-région et multi-tenant
SLO/seuils indépendants par région ; les incidents locaux ne « peignent » pas le monde entier.
Filtres de visibilité : les partenaires/tenants ne voient que les leurs.
Exigences juridictionnelles : textes des avis, langues, fuseaux horaires.
10) Politiques, horaires, fenêtres de silence
Politique d'alerte : propriétaires, seuils, canaux, escalades, modèles.
Calendriers : heures de travail/hors-service, fenêtres de sortie/marketing.
Change freeze : assouplissement des seuils ou suppression des « non-P1 » lors des grandes actions.
11) Audit et fixation juridique
Reçus : pour les alertes critiques - 'receipt _ hash' et DSE signature.
Journaux WORM : stockage immuable des événements et des réactions (qui a confirmé ce qu'il a fait).
Chain-of-custody : tracer des escalades et des solutions.
12) Systèmes de notification métriques et SLO
MTTA (acknowledge) : P1 ≤ 5-10 min ; P2 ≤ 30 minutes
Page rate/On-call load : signaux de remplacement - dans la gamme cible.
Faux Positif %: ≤ le seuil cible (généralement <10-15 %).
Corrélation d'efficacité : proportion de signaux groupés ≥ 80 %.
Livraison SLO : Chat ≥ 99. 9 %, SMS/voix ≥ 99. 5%.
Time-to-Action : p95 pour lancer la rune d'alert.
13) Dashboards et reports
Opérationnel : incidents actifs, burn-rate, carte des régions/tenants, file d'alertes.
Qualité des alertes : bruit, FP, retestes de seuil, « zones muettes ».
Charge on-call : fréquence des pagaies, temps de réaction, « out of hours ».
Post-incident : efficacité des runes, répétabilité des causes.
14) Spécificité iGaming/fintech
Paiements/PSP : P1 - refus du fournisseur, augmentation des refus d'autorisation ; Auto-root sur PSP de secours.
RTP & Limites : alertes sur la dérive du RTP observé, dépassement des limites, schémas de gains suspects.
Affiliations/webhooks : larme de livraison, augmentation des prises, chute des reçus confirmés.
Prix/FX/Tax : incohérence des vitrina↔checkout, dissynchrone des versions d'artefacts.
Jeu responsable : Les déclencheurs RG et leur escalade opportune en soutien/conformité.
15) RACI
16) Chèque de mise en œuvre
- Identifier North-Star et SLI/SLO ; lier les alertes à burn-rate.
- Entrez un catalogue de politiques : seuils, canaux, escalades, fenêtres de silence.
- Mettre en œuvre le dedup, les corrélations, l'hystérésis, la suppression des tempêtes.
- Configurer des règles de visibilité multi-régionales et multi-tenantes.
- Connecter « boutons d'action » et runbooks ; limiter les droits de démarrage.
- Inclure WORM/reçus, suivi de trace_id et audit run.
- Construire des dashboards de qualité (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Revoir régulièrement les seuils ; A/B des seuils sur les métriques « muettes ».
- Rapport mensuel sur la charge de travail et les améliorations.
17) Pleybuki (référence)
PSP Outage (P1) : auto-routage sur la réserve, réduction des délais des clients, quarantaine des transactions « grises », statut d'apdate dans 15 min.
WebhookLag (P2) : agrandir les workers/batch, hiérarchiser les files d'attente, mettre en pause les endpoints facultatifs.
PrixMismatch (P1/P2) : force-invalidation du cache, rapprochement 'fx _ version/tax _ rule _ version', restauration de l'artefact, compensation.
RTP Drift (P2) : pause bonus/promo, audit des profils, extension de la fenêtre de surveillance.
Sécurité : SoD/MFA fail (P1/P2) : verrouillage de l'opération, vérification JIT, forensing et Legal si nécessaire.
18) FAQ
Comment réduire les faux positifs ?
Règles orientées SLO, corrélations, hystérésis, fenêtres d'apprentissage et révisions régulières des seuils.
Qu'est-ce qui est plus important - la couverture ou la précision ?
Pour P1 - précision et vitesse (mieux moins, mais critique). Pour P3 - couverture des tendances et des coûts.
Ai-je besoin de paging téléphonique ?
Oui, pour P1 ; le chat peut ne pas être disponible ou être « appelé ».
Comment ne pas « brûler » l'équipe d'appel ?
Limites de taux de page, redistribution des charges, « follow-the-sun », bruits mensuels.
Résumé : Le système de notification et d'alertes est un convoyeur contrôlé du signal à l'action. Construisez-le sur SLO, éteignez le bruit, routez par contexte, donnez des boutons d'action et fixez-le légalement. De cette façon, vous réduisez le MTTA, soulagez la charge de travail et augmentez la résilience de l'entreprise, même avec des surtensions et des pannes brusques des fournisseurs.