Ressources informatiques partagées
1) Qu'est-ce que les « ressources informatiques partagées »
Les ressources informatiques partagées (RVA) sont logiquement un pool unique de CPU/GPU/mémoire/disque/réseau/DA (disponibilité des données), fourni à de nombreux rôles (développeurs, opérateurs de nœuds, fournisseurs de données/contenu, analystes, commandes ML) par le biais d'interfaces normalisées, de politiques et d'une économie d'incitation. L'objectif est d'améliorer le recyclage, de réduire les coûts et de garantir des performances prévisibles dans les scénarios multi-chaînes et inter-chaînes.
2) Taxonomie des ressources
Calculs : CPU (but général), GPU (formation/inference), NPU/TPU (accélérateurs ML).
Mémoire et disques : RAM, NVMe local, stockage objet/bloc, cache (Redis/KeyDB).
Réseau : bande passante, egress/ingress, classes QoS, flux privés.
Données et DA : quotas pour les publications, la réplication, les snapshots et le stockage des preuves.
Limites de service : nombre de pods/conteneurs, fichiers ouverts, descripteurs, micro-division GPU (MIG).
3) Modèles de consommation (types workload)
En ligne/faible latence : API, match, circuits de jeu/fintech, messagerie croisée.
Streaming/temps réel : gestion des événements, anti-frod, télémétrie, analyse temps réel.
Batch : ETL/ELT, rapports, calculs périodiques, préparation des fiches.
ML/AI : formation (GPU-intensive), inference (faible latence/conversion élevée).
Stockage et cache : OLTP/OLAP, lakehouse, CDN/edge cache.
Les SLO, les priorités, l'isolement et les tarifs sont donnés pour chaque classe.
4) Orchestration et planification
Sheduling par priorité et classe QoS : EDF/LLF pour les « deadlines », files d'attente prioritaires garanties par les « minima ».
Demandes de ressources : 'requests/limits'pour CPU/Mémoire, quotas et parts GPU, pools préemptibles/spot pour économiser.
Anti-bruit : cgroup/compensation « noisy neighbor », NUMA-pinning, polices réseau.
Topologie et localité : co-localisation des données et des calculs, affinité/anti-affinité, liaison edge.
Auto-échelle : horizontale (HPA), verticale (VPA), cluster (CA), pilote automatique pour les trampolines GPU/DA.
5) Multiplicité et isolation
Уровни: namespace→project→org (budget/quotas/ACL).
Isolation : conteneurs, VM, bac à sable (gVisor/Firecracker), réseau (VPC/NetworkPolicy), stockage (polices CSI).
Politiques de réduction du bruit : limites IOPS/egress, planification « fair-share », tiers dedicated pour les services critiques.
Budget des erreurs/ressources : budget d'erreur per-tenant et budget de ressources avec auto-dégradation.
6) QoS, priorité et SLO/SLA
Classes QoS : Q4 (critique-pealtime), Q3 (ordonné), Q2 (exactly-once-effect), Q1 (at-least-once), Q0 (best effort).
Exemples de SLO : API de latence p95 ≤ 200 ms (Q4), file d'attente GPU ≤ 2 min (Q3), batch par la fenêtre T ≤ 30 min (Q1).
Le contrat est QoS→resursy : chaque classe dispose de quotas garantis et de grues d'arrêt d'urgence.
7) Économie et monétisation (facturation/incitations)
Unités de facturation : vCPU-sec, horloge GiB RAM, GPU-minutes, GB-storage-mes, GB-egress, DA-octet/publication.
Tarifs : pay-as-you-go, abonnements avec quotas et dépassements, réservations (commit), spot/preemptible avec réductions.
RevPartager pour les fournisseurs de fer/centres de données : part du chiffre d'affaires, bonus SLA/pénalités.
Marché de puissance : liste des nœuds/clusters, notes de qualité, enchères de slots GPU.
- U-token - paiement des quotas/limites, rabais.
- S-token - cautions sous SLA des nœuds/pools (slashing pour interruption/violation).
- R-token - réputation du fournisseur/locataire (modificateur de prix/priorité).
- Les contrats RNFT sont des contrats individuels « resurs↔obyazatelstvo » (limites, prix, durée, KPI, sortie).
8) Contrats et services du noyau
Registre des ressources : types de ressources, classes de machines/GPU, zones disponibles/edge-POP.
Quota Manager : quotas/limites per tenant/project, budget egress/IOPS/DA.
Scheduler/Placement : pods/jobs/pools, priorités, localisation, anti-bruit.
Billing & Metering : compteurs par unité, tarifs, dépassements, alertes sur le budget.
Rewards Router : distribution des paiements aux fournisseurs, pénalités pour les breaks SLA.
Gate de conformité : régions, PDn/FDDn, âge/CUS-restrictions, exportation de rapports.
Observability Hub : métriques/traînées/logs, DLQ pour job, relais.
9) Sécurité et conformité
Authentification/autorisation : mTLS/OIDC, ABAC/RBAC, « plus petits privilèges ».
Segmentation du réseau : VPC, private-link, service-mash avec politiques de trafic.
Données : cryptage at-rest/in-transit, rotation clé, masquage/données fictives pour les tests.
Isolation GPU/CPU : interdiction d'accès direct, contrôle DMA/IOMMU, protection side-channel.
Conformité : journal d'audit, localisation régionale des données, politiques de stockage/suppression, ZK-pass pour les inspections sans divulgation.
10) Observation et gestion du rendement
Métriques : uCPU %, GPU-util, RAM/Cache hit, disque IOPS/throughput, réseau p95 RTT/egress, file GPU/Batch-lag.
SLO/SLA-dashboards : « santé » par classe de QoS et locataires, budgets d'erreurs.
Profilage : flamegraph-snapshots, hot path-analyse, recommandation automatique de tailles.
Alert : dépassement des lagunes, surchauffe des files d'attente GPU, explosion egress, drapeaux « noisy neighbor ».
11) Anti-froid et abus
Sybil/bot charge : S-cautions, R-réputation, signatures comportementales.
Abus d'egress/scan de réseau : taux limites/IDS, segments de quarantaine.
Farming rabais spot : anti-arb-politiques, refroidissement, limites pour les « sauts » entre les pools.
Fournisseurs malhonnêtes : contrôle des spécifications déclarées, échantillons synthétiques, slashing et « listes noires » RNFT.
12) Scénarios inter-chaînes (multitâche/edge)
Transfert du droit d'accès : Les droits et quotas RNFT sont transférés par messagerie, la réputation (R) reste dans le domaine de la confiance.
Quotas et publications DA : tarification par octet/fréquence, finalité/verrous temporaires.
Calcul Edge : nœuds POP avec tampons locaux, « pousser » l'inference plus près de l'utilisateur.
Dedup et idempotence X-domain : global 'x _ job _ id', tables seen aux extrémités, challenge-périodes.
13) Planification de la capacité et de la durabilité
Planification de la capacité : tendances de la consommation, saisonnalité, stocks de N semaines, « lignes rouges » p95.
Tests de jeu et de stress : surchauffe GPU/egress/DA, arrêt AZ/POP, scénarios de dégradation.
Dégradation par conception : graceful fallback (modèles/cache moins précis), priorités Q4/Q3.
Efficacité verte : recyclage, carbonaware sheduling, refroidissement/coût de l'énergie, transfert de batch vers les « fenêtres vertes ».
14) Métriques et KPI de l'écosystème OVR
Élimination : CPU/GPU busy %, RAM/Cache hit, stockage IOPS/GB-utilisation.
Efficacité : cost-to-serve/demande, élimination des spots, marge/minute GPU.
Qualité : p50/p95 latitude par classe, break SLA/1000 demandes, file d'attente/heure de démarrage du job.
Équité : indice « noisy neighbor », proportion d'incidents par locataire, répartition des quotas.
Économie : revenu/ressource-unité, NRR/GRR par plan, part des revenus récurrents.
Sécurité : taux d'isolation, anomalies d'egress, événements de slash réputés.
15) 治理 (gestion) des ressources
Paramètre proposal : modification des tarifs/contingents/corridors par vote.
R-modificateur : la réputation limite l'impact du « capital brut » dans les changements sensibles.
Sunset-clauses : promotions temporaires/remises avec auto-retour.
Rapports publics : Rapports trimestriels du Trésor de l'Autorité, vérification de l'ALS.
16) Pleybuck de lancement
1. Cartographie des besoins. Classes de tâches, SLO, localisation des données.
2. Conception des pools. Classes de machines, GPU-tiers, storage/network-levels, edge-POP.
3. Politiques et quotas. Classes QoS, budgets, limites egress/IOPS/DA.
4. L'économie. Tarifs, spot/réserves, incitations aux fournisseurs, contrats RNFT.
5. Sécurité et conformité. mTLS/OIDC, cryptage, journaux d'audit, géo-politiques.
6. L'observabilité. Dashboards KPI/SLO, alertes, profilage.
7. Pilote et mise à l'échelle. Une classe de tâches (par exemple, inference) → une extension sur batch/streaming.
8. Incidents et post-mortem. Jeux-jours, relais, ajustement des politiques/tarifs.
17) Chèque-liste de préparation
- QoS/SLO définis pour tous les types de tâches
- Quotas/limites inclus et planification « fair-share »
- spot/préemptible pools et anti-arb politiques configurés
- Les contrats RNFT, la facturation et le routeur Rewards ont été mis en œuvre
- L'isolement, le cryptage et les rapports de conformité sont assurés
- Dashboards de recyclage/qualité/économie disponibles
- Accidents travaillés : grues stop, dégradations, post mortem
- Les transitions multi-droits, les quotas DA, la distribution edge sont configurés
18) Glossaire
OVR (ressources informatiques partagées) : un pool unique de capacités pour l'écosystème.
RNFT : contrat - « relation » pour les droits sur les ressources/limites/délais.
S-token : caution sous SLA/responsabilité du fournisseur/nœud.
R-token : réputation indescriptible de qualité/fiabilité.
DA : couche de disponibilité des données (publication/stockage des preuves).
Spot/Préemptible : ressources bon marché mais interrompues avec des politiques de reprise.
Résultat : les ressources informatiques globales transforment l'écosystème en une usine de calcul auto-équilibrant où le recyclage est élevé, la qualité est prévisible, les incitations sont alignées et la sécurité et la conformité sont intégrées dans le protocole. La bonne orchestration, l'économie i治理 vous permettent de mettre à l'échelle les charges multiarend sans perte de productivité et de confiance.