Recursos informáticos compartidos
1) Qué son los «recursos informáticos compartidos»
Recursos informáticos compartidos (DAI) es un conjunto lógicamente único de CPU/GPU/memoria/disco/red/DA (disponibilidad de datos) que se proporciona a múltiples roles (desarrolladores, operadores de nodos, proveedores de datos/contenido, analistas, comandos ML) a través de interfaces estandarizadas, políticas y economía de incentivos. El objetivo es mejorar el reciclaje, reducir los costos y garantizar un rendimiento predecible en escenarios multiarrendamiento y entre cadenas.
2) Taxonomía de los recursos
Computación: CPU (propósito general), GPU (aprendizaje/inferencia), NPU/TPU (aceleradores ML).
Memoria y discos: RAM, NVMe local, almacenamiento de objetos/bloques, cachés (Redis/KeyDB).
Red: ancho de banda, egress/ingress, clases de QoS, canales privados.
Datos y DA: cuotas de publicación, replicación, snapshots y almacenamiento de evidencia.
Límites de servicio: número de podas/contenedores, archivos abiertos, descriptores, micro-división GPU (AMB).
3) Modelos de consumo (tipos de trabajo)
Latencia en línea/baja: API, match, trazados de juegos/fintech, mensajería chain cruzada.
Streaming/tiempo real: procesamiento de eventos, anti-frod, telemetría, análisis en tiempo real.
Batch: ETL/ELT, informes, cálculos periódicos, preparación de fichas.
ML/AI: entrenamiento (GPU-intensivo), inferencia (baja latencia/alta conversión).
Almacenamiento y caché: memoria caché OLTP/OLAP, lakehouse, CDN/edge.
Para cada clase se establecen SLO, prioridades, aislamiento y tarifas.
4) Orquestación y planificación
Sheduling por prioridad y clase QoS: EDF/LLF para «deadline», colas prioritarias, «mínimos» garantizados.
Solicitudes de recursos: 'requests/limits' para CPU/Memory, cuotas GPU y participaciones, grupos preemptibles/spot para ahorrar.
Anti-ruido: cgroup/compensación «noisy neighbor», NUMA-pinning, pólizas de red.
Topología y localidad: co-ubicación de datos y cálculos, affinity/anti-affinity, edge-link.
Automatización: horizontal (HPA), vertical (VPA), cluster (CA), piloto automático para batches GPU/DA.
5) Multiarrendamiento y aislamiento
Уровни: namespace→project→org (budget/quotas/ACL).
Aislamiento: contenedores, VM, sandbox (gVisor/Firecracker), red (VPC/NetworkPolicy), almacenamiento (pólizas CSI).
Políticas de cancelación de ruido: límites IOPS/egress, planificación «fair-share», tiers dedicados para servicios críticos.
Presupuestos de errores/recursos: per-tenant error budget y resource budget con degradación automática.
6) QoS, priorización y SLO/SLA
Clases de QoS: Q4 (crítico-pealtime), Q3 (ordenado), Q2 (exactly-once-eficient), Q1 (at-least-once), Q0 (best effort).
Ejemplos de SLO: API latencia p95 ≤ 200 ms (Q4), cola de espera GPU ≤ 2 min (Q3), batch en la ventana T ≤ 30 min (Q1).
El contrato QoS→resursy: se fijan cuotas garantizadas y «stop grúas» de emergencia a cada clase.
7) Economía y monetización (facturación/incentivos)
Unidades de facturación: vCPU-sec, relojes GiB RAM, minutos GPU, GB-storage-mes, GB-egress, DA-bytes/publicación.
Planes de tarifas: pay-as-you-go, suscripciones con cuotas y sobrecostos, reservas (commit), spot/preemptible con descuentos.
RevShare para proveedores de hierro/centros de datos: cuota de facturación, bonos/multas SLA.
Mercado de potencia: lista de nodos/clústeres, calificaciones de calidad, subastas de ranuras GPU.
- Token U - pago de cuotas/límites, descuentos.
- S-token - fianzas bajo SLA de nodos/grupos (slashing por tiempo de inactividad/infracciones).
- R-token - la reputación del proveedor/arrendatario (modificador de precio/prioridad).
- Contratos RNFT - contratos individuales «resurs↔obyazatelstvo» (límites, precio, plazo, KPI, salida).
8) Contratos y servicios del núcleo
Registro de recursos: tipos de recursos, clases de máquinas/GPU, zonas disponibles/edge-POP.
Quota Manager: cuotas/límites per tenant/project, presupuesto egress/IOPS/DA.
Scheduler/Placement: pods/jobs/pools, prioridades, localidad, anti-ruido.
Billing & Metering: contadores por unidad, tarifas, sobrecostos, alertas por presupuesto.
Rewards Router: distribución de pagos a proveedores, multas por roturas de SLA.
Compliance Gate: regiones, PDn/FDDn, edad/restricciones CUS, informes de exportación.
Observabilidad Hub: métricas/tracks/logs, DLQ para job, réplicas.
9) Seguridad y cumplimiento
Autenticación/autorización: mTLS/OIDC, ABAC/RBAC, «los privilegios más pequeños».
Segmentación de la red: VPC, enlace privado, servicio maestro con políticas de tráfico.
Datos: encriptación en tránsito, rotación clave, enmascaramiento/datos ficticios para pruebas.
Aislamiento GPU/CPU: prohibición de acceso directo, control DMA/IOMMU, protección side-channel.
Cumplimiento: registro de auditoría, localización regional de datos, políticas de retención/eliminación, pases ZK para comprobaciones sin divulgación.
10) Observabilidad y gestión del rendimiento
Métricas: uCPU%, GPU-util, RAM/Cache hit, disco IOPS/throughput, red p95 RTT/egress, cola GPU/Batch-amb.
SLO/SLA-dashboards: «salud» por clases de QoS e inquilinos, presupuestos de errores.
Perfilado: imágenes flamegraph, hot path análisis, recomendación automática de tamaños.
Alertas: exceso de lagunas, sobrecalentamiento de las colas de la GPU, explosión de egresos, banderas «noisy neighbor».
11) Anticongelante y abuso
Sybil/bot-carga: S-fianzas, R-reputación, firmas de comportamiento.
Abuso de egresos/escaneo de redes: rate limits/IDS, segmentos de cuarentena.
Farming spot descuentos: anti-arb-pólizas, enfriamiento, límites en «saltos» entre las piscinas.
Proveedores deshonestos: control de las especificaciones declaradas, muestras sintéticas, slashing y «listas negras» de RNFT.
12) Escenarios entre cadenas (multi-line/edge)
Transferencia de derechos de acceso: los derechos RNFT y las cuotas se transfieren a través de mensajería, la reputación (R) permanece en el dominio de confianza.
Cuotas de DA y publicaciones: tarificación por byte/frecuencia, finalidad/candados temporales.
Edge Computing: nodos POP con buffers locales, «empujando» el infierno más cerca del usuario.
Dedoup e idempotencia X-domain: global 'x _ job _ id', tablas seen en los extremos, períodos de desafío.
13) Planificación de la capacidad y sostenibilidad
Planificación de la capacidad: tendencias de consumo, estacionalidad, reservas de semanas N, «líneas rojas» p95.
Días de juego y pruebas de estrés: sobrecorriente GPU/egress/DA, apagado AZ/POP, escenarios de degradación.
Degradación por diseño: graceful fallback (modelos/caché menos precisos), prioridades de Q4/Q3.
Eficiencia verde: reciclaje, sheduling de carbono, refrigeración/costo de energía, transferencia de batch a «ventanas verdes».
14) Métricas y KPI del ecosistema de la DAI
Eliminación: CPU/GPU busy%, RAM/Cache hit, almacenamiento de información de uso IOPS/GB.
Eficiencia: costo-a-servicio/solicitud, eliminación de spots, margen/minuto GPU.
Calidad: p50/p95 latency por clase, SLA-breaks/1000 consultas, cola/tiempo de inicio job.
Equidad: índice «noisy neighbor», proporción de incidentes por inquilinos, distribución de cuotas.
Economía: ingreso/recurso-unidad, NRR/GRR por planes, proporción de ingresos repetidos.
Seguridad: frecuencia de aislamiento, egress-anomalías, eventos reputacionales slash.
15) 治理 (gestión) de recursos
Parámetro-proposales: modificación de aranceles/contingentes/corredores a través de la votación.
R-modificador: la reputación limita el impacto del «capital crudo» en los cambios sensibles.
Sunset-cláusulas: promociones/descuentos temporales con auto-eliminación.
Informes públicos: informes trimestrales del Tesoro de la DAI, auditoría de la SLA.
16) Playbook de lanzamiento
1. Mapeo de necesidades. Clases de tareas, SLO, localización de datos.
2. El diseño de las piscinas. Clases de máquinas, tiers GPU, niveles de almacenamiento/red, edge-POP.
3. Políticas y cuotas. Clases de QoS, budgets, límites de egresos/IOPS/DA.
4. La economía. Tarifas, spot/reservas, incentivos a proveedores, contratos RNFT.
5. Seguridad y cumplimiento. mTLS/OIDC, cifrado, registros de auditoría, políticas geo.
6. Observabilidad. Dashboards KPI/SLO, alertas, perfiles.
7. Piloto y escala. Una clase de tareas (por ejemplo, el infierno) → una extensión de batch/streaming.
8. Incidentes y post mortem. Días de juego, réplicas, ajuste de políticas/tarifas.
17) Lista de comprobación de disponibilidad
- QoS/SLO definidos para todo tipo de tareas
- Se incluyen cuotas/límites y planificación «fair-share»
- spot/preemptible configurado pools y políticas anti-arb
- Se han implementado contratos RNFT, facturación y Router Rewards
- Aislamiento, encriptación e informes de cumplimiento garantizados
- Dashboards de reciclaje/calidad/economía disponibles
- Accidentes trabajados: grúas de parada, degradación, post mortem
- Se han configurado transiciones de derechos multi-in, cuotas DA, distribución edge
18) Glosario
OVR (recursos computacionales compartidos): un único grupo de capacidad para el ecosistema.
RNFT: contrato - «relación» para los derechos de recursos/límites/plazos.
S-token: fianza SLA/responsabilidad del proveedor/nodo.
R-token: reputación indescriptible de calidad/fiabilidad.
DA: capa de disponibilidad de datos (publicación/almacenamiento de pruebas).
Spot/Preemptible: recursos baratos pero interrumpibles con políticas de renovación.
En resumen: los recursos computacionales compartidos convierten el ecosistema en una fábrica de computación auto-equilibrada, donde el reciclaje es alto, la calidad es predecible, los incentivos están alineados y la seguridad y el cumplimiento están incorporados en el protocolo. La correcta orquestación, economía i治理 permite escalar cargas multiarrendamiento sin perder productividad y confianza.