Recursos de computação compartilhados
1) O que é «recursos de computação compartilhados»
Os Recursos Gerais de Computação (OAS) são logicamente um único pool de CPU/GPU/memória/disco/rede/DA (data availability) fornecido a uma variedade de papéis (desenvolvedores, operadores de nós, provedores de dados/conteúdo, analistas, comandos ML) através de interfaces, políticas e estímulos econômicos normalizados. O objetivo é melhorar a reciclagem, reduzir os custos e garantir produtividade previsível para a multiplicidade e os cenários entre cadeias.
2) Taxonomia de recursos
Cálculos: CPU (atribuição geral), GPU (treinamento/interferência), NPU/TPU (aceleradores ML).
Memória e discos: RAM, NVMe local, armazenamento de objetos/blocos, cachês (Redis/KeyDB).
Rede: banda larga, egress/ingress, salas de aula QoS, canais privados.
Dados e DA: quotas de publicação, replicação, armazenamento e armazenamento de provas.
Limites de serviço: quantidade de suportes/contêineres, arquivos abertos, descriptores, germinação GPU (MIG).
3) Modelos de consumo (workload types)
API, matching, circuitos de jogo/fintech, mensagens cruzadas.
Streaming/real tempo: processamento de eventos, anti-frod, telemetria, real-time analista.
Batch: ETL/ELT, relatórios, cálculos periódicos, elaboração de fichas.
ML/AI: treinamento (GPU-intensivo), interferência (baixa demora/alta conversão).
Armazéns e cachês: OLTP/OLAP, lakehouse, CDN/edge dinheiro.
Para cada classe são definidos SLO, prioridades, isolamento e tarifas.
4) Orquestração e planejamento
Shedooling de prioridade e classe QoS: EDF/LLF para «deadline», filas prioritárias garantidas por «mínimos».
Solicitações de recursos: 'requests/limits' para CPU/Memory, quotas de GPU e participações, preemptil/pool de spot para economizar.
Anti-ruído: cgroup/compensação «noisy neighbor», NUMA-pinning, pólis de rede.
Topologia e localidade: co-localização de dados e computação, affinity/anti-affinity, referência edge.
Escala automática: horizontal (HPA), vertical (VPA), cluster (CA), piloto automático para batch GPU/DA.
5) Multiplicidade e isolamento
Уровни: namespace→project→org (budget/quotas/ACL).
Isolamento: contêineres, VM, grampos de areia (gVisor/Firecracker), rede (VPC/NetworkPolicy), armazenamento (CSI).
Políticas de ruído: limites IOPS/egress, planejamento «fair-share», diedicated-tiers para serviços críticos.
Orçamentos de erros/recursos: per-tenant erro budet e resource budet com degradação automática.
6) QoS, priorização e SLO/SLA
Classes de QoS: Q4 (criterioso-pealtime), Q3 (ordenado), Q2 (exactly-once-eficiente), Q1 (at-least-once), Q0 (best effort).
Exemplos SLO: p95 latency API ≤ 200 ms (Q4), fila de espera GPU ≤ 2 min (Q3), batch pela janela T ≤ 30 min (Q1).
Contrato: Cada classe tem quotas garantidas e torneiras de emergência.
7) Economia e monetização (billing/estímulos)
Unidades de tarifação: vCPU-segundos, GiB RAM, GPU, GB-armazenamento-m, GB-egress, DA-byte/publicação.
Planos tarifários: pay-as-you-go, subscrição com quotas e sobrepreço, reservações (commit), spot/preemptil com descontos.
RevShare para provedores de ferro/data centers: participação da circulação, bónus SLA/multas.
Marketing de potência: listagem de nós/cluster, classificações de qualidade, leilões de slots GPU.
- U-token - pagamento de quotas/limites, descontos.
- S-token - fianças sob SLA de nós/pool (slashing por interrupções/violações).
- R-token - reputação do provedor/locatário (modificador de preço/prioridade).
- Contratos RNFT - contratos individuais «resurs↔obyazatelstvo» (limites, preço, prazo, KPI, saída).
8) Contratos e serviços de núcleo
Resource Registry: tipos de recursos, classes de máquinas/GPU, áreas disponíveis/edge-POP.
Cota Gerente: quotas/limites per tenant/project, orçamento egress/IOPS/DA.
Scheduler/Place: pods/jobs/pula, prioridades, localidade, anti-ruído.
Billing & Metering: Contadores por unidade, tarifas, sobrepreço, alertas de orçamento.
Rewards Router: Distribuição de pagamentos a provedores, multas por breaks SLA.
Compliance Gate: regiões, PDN/FDDN, idade/restrições CUS, exportação de relatórios.
Observabilidade Hub: métricas/trailers/logs, DLQ para, réplicas.
9) Segurança e Complacência
Autenticação/autorização: mTLS/OIDC, ABAC/RBAC, «menores privilégios».
Segmentação de rede: VPC, private-link, serviço-manha com políticas de tráfego.
Dados: criptografia at-rest/in-transit, rotação chave, camuflagem/dados falsos para testes.
Isolamento GPU/CPU: proibição de acesso direto, controle DMA/IOMMU, proteção contra side-channel.
Compilação: registro de auditoria, localização regional de dados, políticas de armazenamento/remoção, omissões ZK para verificações sem divulgação.
10) Observabilidade e gerenciamento de desempenho
Métricas: uCPU%, GPU-util, RAM/Cachê hit, disco IOPS/throughput, rede p95 RPT/egress, fila GPU/Batch-lag.
SLO/SLA-dashboard: «saúde» em classes de QoS e locatários, orçamento de erros.
Perfilação: instantâneos flamegraph, análise hot path, recomendação automática de tamanho.
Alerts: excesso de laje, superaquecimento de filas GPU, explosão egress, bandeiras «noisy neighbor».
11) Anti-frod e abusos
Sebil/bot-carga: fianças S, reputação R, assinaturas comportamentais.
Abuso de egress/digitalização de rede: rate limits/IDS, segmentos de quarentena.
Farming descontos de política anti-arb, refrigeração, limites de «salto» entre pulos.
Provedores desonestos: controle de especificações declaradas, provas sintéticas, slashing e «listas negras» RNFT.
12) Cenários entre cadeias (multitoque/edge)
Transferência de permissão: direitos RNFT e quotas são transferidos por mensagens, e a reputação (R) permanece no domínio de confiança.
Cotas D e publicações: tarifa por bytes/frequência, finalidade/fechaduras temporárias.
Computação EDGE: Nós POP com buffers locais, «rolar» o incenso mais próximo do usuário.
Dedução e idempotidade X-domain: global 'x _ job _ id', tabelas seen nas extremidades, período challenge.
13) Planejamento de capacidade e sustentabilidade
Capacity planning: tendências de consumo, sazonalidade, reservas N semanas, «linhas vermelhas» p95.
Game-days e testes de stress: superaquecimento GPU/egress/DA, desligamento AZ/POP, cenários de degradação.
Degradação de design: graceful fallback (modelos menos precisos/dinheiro), prioridades Q4/Q3.
Eficiência verde: reciclagem, carbon-aware shedooling, refrigeração/custo de energia, transferência de batch para «janelas verdes».
14) Métricas e ecossistemas KPI
Reciclagem: CPU/GPU busy%, RAM/Cachê hit, armazenamento IOPS/GB-uso.
Eficiência: custo-to-serve/consulta, reciclagem de spots, margem/minuto GPU.
Qualidade: p50/p95 latency por classe, SLA breakes/1000 consultas, fila/hora de lançamento.
Justiça: índice de noisy neighbor, taxa de incidentes por locatário, distribuição de quotas.
Economia: renda/recurso-unidade, NRR/GRR de acordo com os planos, proporção de receita repetida.
Segurança: frequência de isolamento, anomalias egress, eventos de reputação.
15) 治理 (gerenciamento) de recursos
Parâmetro-propozais: alteração de tarifas/quotas/corredores através de votação.
Modificador R: Reputação limita a influência do «capital cru» em mudanças sensíveis.
As cláusulas Sunset são promoções temporárias/descontos com retorno automático.
Relatórios Públicos: Relatórios Trimestrais do Tesouro de Assuntos Internos, Auditoria da SLA.
16) Playbook de lançamento
1. Mapeamento de necessidades. Classes de tarefas, SLO, localidade de dados.
2. Design de pool. Classes de máquinas, tieres GPU, nível de armazenamento/rede, edge-POP.
3. Políticos e quotas. Classes QoS, budgets, limites de egress/IOPS/DA.
4. Economia. Tarifas, spot/reservas, incentivos a provedores, contratos RNFT.
5. Segurança e complacência. mTLS/OIDC, criptografia, registros de auditoria, políticas geo.
6. Observabilidade. Dashboards KPI/SLO, alertas, perfis.
7. Piloto e escala. Uma classe de tarefas (por exemplo, a inferência) → a extensão para batch/streaming.
8. Incidentes e pós-mortem. Game-days, réplicas, ajustes de políticas/tarifas.
17) Folha de cheque pred pronto
- Definidos QoS/SLO para todos os tipos de tarefas
- As quotas/limites e o planejamento «fair-share» estão incluídos
- As pulas de spot/preemptil e as políticas anti-arb foram configuradas
- Os contratos RNFT, Billing e Rewards Router foram implementados
- São garantidos isolamento, criptografia e relatórios complicados
- Disponíveis dashboards de reciclagem/qualidade/economia
- Acidentes trabalhados: torneiras paradas, degradação, pós-mortem
- As transições de várias facas são configuradas, as quotas DA, a distribuição edge
18) Glossário
OVR é um pool único de capacidade para o ecossistema.
RNFT: contrato - «relação» para direitos de recursos/limite/prazo.
S-token: fiança sob SLA/responsabilidade do provedor/site.
R-token - Reputação de qualidade/confiabilidade não transmissível.
DA: camada de disponibilidade de dados (publicação/armazenamento de provas).
Spot/Preemptible: recursos baratos, mas interrompíveis com políticas de retomada.
Resultado: a computação geral transforma o ecossistema em uma fábrica de computação em equilíbrio, onde a reciclagem é elevada, a qualidade é previsível, os estímulos estão alinhados e a segurança e a complicação estão incorporados ao protocolo. A orquestração correta, a economia i治理 permite escalar cargas multiarendidas sem perda de produtividade e confiança.