Papéis e responsabilidades em operações

1) Por que formalizar os papéis

A distribuição clara dos papéis reduz o MTTA/MTTR, elimina «zonas cinzentas», agiliza os lançamentos e torna a conformidade SLO/Complance reproduível. Papéis = Responsabilidade + Autoridade + Interfaces (para quem escrevemos, para quem escalamos, para quais soluções estão autorizadas).

2) Modelo RACI básico

R (Resolvível) - executa o trabalho.
A (Accountable) - tem responsabilidade final e toma decisões.
C (Consulted) é um especialista consultado antes/durante.
I (Informed) - Informado por SLA.

Exemplo de nível superior:

Processo	A	R	C	I
Incidentes (V-1/0)	IC	P1/P2, SRE, Owning Team	Security, Product, Data	Mgmt, Support
Lançamentos	Release Manager/Owner	Dev, Platform/SRE	Security, QA	Support, Mgmt
Alterações (RFC/FAB)	CAB Chair	Service Owner	Security, SRE, Data	Affected teams
Janelas de serviço	Service Owner	Platform/SRE	Product, Support	Customers/Partners
Pós-mortemas	RCA Lead	Owning Team, Scribe	Security, Data, Product	Mgmt

3) Diretório de papéis (descrições e responsabilidades)

3. 1 Incident Commander (IC)

Objectivo: Gerencia a resposta para o incidente SEC-1/0.
Permissões: anunciar SEV, congelar lançamentos, mudar de tráfego, escalar.
As principais tarefas são timeline, tomada de decisões, retenção de foco, distribuição de tarefas, Go/No-Go.
Artefactos, cartão de ocorrência, updates SLA, AAR final.

3. 2 P1/P2 On-Call (Primary/Secondary)

Objetivo: resposta primária e ação técnica.
P1: triagem, lançamento de playbooks, ligação com IC.
P2: Bacap, mudanças complexas, retenção de contexto, tempestades - pega os botões.

3. 3 SRE / Platform Engineer

Alvo: confiabilidade de plataforma e corrimão (SLO, alert, GitOps, scale automático, DR.).
Tarefas: SLI/SLO, alert-higiene, lançamentos progressivos, infraestrutura como código, capacidade, observabilidade.
Durante o incidente, diagnóstico de raiz, retrações/folbacks, inclusão de degrade-UX.

3. 4 Service Owner / Product Owner

O objetivo é a qualidade do serviço no sentido empresarial.
Tarefas: definição de SLO/prioridades, negociação de lançamentos/janelas, participação em Go/No-Go.
Coms: decidir quando e o que dizer aos clientes com a Comms.

3. 5 Release Manager

O objetivo é entregar as alterações de forma segura.
Tarefas: Orquestra lançamentos, checkup gate, canário/azul-green, anotações de lançamentos, freeze em incidentes.

3. 6 CAB Chair / Change Manager

O objetivo é controlar o risco de mudança.
Tarefas: processo RFC, plano/backout, calendário de conflitos, aprovação high-risk.

3. 7 RCA Lead / Problem Manager

Alvo: análise pós-incidente, CAPA.
Tarefas: timeline, causalidade de prova, ação corrigir/prevenir, controle D + 14/D + 30.

3. 8 Security (IR Lead, AppSec/CloudSec)

O objectivo é a segurança e resposta aos incidentes de segurança.
Tarefas: triagem de eventos seguros, rotação de chaves, isolamento, forense, notificações regulatórias, auditoria WORM.

3. 9 DataOps / Analytics

Objetivo: confiabilidade de dados e pipas.
Tarefas: frescura/qualidade (DQ), contratos de dados, lineage, backfill, SLA BI/relatórios.

3. 10 FinOps

O objetivo é um custo controlado.
Tarefas: quotas/limites, relatórios $/unidade, gates de orçamento, otimização (volume de logs, egress, reserva).

3. 11 Compliance / Legal

O objetivo é adequar-se à regulação e aos contratos.
Tarefas: prazos de notificação, retoques/evidence imutável, negociação de textos públicos.

3. 12 Support / Comms

O objetivo é comunicar com clientes/steakholders internos.
Tarefas de status, layouts de update, frequência e clareza de mensagens, coleta de feedback.

3. 13 Vendor Manager / Provider Owner

Objetivo: relações com provedores externos (PSP/KYC/CDN etc.).
Tarefas: escalações, SLA/OLA, rotas de reserva, coordenação de janelas.

4) Papéis de mudança e escalação

Mudança: P1/P2 + IC-of-the-day (não combinar com P1).
Escalonamento de tempo: P1→P2 (5 min sem ack) → IC (10 min) → Duty Gerente (15 min).
Quiet Hours: P2/P3 não despertam; os sinais de segurança são sempre.

5) Interfaces de interação (quem com quem e como)

IC ↔ Release Gerente: soluções freeze/rollback.
IC ↔ Comms: texto de update e frequência.
SRE ↔ DataOps: Negócio SLI (sucesso de pagamentos, frescor de dados) em guardrelas SLO.
Segurança ↔ Legal: relatos de incidentes de segurança, datas de notificação.
Vendor Owner ↔ IC: status do provedor, switchover/folback.

6) KPI por papéis (orientações)

IC: Time-to-Declare, cumprimento do Comms SLA, MTTR por SEC-1/0.
P1/P2: MTTA, Time-to-First-Action,% de seguimento para playbooks.
SRE/Platformm: SLO coverage, Alert Hygiene,% de reembolsos automáticos são bem sucedidos.
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
DataOps: Freshness SLO Adherence, Sucess Rate Backphils.
Comms: Status Accuracy, Complaint Rating/Incidente.
FinOps: $/unidade,% de economia de QoQ, cumprimento de quotas.

7) Modelos de cartões de papel

7. 1 Cartão IC


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 Cartões P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 Cartões Release Gerente


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) Processos e participações de papéis (resumo)

Processo	IC	P1/P2	SRE/Platform	Owner	Release	CAB	Security	DataOps	Comms	Vendor
Incidente	A	R	R	C	I	I	C	C	R	C
Lançamento	I	I	C	A	R	C	C	C	I	I
RFC/Janela	I	I	R	A	C	A	C	C	C	C
Pós-mortem	A	R	R	C	C	I	C	C	I	I

A — Accountable, R — Responsible, C — Consulted, I — Informed.

9) Folhas de cheque

9. 1 Atribuição de papéis

Cada rol tem um dono, um vice e uma área de cobertura.
As atribuições são descritas (quais decisões podem ser tomadas).
Os playbooks e os canais de comunicação estão amarrados.
SLA publicado por reação/coms.
O papel está disponível no diretório (CMDB) de cada serviço.

9. 2 Mudança e handover

O cartão de mudança foi atualizado (incidentes ativos, riscos, janelas).
Os JIT/JEA disponíveis foram verificados.
Mensagem de eco para o canal: «mudança aceita/entregue».

9. 3 Pós-incidente

AAR realizado, RCA atribuído.
CAPA com proprietários/prazos, D + 14/D + 30 controle.
Playbooks/alertas/políticas foram atualizados.

10) Anti-pattern

O incerto «quem decide» → atrasos e esforços.
IC combinado com P1 - perda de liderança.
Coms públicos sem acordo com Legal/Comms.
Lançamento sem Release Gerente e gates → crescimento do CFR.
Nenhuma reserva de papel (doença/férias).
«Heróico» em vez de processo: Salvamos manualmente, mas não registramos corrimãos.
Os papéis não constam do CMDB/diretório do serviço → escalas perdidas.

11) Incorporar a ferramentas

ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Catálogo/CMDB: O serviço tem dono, on-call, SLO, dashboard, playbooks, janelas.
Alert-as-Code: Cada Page tem um owner e um playbook padrão.
GitOps: As soluções IC/Release são refletidas em anotações de lançamentos e tíquetes.

12) Métricas de maturidade de distribuição de papéis

Coverage papéis em diretórios: ≥ 100% de serviços críticos.
On-call SLA: Ack p95 ≤ 5 min; O Page Storm p95 está controlado.
Postmortem SLA: rascunho ≤ 72h; CAPA completion ≥ 85%.
Mudança governance:% high-risk alterações com RFC/FAB ≥ 95%.
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.

13) Mini-modelos

13. 1 RACI para o serviço (arquivo em repo)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 Perfil do papel (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) Total

As operações são sustentáveis quando os papéis são transparentes, autorizados e incorporados às ferramentas. O catálogo de papéis, o RACI, as interfaces claras e as métricas de cada rol transformam incidentes, lançamentos e mudanças em processos gerenciáveis: as decisões são tomadas rapidamente, os riscos são controlados e os usuários veem um serviço estável.

Papéis e responsabilidades em operações

Entrar em contacto

Contacto rápido

O vídeo será atualizado em breve

Estamos atualmente muito ocupados com projetos