Ops-автоматизація та скрипти

1) Навіщо автоматизувати операції

Знижує MTTR/помилки людини, прискорює релізи і реакції.
Робить дії повторюваними і аудійованими (комплаєнс).
Звільняє час інженерів для поліпшень, а не рутини.

2) Основні принципи

1. Ідемпотентність: повторний запуск → той же результат.
2. Безпечні перила: dry-run, підтвердження, ліміти, авто-відкати.
3. Спостережуваність: логи/метрики/трейси вбудовані в кожен скрипт/пайплайн.
4. Конфігурація> константи в коді: все через параметри/маніфести.
5. GitOps/Docs-as-Code: код операцій версіонується, ревьюится, тестується.
6. Малі кроки: канарні частки, батчі, ретраї з бюджетами.
7. Без секретів в репо: тільки через secret-сховища.

3) Класи задач автоматизації

Ремедіація та інциденти: відкати, перемикання провайдерів, фіча-прапори деградації.
Планові роботи: ротації сертифікатів/ключів, міграції БД (expand→migrate→contract).
Управління інфраструктурою: IaC (Terraform), конфігурації (Ansible), K8s маніфести.
Дані та DataOps: бекфіли, ETL, валідація якості.
Xaoc/DR-навчання: симуляції відмов з гейтами безпеки.

4) Як вибрати інструмент

Bash - короткі glue-скрипти, CLI-оркестрація.
Python - логіка/SDK, ретраї, API, робота з JSON/YAML.
Ansible - ідемпотентна конфігурація, агенти не потрібні.
Terraform - декларативна інфраструктура.
Kubernetes Jobs/CronJobs - пакетні завдання/планування.
Argo/Airflow - залежні DAG-і і оркестрація.
ChatOps - безпечний запуск з чату з аудитом.

5) Архітектура автоматики (референс)

CLI/ChatOps → Контролер (GitOps/оркестратор) → Виконавці (Ansible/Terraform/K8s Job) → Моніторинг (логи/метрики/трейси) → Аудит/тікетинг → Док-артефакти (evidence).

6) Ідемпотентність і управління станом

«Перевіряй, потім міняй»: detect-then-act (якщо вже ОК - нічого не роби).
Зберігай «відмітки виконання» (state/lock) для довгих процедур.
Процедури діліть на атомарні кроки з можливістю повторного прогону.

7) Помилки, ретраї та відкати

Ретраї з експоненціальною затримкою і джиттером.
Бюджет часу операції (загальне SLA на завдання).
Відкати і «стоп-кнопка» (circuit breaker) завжди передбачені.
Явні коди повернення і структуровані помилки.

8) Безпека і секрети

RBAC/ABAC, мінімальні привілеї, тимчасові токени (JIT/JEA).
Секрети з Vault/KMS/Cloud Secret Manager; ключі ротуються.
«Поділ обов'язків»: хто пише - не той, хто схвалює і запускає в проді.
Аудит-журнал: хто/коли/що/з яким результатом.

9) GitOps и ChatOps

PR → тести → рев'ю → мердж → авто-промоція в середовища.
Команди в чаті (наприклад, '/ops deploy checkout --canary 5%') викликають пайплайни; боти прикладають evidence і посилання на дашборди.

10) Планування та оркестрація

CronJobs/DAG з залежностями та дедлайнами.
Конкурентність: 'Forbid','Replace','Allow'( K8s) залежно від завдання.
Політики ресурсів/квоти, щоб не «з'їсти» прод.

11) Спостережуваність автоматики

Метрики: успіх/помилка, тривалість, ретраї, порушені об'єкти.
Логи: структуровані, correlation-ID, червоний рядок на помилці.
Трейси: кроки довгих операцій видно в розподілених трасуваннях.
Алерти: за симптомами (SLO) і за технічними метриками (дедлайн,% помилок).

12) Тестування та симуляції

Юніт-тести логіки та парсерів артефактів.
Інтеграційні тести в пісочниці і на канарці.
«Тренажери» (dry-run + фіктивні провайдери), replay реальних сценаріїв.
Навчання: чіткі цілі, гейти безпеки, AAR→RCA→CAPA.

13) Шаблони коду

Bash (скелет з поручнями)

bash
!/usr/bin/env bash set -Eeuo pipefail trap 'echo "[ERR] line $LINENO"; exit 1' ERR

log(){ printf '%s %s\n' "$(date -Iseconds)" "$"; }
DRY=${DRY_RUN--true}

ensure_dep(){ command -v "$1" >/dev/null          { echo "need $1"; exit 2; }; }

apply_change(){
local target="$1"
if [[ "$DRY" == "true" ]]; then log "[DRY] would update $target"
else kubectl apply -f "$target"
fi
}

main(){
ensure_dep kubectl for f in manifests/.yaml; do apply_change "$f"
done log "done"
}
main "$@"

Python (ретраї + ідемпотентність)

python import argparse, time, json, sys from pathlib import Path import requests

def with_retries(fn, attempts=5, base=0. 2):
for i in range(attempts):
try:
return fn()
except Exception as e:
sleep = base (2i)
time. sleep(sleep)
raise

def already_done(marker):
return Path(marker). exists()

def mark_done(marker):
Path(marker). write_text("ok")

def main():
ap = argparse. ArgumentParser()
ap. add_argument("--endpoint", required=True)
ap. add_argument("--marker", default="/tmp/op. marker")
args = ap. parse_args()

if already_done(args. marker):
print("idempotent: nothing to do"); return

def call():
r = requests. post(args. endpoint, json={"action":"rotate"})
r. raise_for_status()
return r. json()

resp = with_retries(call)
print(json. dumps(resp))
mark_done(args. marker)

if __name__ == "__main__":
sys. exit(main())

Ansible (ідемпотентна задача)

yaml
- hosts: web become: true tasks:
- name: Ensure nginx present and enabled ansible. builtin. package:
name: nginx state: present
- name: Deploy config ansible. builtin. template:
src: nginx. conf. j2 dest: /etc/nginx/nginx. conf mode: '0644'
notify: restart nginx handlers:
- name: restart nginx ansible. builtin. service:
name: nginx state: restarted

Kubernetes CronJob (планова ротація)

yaml apiVersion: batch/v1 kind: CronJob metadata:
name: cert-rotate spec:
schedule: "0 3  "
concurrencyPolicy: Forbid jobTemplate:
spec:
template:
spec:
serviceAccountName: ops-automation restartPolicy: OnFailure containers:
- name: rotator image: registry/ops/rotator:1. 2. 3 args: ["--rotate", "--budget-ms=60000"]
envFrom:
- secretRef: { name: rotator-secrets }

GitHub Actions (ChatOps тригер)

yaml name: ops-deploy on:
workflow_dispatch:
inputs:
service: {required: true}
canary: {required: false, default: "5"}
jobs:
deploy:
runs-on: ubuntu-latest steps:
- uses: actions/checkout@v4
- run:./scripts/deploy. sh "${{ inputs. service }}" --canary "${{ inputs. canary }}"

14) Чек-лист впровадження

Для кожної операції вибраний інструмент і описаний runbook.
Є dry-run, підтвердження і ліміти (перила).
Логи структуровані, метрики і алерти підключені.
Секрети зі сховища, доступи мінімальні і тимчасові.
Тести (юніт/інтеграція/канарка) і симуляції проведені.
GitOps/PR-рев'ю обов'язкові, є аудит.
План відкату і критерії успіху задокументовані.
Автоматизація прив'язана до SLO/бюджетів помилок.

15) Анти-патерни

Скрипти без ідемпотентності і відкатів.
«Секрети в коді», обліки-суперадміна на все.
Ручні правки в проді без аудиту.
Кусковий Bash-зоопарк замість декларативної IaC.
Параметри «зашиті» в код - немає перевикористання.
Немає dry-run/канарок → великі вибухи.
Логи «для людей» без структури і кореляції.

16) Метрики зрілості Ops-автоматизації

Coverage: % операцій з автоматизацією та runbook.
Success rate/Retry rate автоматичних завдань.
Mean time to execute (середня тривалість) і on-time (в дедлайн).
Change failure rate до/після автоматизації.
Аудит-повнота: % операцій з повним evidence.
Сек'юріті: час ротації ключів/сертифікатів, частка JIT-доступів.

17) Підсумок

Ops-автоматизація - це не набір розрізнених скриптів, а система: ідемпотентні дії, безпечні перила, спостережуваність, секрети і доступи під контролем, GitOps/ChatOps, тести і навчання. У такій системі операції стають швидкими, передбачуваними і аудіруемими - а бізнес отримує стабільні релізи і низький ризик інцидентів.

Ops-автоматизація та скрипти

Python (ретраї + ідемпотентність)

Ansible (ідемпотентна задача)

Kubernetes CronJob (планова ротація)

GitHub Actions (ChatOps тригер)

Зв’яжіться з нами

Швидкий зв’язок

Відео скоро буде оновлено

Зараз ми дуже завантажені проєктами