Операциялар жана башкаруу → Код катары иш кагаздары
Иш кагаздары код катары
1) Мамиленин маңызы
Код катары документтештирүү (Documentation as Code) - операциялык билим, көрсөтмөлөр жана процесстер Git, pull-requests, review жана CI-валидация аркылуу сакталган, редакцияланган жана текшерилген практика.
Операциялык контурда бул командалардын ишенимдүүлүгүнүн, ачыктыгынын жана шайкештигинин негизин түзөт.
- Ар бир көрсөтмө эскирген PDF эмес, инфраструктуралык артефакт болгон жандуу, кайталануучу жана версиялануучу билим системасын түзүү.
2) Эмне үчүн керек
Ачык-айкындуулук: процедураны ким, качан жана эмне үчүн өзгөрткөнүн көрүүгө болот.
Ырааттуулук: бардык командалар актуалдуу версиялар боюнча иштешет.
CI/CD менен интеграция: көрсөтмөлөрдүн аныктыгын автоматтык түрдө текшерүү.
Репликация: инфраструктура жана документтер синхрондоштурулган.
Коопсуздук: Git аркылуу кирүү көзөмөлү жана аудит.
Онбордингдин тездеши: жаңы операторлор кодго байланыштуу так сценарийлерди көрүшөт.
3) Негизги объектилер
4) Репозиторийдин архитектурасы
ops-docs/
├── README. md # structure description
├── standards/
│ ├── sop-deploy. md
│ ├── sop-oncall. md
│ └── sop-release. md
├── runbooks/
│ ├── payments-latency. md
│ ├── games-cache. md
│ └── kyc-verification. md
├── playbooks/
│ ├── dr-failover. yaml
│ ├── psp-switch. yaml
│ └── safe-mode. yaml
├── postmortems/
│ └── 2025-03-17-bets-lag. md
├── policies/
│ ├── alerting. yaml
│ ├── communication. yaml
│ └── security. yaml
└── templates/
├── postmortem-template. md
├── sop-template. md
└── playbook-template. yaml
Кеңеш: ар бир папка өзүнүн Git-репозиторийи же сабмодул болуп саналат, ошондуктан ар кандай командалар мазмунду өз алдынча башкара алышат.
5) Формат жана стандарттар
Метадеректер (front-matter YAML):yaml id: sop-deploy owner: platform-team version: 3. 2 last_review: 2025-10-15 tags: [deployment, ci-cd, rollback]
sla: review-180d
Markdown-түзүлүшү:
Purpose
Context
Step sequence
Result check
Risks and rollbacks
Contacts and channels
YAML-playbook (мисал):
yaml name: failover-psp triggers:
- alert: PSP downtime steps:
- action: check quota PSP-X
- action: switch PSP-Y
- action: verify payments latency < 200ms rollback:
- action: revert PSP-X
6) GitOps жана өзгөртүү жараяндар
Pull Request = RFC документтерди өзгөртүү.
Review: Domain ээси жана Head of Ops бекитүү керек.
CI-валидация: структураны, милдеттүү талааларды, Markdown/YAML линтерин текшерүү.
Автоматтык жарыялоо: кийин merge - HTML/wiki/dashboard түзүү.
Change log: даталар жана жазуучулар менен auto-тарыхы өзгөрүүлөр.
Эскертүү-эскертүүлөр: документти ар бир N күн сайын текшерүү (SLA боюнча).
7) CI/CD интеграциясы
Lint-текшерүү: Markdown-синтаксис, YAML-validity, owner/version талаалар.
Link-check: URL жана ички шилтемелерди текшерүү.
Docs-build: HTML/Confluence/порталга конвертациялоо.
Diff-талдоо: акыркы документ чыгаруу менен эмне өзгөрдү.
Auto-sync: Графана, Ops UI, Slack.
Review-боттор: эскирген секциялар же жок ээлери боюнча кеңештер.
8) Операциялык инструменттер менен интеграция
Grafana/Kibana: тактасында түздөн-түз тиешелүү runbook түшүндүрмөлөр жана шилтемелер.
Incident Manager: тикет түзүүдө "Open Runbook" баскычы.
On-call порталы: окуя категориясы боюнча актуалдуу SOP жана playbook берүү.
AI жардамчылары: репозиторий издөө, TL генерациялоо; DR жана иш-аракеттер боюнча сунуштар.
BCP панелдери: сценарийди активдештирүүдө DR көрсөтмөлөрүн автоматтык түрдө жүктөө.
9) Документтердин жашоо циклин башкаруу
10) Автоматташтыруу жана синхрондоштуруу
Docs-bot: кайсы документтер эскиргенин текшерет.
Version badge: '! [last review: 2025-05]' түздөн-түз баш кийимде.
Runbook-finder: Алерт тегине керектүү документти ачат.
Templates-generator: шаблон боюнча жаңы SOP түзөт ('make new-sop "Deployment"').
Audit-sync: SOP версиясын системанын релизи жана commit-ID менен байланыштырат.
11) Коопсуздук жана купуялык
RBAC репозиторийге: домен ээлеринин гана редакторлоо мүмкүнчүлүгү.
Сырлар жана PII: ачык документтерде сактоого болбойт; гана корголгон vault шилтемелер.
Аудит: бардык өзгөртүүлөр, ревю жана басылмалардын журналы.
Жаңылоо саясаты: ар бир 6 ай сайын SOP кайра карап чыгуу.
Backups: DR-зонасында сактоо жана кэш порталынын үзгүлтүксүз сүрөттөрү.
12) Жетилүү метрикасы
13) Анти-үлгүлөрү
Документтер Google Docs нускалары жана ээлери жок сакталат.
Runbook чыгарылгандан кийин жаңыланбайт.
SOP эскирген команда/инструменттерди билдирет.
Жок CI-validation: Markdown каталар жана үзүндүлөрү менен.
Бир эле нускамаларды ар кайсы жерде кайталоо.
ээлеринин жоктугу жана review жараяны.
14) Киргизүү чек-тизмеси
- домендердин ээлерин жана документтештирүү үчүн жооптуу адамдарды аныктоо.
- Git-репозиторий 'ops-docs/' жана SOP/runbook/playbook үлгүлөрүн түзүү.
- CI-текшерүү жана Линтерс орнотуу (Markdown/YAML).
- Portal же Wiki үчүн auto-жарыялоо орнотуу.
- Grafana/Incident Manager менен бириктирүү.
- Эскертүү жана SLA текшерүү үчүн Ops-ботту кошуу.
- "docs-as-code workflow" боюнча командаларды окутуу.
15) 30/60/90 - ишке ашыруу планы
30 күн:- Репозиторийдин структурасын, шаблондорду, CI линтерин жана PR ревю процессин түзүү.
- Негизги SOP жана 5-10 критикалык runbook которуу.
- порталында auto-build орнотуу.
- Incident Manager жана Grafana менен интеграцияны киргизүү.
- Текшерүү жана отчеттуулук үчүн Ops-ботту туташтыруу.
- Postmortem-шаблон жана окуя-dashboard менен байланыштыруу.
- SOP/Runbook толук камтуусу (≥ 90%).
- KPI киргизүү: Coverage, Review SLA, Usage.
- "docs-as-code" жараянынын ыңгайлуулугу жана сапаты боюнча ретро өткөрүү.
16) SOP үлгү үлгүсү (Markdown)
SOP: Deployment через ArgoCD id: sop-deploy owner: platform-team last_review: 2025-10-15 tags: [deployment, rollback, argo]
Purpose
Ensure secure and managed deployment of services via ArgoCD.
Context
Used for all microservices with Helm v2 + pattern.
Requires an active GitOps loop and enabled health-checks.
Step sequence
1. Check status' argocd app list'
2. Execute'argocd app sync payments-api '
3. Make sure 'status: Healthy'
4. In case of problems - 'argocd app rollback payments-api --to-rev <rev>'
Result check
SLO API availability ≥ 99. 95%, no alerts.
Risks and rollback
- Synchronization error - rollback.
- On repeated errors - Head of Ops escalation.
Contacts
@platform-team / #ops-deploy
17) Башка процесстер менен интеграция
Операциялык аналитика: Coverage жана SLA аудит отчеттору.
Операторлорду окутуу: реалдуу runbook негизинде окутуу.
Postmortems: автоматтык SOP жана playbook шилтемелерди киргизүү.
Башкаруу этикасы: өзгөрүүлөрдүн ачык-айкындуулугу жана автордук.
AI жардамчылары: контексттик издөө жана TL; репозиторийден DR.
18) FAQ
Q: Confluence бар болсо, эмне үчүн барып?
A: Git версияларын, карап чыгууну, автоматташтырууну жана ойнотууну берет. Confluence акыркы терезе болушу мүмкүн, бирок чындыктын булагы эмес.
Q: Кантип эскирген көрсөтмөлөрдү качуу керек?
A: текшерүү үчүн SLA (180 күн) + Ops-бот эскертүүлөр + акыркы текшерүү автоматтык белги.
Q: Документацияга CI туташтыруу мүмкүнбү?
A: Ооба. Синтаксисти, милдеттүү талааларды жана сынган шилтемелерди текшерүү коддун сыноолоруна окшош стандарттык түтүк катары жүргүзүлөт.