Centralizzazione dei fogli

1) Perché centralizzare i fogli

I loghi centralizzati sono le fondamenta di osservabilità, verifica e compilazione. Loro:

Accelerano la ricerca delle radici degli incidenti (correlazione per richiest-id/trace-id)
consentono di costruire alerti di segnalazione sui sintomi (errori, anomalie);
forniscono un controllo-traccia (chi/quando/cosa ha fatto);
riducono i costi grazie all'uniformazione e alla conservazione.

2) Principi di base

1. Solo loghi strutturati (JSON/RFC5424) - niente «free-text» senza chiavi.
2. Un unico schema di chiavi: 'ts, level, service, env, region, tenant, trace _ id, span _ id, sollest _ id, user _ id (masked), msg, kv...'.
3. La correlazione predefinita è di scorrere trace _ id dal gateway nei backend e nei loghi.
4. Minimo rumore: livelli corretti, sempling, deduplicazione delle ripetizioni.
5. Sicurezza by design: maschera PII, RBAC/ABAC, invariabile.
6. Economia: hot/warm/cold, compressione, aggregazioni, TTL e rehydration.

3) Architetture tipiche

EFK/ELK: (Fluent Bit/Fluentd/Filebeat) → (Kafka — опц.) → (Elasticsearch/OpenSearch) → (Kibana/OpenSearch Dashboards). Ricerca e aggregazione universale.
Loki-simili (loga-indice per etichetta): Promtail/Fluent Bit di Loki di Grafana. Più economico per grandi volumi, potente filtro label + visualizzazione lineare.
Cloud: CloudWatch/Cloud Logging/Log Analytics + esportazione in un magazzino freddo (S3/GCS/ADLS) e/o in SIEM.
L'approccio Data Lake è uno spin- → di → oggetti (parket/iceberg) che consente di eseguire ricerche analitiche a basso costo (Athena/BigQuery/Spark) + livello on-line (OpenSearch/Loki) per gli ultimi N giorni.

Raccomandazione: per prod-oncall mantenere lo strato online (7-14 giorni hot) e archiviare (mesi/anni) in lake con la possibilità di rehydrate.

4) Schema e formato dei fogli (raccomandazione)

Formato JSON minimo:

json
{
"ts":"2025-11-01T13:45:12. 345Z",
"level":"ERROR",
"service":"payments-api",
"env":"prod",
"region":"eu-central",
"tenant":"tr",
"trace_id":"0af7651916cd43dd8448eb211c80319c",
"span_id":"b7ad6b7169203331",
"request_id":"r-7f2c",
"user_id":"",        // masked
"route":"/v1/payments/charge",
"code":"PSP_TIMEOUT",
"latency_ms":1200,
"msg":"upstream PSP timeout",
"kv":{"provider":"psp-a","attempt":2,"timeout_ms":800}
}

Standard: RFC3339 per il tempo, level per il set «TRACE/DEBUG/INFO/WARN/ERRORE/FATAL», chiavi per snake _ case.

5) Livelli di loging e sempling

DEBUG - Solo nel def/stage; in prod per bandiera e con TTL.
INFO - Ciclo di vita di query/eventi.
WARN - Situazioni sospette senza influenza SLO.
ERRORE/FATAL - Influenza sulla query/utente.

Sempling:

rate-limit per errori ripetitivi (ad esempio 1/secondi/chiave).
tracciati tail-sempling (lasciare i loghi/roulotte completi solo per le richieste «cattive»).
dinamico: quando si verificano errori, ridurre i dettagli, mantenere il riepilogo.

6) Consegna di cassetti (agenti e spillatori)

Sul nodo: Fluent Bit/Filebeat/Promtail raccolgono file/jornal stdout, parsing, occultamento, buffering.
Code di rete: Kafka/NATS per l'antialiasing di picchi, retrai e pianificazione.
Affidabilità: backpressure, buffer di dischi, conferma delle consegne (at-least-once), indici idropotenti (chiave-hash).
Filtraggio sul bordo, scollegamento di chiacchiere e segreti prima di entrare in rete.

7) Indicizzazione e conservazione

Partizionamento in base al tempo (daily/week) + in «env/region/tenant» (tramite modelli di indice o etichette).

Livelli di storage:

Hot (SSD, 3-14 giorni): ricerca rapida e alert.
Warm (HDD/freezer, 30-90 giorni) - a volte si cerca.
Cold/Archive (oggetto, mesi/anni) - Complimenti e rari indagini.
Compressione e rotazione: ILM/ISM (criteri del ciclo di vita), gzip/zstd, downsampling (tabelle di aggregazione).
Rehydration - Consente di caricare temporaneamente le partizioni di archiviazione in un cluster hot.

8) Ricerca e analisi: richieste tipiche

L'incidente è un filtro per l'ora x 'service =...' x 'level> = ERROR'x'trace _ id '/' sollest _ id'.
Provider: "code: PSP _" e "kv. provider: psp-a'con raggruppamento regionale.
Anomalie: aumento della frequenza dei messaggi o cambio della distribuzione dei campi (rilevatori ML, rule-based).
Controllo: 'category: audit' +' actor'/' resource ', risultato.

9) Correlazione con metriche e tracciati

Identificatori identici: «trace _ id/span _ id» in tutti e tre i segnali (metriche, fogli, roulotte).
I links dei grafici sono una transizione cliccabile dal pannello p99 ai loghi per «trace _ id».
Annotazioni di release: versioni/canarini in metriche e logi per un riferimento rapido.

10) Sicurezza, PII e compilazione

Classificazione campi: PII/segreti/finanza - Maschera o rimuove all'ingresso (filtri Fluent Bit/Lua, Re2).
RBAC/ABAC: accesso a indici/etichette per ruolo, row-/field-level-security.
Immutabile (WORM/append-only) per il controllo e i requisiti dei regolatori.
Ritenzione e «diritto all'oblio»: TTL/Rimozione chiave, tokenizzazione «user _ id».
Firma/hash: integrità dei registri critici (admine-azioni, pagamenti).

11) SLO e metriche di pipline

Consegna: 99. Il 9% degli eventi nel livello hot è stato ≤ 30-60 secondi.
Perdita: <0. 01% su 24 ore (etichette di controllo).
Disponibilità ricerca: ≥ 99. 9% in 28 giorni.
Latenza query: p95 ≤ 2-5 secondi su filtri tipici.
Costo: $/1M eventi e $/memorizzazione/GB nel taglio dei livelli.

12) Dashboard (minimo)

Salute Pipline: ingresso/uscita degli shipper, retrai, riempimento dei buffer, lega Kafka.
Gli errori di servizio/codice sono top-N, trend, persile'latency _ ms '.
Attività di controllo: attività admine, errori di provider, disponibilità.
Economia: volume/giorno, indice-aumento, costo per strati, richieste «costose».

13) Operazioni e playbook

Tempesta di logi: attivare il sempling aggressivo/rate-limit sull'agente, sollevare i buffer, trasferire temporaneamente parte del flusso in warm.
Deriva dello schema: alert per nuove chiavi/tipi, avvio della negoziazione degli schemi (schema-catalog).
Ricerca lenta: intersezione degli indici, aumento delle repliche, analisi delle query pesanti, archiviazione delle vecchie partiture.
Errore di sicurezza: immutabilità immutabile, caricamento di artefatti, limitazione dell'accesso ai ruoli, RCA.

14) FinOps: come non rovinarsi sui cassetti

Rimuovi la verbosità, trasforma lo stacktrace a più righe in un campo stack e sgrava le ripetizioni.
Abilita TTL diverso per «env »/« level »/« category».
Utilizzare Loki/archivio + on-demand rehydrate per accedere raramente.
Partizioni e compressione: grandi partenze sono meno costose, ma tenete d'occhio la ricerca SLA.
Materializzare report analitici frequenti (aggregati giornalieri).

15) Esempi strumentali

Fluent Bit (occultamento e invio in OpenSearch)

ini
[INPUT]
Name       tail
Path       /var/log/app/.log
Parser      json
Mem_Buf_Limit   256MB

[FILTER]
Name       modify
Match
Remove_key    credit_card, password

[OUTPUT]
Name       es
Host       opensearch. svc
Port       9200
Index       logs-${tag}-${date}
Logstash_Format  On
Suppress_Type_Name On

Nginx access log в JSON с trace_id

nginx log_format json escape=json '{ "ts":"$time_iso8601","remote":"$remote_addr",'
'"method":"$request_method","path":"$uri","status":$status,'
'"bytes":$body_bytes_sent,"ua":"$http_user_agent","trace_id":"$http_trace_id"}';
access_log /var/log/nginx/access. json json;

Criteri ILM ( )

json
{
"policy": {
"phases": {
"hot":  { "actions": { "rollover": { "max_age": "7d", "max_size": "50gb" } } },
"warm": { "min_age": "7d", "actions": { "forcemerge": { "max_num_segments": 1 } } },
"delete":{ "min_age": "90d", "actions": { "delete": {} } }
}
}
}

16) Assegno-foglio di implementazione

Lo schema di campi e i livelli dei fogli sono stati accettati. la correlazione trace/sollest-id è attivata.
Agenti configurati (Fluent Bit/Promtail) con maschera e buffer.
È stato selezionato un livello in linea (OpenSearch/Loki/cloud) e un archivio (S3/GCS + parket).
Regole di ritenzione ILM/ISM + hot/warm/cold, rehydrate-processo.
RBAC/ABAC, immutabile per il controllo, registro di accesso.
Dashboard di pipline, alert per perdita/lega/buffer di disco.
Playbook: tempesta di logi, diagramma di deriva, ricerca lenta, sicurezza-incidente.
Limiti finanziari: $/1M eventi, quote per richieste «costose».

17) Anti-pattern

I fogli di testo senza struttura non possono essere filtrati o aggregati.
Gli stacktrace giganti in INFO hanno fatto esplodere il volume.
Non c'è correlazione tra tutti i servizi.
Conservare «tutto per sempre» fa pagare la nuvola come un aereo.
I segreti/PII nei reparti sono rischi complessi.
Le modifiche manuali agli indici in vendita sono la deriva e le lunghe interruzioni di ricerca.

18) Totale

La centralizzazione è un sistema, non solo una pila. Lo schema standardizzato, la correlazione, gli schemi di sicurezza, lo storage post-uso e le severe regole di accesso trasformano i loghi in un potente strumento per SRE, sicurezza e prodotto. Reticenze e FinOps corrette mantengono il budget, mentre lo SLO pipline e playbook rendono le indagini veloci e riproducibili.

Centralizzazione dei fogli

Nginx access log в JSON с trace_id

Criteri ILM ( )

Mettiti in contatto

Contatto rapido

Il video sarà aggiornato presto

Siamo attualmente molto impegnati con i progetti