Monitoring & Alerting

Metrik izlemekten fazlası: release riskini erken görünür kılan, owner’a bağlanan operasyonel alarm sistemi.

Ne çözer

Dağınık performans sinyallerini tek bir karar yüzeyinde toplar; geç fark edilen problemleri azaltır.

Kimler için

  • Engineering Manager
  • SRE/Platform ekipleri
  • Operasyon liderleri

Ön koşullar

  • Threshold politikaları belirlenmiş olmalı
  • Alert alıcıları atanmış olmalı
  • Queue ownership tanımlı olmalı

Adım adım

1. Kritik metrikleri seç

Müşteri etkisiyle ilişkili vitals ve kalite metriklerini sabitle.

2. Eşik ve escalation kur

Warning ve incident seviyelerini net owner’larla tanımla.

3. SLO ve queue snapshot takip et

P95 ve lag trendlerini düzenli review et.

4. Policy’yi güncelle

Incident sonrası eşik ve alarm modelini geri besleme ile iyileştir.

Operasyonel çıktılar

  • Vitals trend raporu
  • SLO durum özeti
  • Queue depth/lag görünürlüğü

Plan uygunluğu

  • Temel monitoring tüm planlarda kullanılabilir
  • SLO ve ileri operasyon panelleri enterprise odaklıdır
  • Retention ve gözlem kapsamı plan bazlı değişir

İlgili yetenekler

GAPro

Tracks Core Web Vitals and technical quality signals per crawl

Kaynak: Monitoring and analytics API surfaces

BetaEnterprise

Provides SLO snapshots for API critical and WA-heavy paths

Kaynak: Admin perf SLO endpoint

BetaEnterprise

Includes queue saturation and policy-driven autoscale visibility

Kaynak: Queue policy + autoscale monitor outputs

Limitler ve guardrail’ler

  • Çok düşük eşikler gürültü üretir
  • On-call sahipliği olmadan alarm genişletme
  • Cadence artışını queue kapasitesiyle birlikte yönet

Beklenen sonuç

  • Erken uyarı ile müşteri etkisi azalır
  • Incident triage standardize olur
  • Metrik-temelli yönetim güçlenir

Sorun giderme yolları

  • Alarm patlıyorsa eşik modelini yeniden kalibre et
  • Lag artıyorsa concurrency ve queue dağılımını optimize et
  • SLO anlamsızsa örneklem penceresini doğrula

Kesinlik skor kartı

monitoringÖrneklem: 0Organizasyon: 0insufficient_data

Güvenilir bir kesinlik skoru göstermek için henüz yeterli kanıt yok.

Kanıt

Performance Monitoring: Example SLO payload

{
  "status": {
    "api_critical": "pass",
    "wa_heavy": "pass",
    "crawl_queue_lag": "insufficient_data"
  },
  "observations": {
    "api_critical_p95_ms": 210,
    "wa_heavy_p95_ms": 950,
    "crawl_queue_depth": 4
  }
}

Eskalasyon

Reliability modelini enterprise seviyede sertleştirelim

Eşik, triage ve kapasite politikalarını yük profilinize göre yeniden kurgulayalım.