Troubleshooting

Flujo de resolución de incidentes con foco en MTTR bajo y evidencia de alta calidad.

Qué resuelve

Reduce prueba-error durante incidentes y mejora handoff entre equipos.

Para quién es

  • Equipos on-call
  • Operación QA/plataforma
  • Coordinadores de incidentes

Prerequisitos

  • Owner del incidente definido
  • Run IDs y timestamps recolectados
  • Impacto delimitado

Paso a paso

1. Clasificar dominio de fallo

Determina si el problema está en scan, workflow, analytics o integración.

2. Revisar señales base

Inspecciona cola, estado de runs y fallos recientes.

3. Aplicar árbol de decisión

Sigue flujo sí/no hasta confirmar causa raíz.

4. Escalar con evidencia

Incluye timeline, payloads y acciones realizadas.

Salidas operativas

  • Registro de incidente clasificado
  • Hipótesis de causa raíz
  • Paquete de escalación listo

Disponibilidad por plan

  • Enfoque de troubleshooting disponible en todos los planes
  • Profundidad de telemetría depende del plan
  • Enterprise puede incluir rutas de soporte ampliadas

Límites y guardrails

  • No remediar sin clasificar el fallo
  • Evitar cambios paralelos sin ownership
  • Escalar si se supera timeout interno

Resultado esperado

  • Menor MTTR
  • Escalaciones más accionables
  • Mejor aprendizaje post-incidente

Rutas de troubleshooting

  • Ataca primero la primera causa validada
  • Si hay saturación de cola, involucra owner de workflow
  • Si falla payload, escala con ejemplos concretos

Árbol de decisión de troubleshooting

Sigue los pasos en orden. Cuando confirmes una causa raíz, documenta evidencia y recién ahí aplica remediación o escalación.

1. ¿El problema es falla o demora de ejecución de scan?

Sí: Ruta scan

Revisa queue lag, salud de workers y errores de run antes de reintentar.

No: Continuar

Pasa a workflow/integración para validar si el origen es de trigger.

2. ¿El workflow terminó en partial_failure?

Sí: Ruta workflow

Aísla URLs fallidas y revisa política de retry/dedupe.

No: Continuar

Pasa a analytics para validar consistencia de lecturas y métricas.

3. ¿Analytics muestra datos incompletos o inconsistentes?

Sí: Ruta analytics

Valida tracker, ventana de ingestión y política de cache.

No: Continuar

Pasa a integración para revisar contrato de webhook/payload.

4. ¿El callback webhook falla por firma o payload?

Sí: Ruta integración

Revisa rotación de secretos, validación de firma e idempotencia.

No: Escalar

Escala con run IDs, timeline de impacto y acciones ya intentadas.

Escalación

¿Incidente crítico en curso?

Escala con evidencia de run para activar respuesta más rápida y efectiva.

Troubleshooting | Crawlens Docs — Crawlens