LogoKalli
Deployment

Monitoring & Logging

Monitoring & Logging

  • Journaux centralisés pour tous les bots.
  • Suivi des performances, alertes, et analytics d'usage.
  • Intégration CI/CD (GitLab CI) pour validations automatiques.

Objectifs du monitoring

  • Fiabilité: détecter rapidement régressions, incidents, goulots d’étranglement.
  • Pilotage produit: comprendre l’usage (intentions, volume, latence RAG/LLM) par bot.
  • Optimisation coûts: corréler charge, tokens, ressources consommées.

Indicateurs à suivre

  • Métriques: latences (p95/p99), taux d’erreurs, QPS, files d’attente, CPU/Mem, saturation DB, temps d’index.
  • Logs: requêtes, erreurs, événements clés (auth, régénération d’index), corrélés par bot.id et request.id.
  • Traces: parcours des requêtes (web -> server -> RAG -> provider), pour isoler les lenteurs.

Mise en place et instrumentation

  • Stack classique: Prometheus + Grafana (métriques), Loki/ELK (logs), Tempo/Jaeger (traces).
  • Instrumentation: exposez des endpoints /metrics, ajoutez des trace spans aux appels RAG/LLM.
  • Corrélation: propagez bot.id et request.id dans headers/logs/traces.
[req] bot.id=kalli request.id=abcd-1234 latency=220ms status=200 tokens=850

Alerting

  • Seuils dynamiques: alerte sur p95 latence, erreurs 5xx, surconsommation CPU/mémoire.
  • SLO/SLI: définissez des objectifs (ex: 99.5% req < 1s) et alertez sur les écarts.
  • Playbooks: documentez procédures de mitigation (rollback Helm, purge cache, scale up, etc.).

Bonnes pratiques

  • Dashboards par bot: filtres par bot.id pour comparer et diagnostiquer.
  • Rétention: ajustez la durée de conservation (coût vs besoin d’analyse).
  • Tests en CI: lint des dashboards/alertes, tests de fumée post-déploiement.